DeepSeek 是一家专注于人工智能的创新型科技公司,由知名私募巨头幻方量化孕育而生,幻方量化为其技术研发提供了强大的硬件支持。引燃科技市场的是其12 月 26 日推出 DeepSeek-V3,具有 6710 亿参数,在多项基准测试中表现出色,甚至超越了 Llama 3.1 和 Qwen 2.5 等模型。
DeepSeek 技术特点:
高效训练:DeepSeek-V3 采用 FP8 训练,仅使用 2048 个 H800 GPU,总训练 GPU 卡时为 2788 千小时,以较低成本在短时间内完成训练。
参数规模大:DeepSeek-V3 总参数达 6710 亿,每个 token 激活 370 亿个参数,能学习和处理更复杂的任务。
上下文窗口大:支持 128k 上下文窗口,可更好地理解长序列信息,在处理长文本、多轮对话等任务中具有优势。
DeepSeek 应用领域:
聊天和编码场景:能够理解和生成代码,为开发者提供帮助,提高编程效率。
多语言自动翻译:支持多达 20 种语言的实时翻译和语音识别,满足企业用户处理多种语言内容的需求。
图像生成和 AI 绘画:整合视觉理解技术,可根据用户的文本描述生成高质量图像,丰富创意表达。
百科知识:在知识类任务如 MMLU、MMLU-pro、GPQA、SimpleQA 上有出色表现,能为用户提供准确的知识解答。
长文本处理:在 DROP、Frames 和 LongBench v2 等长文本测评中平均表现超越其他模型,可用于长文档的分析、总结等工作。