• 1.摘要
  • 2.基本信息
  • 3.发展历程
  • 4.企业业务
  • 4.1.经营范围
  • 4.2.产品服务
  • 5.企业合作
  • 5.1.中国企业
  • 5.2.国外企业
  • 6.政府合作
  • 7.企业管理
  • 7.3.股东信息
  • 7.4.管理层
  • 8.主要荣誉
  • 9.社会影响
  • 10.企业事件
  • 11.相关评价
  • 12.参考资料

DeepSeek

中国科技公司

DeepSeek,全称“杭州深度求索人工智能基础技术研究有限公司”,简称“深度求索”1,于2023年7月17日由幻方量化创立2,位于杭州市拱墅区,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术3,法定代表人、经理、董事为裴湉45

2024年1月5日,该公司发布第一个大模型DeepSeek LLM。之后,相继发布DeepSeek-Coder、DeepSeek-VL、DeepSeek V2、DeepSeek V3等模型6。其中,DeepSeek V2模型因在中文综合能力评测中的出色表现,且以极低的推理成本引发行业关注,被称为“AI界的拼多多”2。2025年1月20日,该公司正式发布DeepSeek-R1模型,并同步开源模型权重1。DeepSeek-R1性能逼近OpenAI o1正式版,推理成本却仅为OpenAI o1的几十分之一3。1月27日,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一3。1月28日,DeepSeek发布开源多模态模型Janus-Pro,其中70亿参数版本的Janus-Pro-7B模型在使用文本提示的图像生成排行榜中优于OpenAI的DALL-E 3和Stability AI的Stable Diffusion7。2月8日,QuestMobile数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后在2月1日突破3000万大关,成为截至2025年2月史上最快达成这一里程碑的应用8

2025年2月16日,腾讯表示微信搜一搜在调用混元大模型丰富AI搜索的同时,在近期灰度测试接入DeepSeek。在灰度测试范围的用户,可在对话框顶部搜索入口,看到“AI搜索”字样,点击进入后,可免费使用DeepSeek-R1满血版模型,获得更多元化的搜索体验9。2月19日,虎牙直播宣布接入DeepSeek-R1满血版,支持深度推理和联网搜索10。2月25日,DeepSeek发布了其“开源周”第二天的成果:DeepEP,第一个用于MoE模型(混合专家模型)训练和推理的开源EP通信库11。3月1日,DeepSeek通过社交平台发布《DeepSeek-V3/R1推理系统概览》技术文章,首次公布模型推理系统优化细节,首次披露理论利润率达545%12。8月21日,DeepSeek正式上线DeepSeek-V3.113。2026年1月27日,DeepSeek发布全新DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分,而不再只是机械地从左到右扫描14

基本信息

  • 中文名

    杭州深度求索人工智能基础技术研究有限公司

  • 外文名

    Hangzhou Deeply Seeking Artificial Intelligence Basic Technology Research Co., LtdDeepSeek

  • 简称

    深度求索1

  • 公司类型

    其他有限责任公司

  • 成立时间

    2023年7月17日

发展历程

2023年7月17日,该公司由幻方量化创立2

2024年1月5日,该公司发布第一个大模型DeepSeek LLM6。同月,该公司率先开源中国首个MoE大模型(DeepSeek-MoE)17。1月25日,该公司发布DeepSeek-Coder模型。2月5日,该公司发布DeepSeekMath模型。3月11日,该公司发布DeepSeek-VL模型。5月7日,该公司发布了其第二代开源Mixture-of-Experts(MoE)模型——DeepSeek-V22。6月17日,该公司发布DeepSeek-Coder-V2模型6。9月5日,DeepSeek官方更新API支持文档,宣布合并DeepSeek Coder V2和DeepSeek V2 Chat两个模型,升级推出全新的DeepSeek V2.5新模型。官方表示为向前兼容,API用户通过deepseek-coder或deepseek-chat均可以访问新的模型17。12月13日,该公司发布DeepSeek-VL2模型6。12月26日晚间,该公司宣布,全新系列模型DeepSeek-V3首个版本上线并同步开源2

2025年1月20日,该公司正式发布DeepSeek-R1模型,并同步开源模型权重1。1月26日,根据市场分析公司Appfigures的数据(未包含中国的第三方应用商店)显示,DeepSeek的应用程序首次登上苹果App Store的榜首18。1月27日,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一3。1月28日,DeepSeek发布开源多模态模型Janus-Pro,其中70亿参数版本的Janus-Pro-7B模型在使用文本提示的图像生成排行榜中优于OpenAI的DALL-E 3和Stability AI的Stable Diffusion7

截至2025年2月2日,DeepSeek登顶140个国家的苹果App Store下载排行榜首位,并在美国的Android Play Store中同样占据榜首位置18。2月8日,QuestMobile数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后在2月1日突破3000万大关,成为截至2025年2月史上最快达成这一里程碑的应用8。2月25日,DeepSeek发布了其“开源周”第二天的成果:DeepEP,第一个用于MoE模型(混合专家模型)训练和推理的开源EP通信库。EP为Expert Parallelism(专家并行),是一种在大规模分布式AI模型训练中使用的技术,能用于提升模型并行处理能力和训练效率11

2025年2月28日,DeepSeek公开了Fire-Flyer文件系统(简称3FS)和轻量级数据处理框架Smallpond。3FS面向现代SSD和RDMA网络,能将固态硬盘带宽利用到极致。它可以在没有双方操作系统介入的情况下,将数据直接从一台计算机的内存传输到另一台计算机,也不需要中央处理器、CPU缓存或上下文交换参与。特点就是高通量、低延迟,尤其适合在大规模并行计算机集群中使用19。3月1日,DeepSeek通过社交平台发布《DeepSeek-V3/R1推理系统概览》技术文章,首次公布模型推理系统优化细节,披露理论利润率达545%。文章写道:“DeepSeek-V3 / R1 推理系统的优化目标是:更大的吞吐,更低的延迟。”为实现这两个目标,DeepSeek的方案是使用大规模跨节点专家并行(EP),但该方案也增加了系统复杂性。文章的主要内容就是关于如何使用EP增长批量大小(batch size)、隐藏传输耗时以及进行负载均衡12

2025年8月21日,DeepSeek正式上线DeepSeek-V3.1,新版V3.1采用了「混合推理」,一个模型,两种模型:思考与非思考(自主切换)。相较于DeepSeek-R1-0528 ,DeepSeek-V3.1-Think推理速度更快13

2026年1月27日,DeepSeek发布全新DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分,而不再只是机械地从左到右扫描。这种方式模拟了人类在观看场景时所遵循的逻辑流程。最终,该模型在处理布局复杂的图片时,表现优于传统的视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解14

企业业务

经营范围

一般项目:工程和技术研究和试验发展;技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;软件开发;计算机系统服务;信息系统集成服务;人工智能应用软件开发;信息技术咨询服务;电子产品销售;通讯设备销售;仪器仪表销售;数据处理服务;互联网数据服务;计算机软硬件及辅助设备零售;人工智能硬件销售;专业设计服务(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)4;互联网信息服务5

产品服务

1.DeepSeek LLM:Scaling Open-Source Language Models with Longtermism

这是深度求索的第一个大模型。DeepSeek LLM包含670亿参数,从零开始在一个包含2万亿token的数据集上进行了训练,数据集涵盖中英文。全部开源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat,供研究社区使用。DeepSeek LLM 67B Base在推理、编码、数学和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在编码和数学方面表现出色。它还展现了显著的泛化能力,在匈牙利国家高中考试中取得了65分的成绩。当然,它还精通中文:DeepSeek LLM 67B Chat在中文表现上超越了GPT-3.5。

2.DeepSeek-Coder:When the Large Language Model Meets Programming -The Rise of Code Intelligence

DeepSeek Coder由一系列代码语言模型组成,每个模型均从零开始在2万亿token上训练,数据集包含87%的代码和13%的中英文自然语言。代码模型尺寸从1B到33B版本不等。每个模型通过在项目级代码语料库上进行预训练,采用16K的窗口大小和额外的填空任务,以支持项目级代码补全和填充。DeepSeek Coder在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。

3.DeepSeekMath:Pushing the Limits of Mathematical Reasoning in Open Language Models

DeepSeekMath以DeepSeek-Coder-v1.5 7B为基础,继续在从Common Crawl中提取的数学相关token以及自然语言和代码数据上进行预训练,训练规模达5000亿token。DeepSeekMath 7B在竞赛级MATH基准测试中取得了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。

4.DeepSeek-VL:Towards Real-World Vision-Language Understanding