期刊-2025-12

Deepseek

2025年12月24日

屏幕截图 2026-03-24 153402.png

2025年1月20日,成立一年多的中国人工智能企业“深度求索”(DeepSeek)正式发布开源大模型DeepSeek-R1。该模型训练成本极低,在数学推理、代码生成等任务中比肩国际领先水平,为全球人工智能大模型发展提供了一条低成本、高效能的“中国路径”。与OpenAI的ChatGPT相比,DeepSeek不仅率先达到与OpenAI-o1模型相当的推理效果,还大幅降低了推理模型成本。其新模型DeepSeek-R1以十分之一的成本实现了GPT-o1级别的性能表现,引发海外AI圈广泛讨论。

DeepSeek-R1的核心竞争力在于对算力效率的系统性革新。它采用纯强化学习训练方式,首次验证了无需海量标注数据也能实现顶尖推理能力,大幅降低了训练成本;同时,该模型能自主生成和验证推理步骤,实现自我反思和校正,展现出强大的智能水平。此外,DeepSeek以开源姿态打破技术垄断,开放模型架构、训练工具及数据处理全流程,允许开发者自由调用与二次开发,吸引全球数十万开发者参与生态共建。

2月10日,长安汽车宣布已完成与DeepSeek的深度融合,助力北斗天枢2.0计划加速落地,相关成果于2月12日实现行业首发量产搭载上市。2月15日,部分微信用户发现,微信搜索上线“AI搜索”功能,接入DeepSeek-R1的“深度思考”服务。2月16日,腾讯集团确认微信搜一搜在调用混元大模型丰富AI搜索的同时,正式开启DeepSeek的灰度测试接入。同月,北京市多区将智慧城市管理、政务服务等平台接入部署DeepSeek大模型,依托人工智能赋能城市管理、政务服务和基层社会治理。9月,DeepSeek-R1相关研究成果登上《自然》杂志,研究证实,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。

DeepSeek的成功证明,通过算法优化与工程创新,即便在算力有限条件下,模型也能达到顶尖性能。其发展路径不仅为全球人工智能领域贡献了新技术路径,更有望推动全球AI竞争从“算力竞赛”转向“效率革命”,重塑AI产业生态。同时,如何深度发挥DeepSeek各环节的“化学”效应,服务于多行业创新发展,实现科研研发能力跃迁和研发生态繁荣,也成为各方关注的重要议题。