DeepSeek,一家原本不为多数媒体所瞩目的“小企业”,以其开源路线和创新精神,在2025年初成为中国大模型领域科技创新的全球焦点。据报道,DeepSeek最新发布的大模型在多项性能测试中已达到OpenAI的o1水平,部分项目甚至超越,引发全球科技界热议,被形容为“朝硅谷开了一枪”。
DeepSeek的“神话”主要围绕其算力成本投入与性能表现的对比,以及开源路线的逆袭。然而,深入探究后发现,DeepSeek的真实算力成本投入远超部分媒体报道的600万美元,且其成功不应简单归结为闭源与开源路线的胜负。更严谨地看待,DeepSeek展示了模型架构底层创新的价值,提升了算力效率,推动了开源大模型产品的能力超越。
为何这家资金不占优势、专注于底层创新的开源企业能实现“弯道超车”?DeepSeek创始人梁文锋透露,团队的目标是AGI(通用人工智能),因此选择研究新的模型结构,在有限资源下实现更强模型能力。这一选择与行业共识“要做应用”相悖,多数国产大模型企业更侧重于具体且不成熟的应用研发,如陪伴型AI聊天机器人、文生图等。面对与国外在模型结构、训练动力学和数据效率上的差距,DeepSeek选择回到模型架构底层去创新和优化,最终反而更快达成目标。
AGI的长期发展虽与算力成本相关,但更重要的是创新本身。大模型领域的竞争并非简单的资源加总游戏,不是囤更多算力或更早拥有更多用户就能快速突破。那些曾经风光无二却迅速退潮的企业,往往忽视了这一基础逻辑。DeepSeek的启发在于,我们仍处于充满不确定性的创新探索周期,短视是创新的最大敌人。坚持长期视角,专注底层创新,探索新路径,比起融资、囤卡和商业化,更有可能获得最终胜利。
DeepSeek的成功不仅是对开源路线的肯定,更是对底层创新和长期视角的坚持的认可。王晓凯