人工智能时代的 DeepSeek 浪潮
01 云巨头集中接入,彰显 DeepSeek 魅力
2 月 2 日至 4 日,腾讯云、百度智能云、阿里云先后接入 DeepSeek 相关大模型,大厂们在春节假期为深度求索公司加班加点,这一现象便是 DeepSeek 火爆的有力佐证。春节期间,与深度求索直接或间接相关的新闻不断刷新,如英伟达市值蒸发创纪录、OpenAI 上新 o3-mini 推理模型,以及 DeepSeek 卡顿、榜单登顶等消息屡见不鲜。
实际上,海外同行在拥抱 DeepSeek 方面动作更为迅速。1 月底,微软、英伟达、亚马逊科技等便已完成接入。据悉,DeepSeek 以仅 3% 的成本超越了 OpenAI,且秉持开源策略,这意味着开发者能够以低成本训练出性能优异的 AI 模型。无论是出于满足客户多样化需求,还是构建 AI 生态的考量,云厂商快速接入这一最火的大模型,无疑是极具性价比的选择。
春节助力,DeepSeek 加速传播
春节期间,DeepSeek 的热度进一步飙升。海内外大厂接入的,正是春节前便在各大主流媒体和社交网站刷屏的大模型 “黑马”,如深度求索在 2025 年 1 月 20 日发布的 DeepSeek - R1,以及 2024 年 12 月 26 日上线的全新系列模型 DeepSeek - V3。
英国《经济学人》杂志评论称:“突然间,美国在人工智能领域相对于中国的领先地位,似乎比自 ChatGPT 走红以来的任何时候都要小。” 原因便是深度求索发布了令人印象深刻的大语言模型。
从数据层面来看,七麦数据显示,1 月 27 日至今,DeepSeek 在中国内地免费苹果总榜、应用榜、效率榜均位列第一。在全球榜单中,截至记者发稿,DeepSeek 在 72 个地区的免费苹果总榜、应用榜、效率榜占据榜首。AI 产品榜 1 月 31 日的数据表明,DeepSeek 上线 18 天日活用户数达 1500 万,而 ChatGPT 达到相同数据用了 244 天,DeepSeek 的增速是 ChatGPT 的 13 倍之多,被公认为全球增速最快的 AI 应用。
除了大模型本身的强大实力,春节也为 DeepSeek 的加速扩散提供了契机。2025 年 1 月 28 日除夕夜,在互联网大厂工作的林悦(化名)将 DeepSeek 生成的拜年祝福分享到家族群,使得 DeepSeek 迅速在亲朋好友间传播,当晚他为自己及亲友生成了不少于 10 个新春祝福。次日,林悦在西北四线城市生活的阿姨告知,自己在社交平台刷到了有关 DeepSeek 的短视频。此外,“DeepSeek 回答如何过好这一生” 的话题登上热搜第一,其回复 “没有完美的人生剧本,所有选择都有代价,关键是要有承担选择的勇气” 引发广泛关注。记者尝试向 DeepSeek 提出同样问题时,多次显示 “服务器繁忙,请稍后再试”,足见其火爆程度。
七巨头集结,深度拥抱 DeepSeek
2 月 4 日,腾讯云再次发力,在腾讯云 TI 平台推出 “开发者大礼包”,实现 DeepSeek 全系模型一键部署,部分模型还提供限免体验,旨在让更多开发者便捷调用 DeepSeek。此前,腾讯云已于 2 月 2 日宣布将 DeepSeek - R1 大模型一键部署至腾讯云 “HAI” 上,开发者仅需 3 分钟即可接入调用,一改往日迟缓风格。
百度智能云则更早打出低价牌。2 月 3 日,百度智能云千帆平台正式上架 DeepSeek - R1 和 DeepSeek - V3 模型,并推出超低价格方案,用户还可享受限时免费服务。目前,腾讯云 TI 平台采用按量计费和包年包月计费模式,百度智能云千帆平台限时免费至 2 月 18 日 24:00。
阿里云同样在春节期间便已开工。2 月 3 日,阿里云宣布阿里云 PAI ModelGallery 支持云上一键部署 DeepSeek - V3、DeepSeek - R1。阿里云相关人士介绍,以全部部署好所需资源为例,部署 DeepSeek - R1 - Distill - Qwen - 7B 模型的价格约为 11.1 元 / 小时(以 A10 机型为例);部署 DeepSeek - R1 模型的价格约为 316 元 / 小时,模型部署成功后按实例运行时长计费,不满 1 小时按具体分钟数折算。此外,阿里云百炼平台也已上线 DeepSeek - R1 和 DeepSeek - V3 模型 API,且面向用户限时免费。
华为云在 2 月 1 日即宣布,硅基流动与华为云团队联合首发并上线基于华为云昇腾云服务的 DeepSeek - R1/V3 推理服务。
在这波竞争中,海外公司凭借非春节假期的优势抢占先机。1 月 31 日,英伟达宣布 NVIDIA NIM(一种云原生微服务技术)已可使用 DeepSeek - R1;微软同日称已将 DeepSeek - R1 正式纳入 Azure AI Foundry,成为该企业级 AI 服务平台的一部分;亚马逊云科技(AWS)也宣布企业和开发者可在 Amazon Bedrock 和 Amazon SageMaker AI 中部署 DeepSeek - R1 模型,还能使用 AWS Trainium 等以经济高效的方式部署 DeepSeek - R1 - Distill 模型。
“拼多多” 路径,凸显成本优势
《经济学人》指出,“中国的大语言模型并非最顶尖的,但它们的制造成本要低得多”。例如,阿里旗下的通义千问 QwQ - 32B - Preview 于 2024 年 11 月推出,与美国的顶尖模型相比,差距不到三个月,DeepSeek 在一项标准评估中排名第七。报道称,DeepSeek 由 2000 多块二流芯片训练而成,而 Meta 的模型使用了 1.6 万块顶尖芯片。在某些排名中,DeepSeek 的表现甚至超越了 Meta 的模型。训练一个美国的大语言模型成本高达数千万美元且仍在攀升,而 DeepSeek 方面表示其训练成本不到 600 万美元。
工信部信息通信经济专家委员会委员盘和林提到,DeepSeek 火爆的原因在于其采取低价和开源并行的策略。尤其是开源策略,此前全球 AI 开发者大多依赖 Meta 的 Llama 开源模型,如今 DeepSeek 的出现改变了这一局面,使得 Llama 优势不再,而像 ChatGPT 等收费较高的模型也受到较大冲击。免费与收费之间,开发者更容易做出选择,DeepSeek 也成为中国第一个打通国内外应用生态的产品。
比达分析师李锦清认为,模型成本的下降对产业链上的云服务厂商利好显著,这正是云厂商火速接入 DeepSeek 的原因。从市场竞争力与商业价值角度看,接入 DeepSeek 模型有助于云厂商提升自身在 AI 领域的竞争力,吸引更多开发者和企业客户,通过提供模型部署和应用服务,拓展业务范围,增加收入来源。
02 众说纷纭 DeepSeek
从 “提示词工程” 到 “零门槛革命”
“免费用!免费用!这回是真的把提示词工程干死了!”LangGPT 社区创始人云中江树向记者直言,“我的心态比较开放,社区建立之初就认为这是阶段性事物。” 春节前,云中江树就指出,GPT - o1 出现时,写提示词的需求已有所降低,但一个月 1000 多元的订阅费过高。而 DeepSeek 直接免费,真正颠覆了提示词工程。
他用韦恩图解释道,人已知而模型未知的区域正在缩小,人未知而模型已知的区域正在快速扩大,意味着 AI 正变得比专家更聪明,提示工程需从面向过程的提示方法向面向目标的提示方法转变,并给出公式:必要信息 + 清晰目标 = 高质量输出。
OpenAI 通过 API 接口构建技术壁垒,而 DeepSeek 选择将模型架构与权重参数完全开源,这种 “技术裸奔” 策略打破了行业惯例。枫清科技(Fabarta)联合创始人兼 CTO 杨成虎表示,DeepSeek 背后是一支极具极客精神的团队,对技术充满理想主义,开源工作也做得十分彻底。容联云大模型产品负责人唐兴才提供的数据显示,经过实际测试,基于 DeepSeek,容联云在会话质检、会话数据挖掘等方面的准确率提升了 2 - 3 个百分点。
从 “极限压缩” 到 “创新土壤”
2024 年后半年以来,创新工场董事长兼零一万物 CEO 李开复多次强调成本问题。他指出,中国工程师找到了多种降低成本的方法,提出新算法、设计新模型结构,大幅加速模型训练进程,且能使其在性能较差的芯片上运行,无论是国产还是非国产芯片均能适配。
以 DeepSeek 等中国团队为例,与美国团队之间的技术差距从两年前的七年缩短至几个月,训练成本降低到十分之一甚至更少,推理成本降低到大约三十分之一。用心识宇宙(Mindverse)的创始人兼 CEO 陶芳波表示,整个春节他大多时间都在研读 DeepSeek 的论文,深感震撼。他解读称,大模型训练是复杂的软硬一体工程,而 DeepSeek 几乎重新设计了绝大部分关键组件,如 MLA、GRPO、DeepSeekMoE、DualPipe、FP8 混合精度、R1 - Zero、MTP 等,创新范围广、密度大,从学术视角看,很多创新单拿出来都达到顶级学术会议最佳论文的水平。
从 “模型竞赛” 到 “应用比拼”
应用端的反馈是检验技术的直接窗口。一位云厂商相关人士透露,春节后收到的咨询很多并非关于算力,而是希望借助他们的帮助调用 DeepSeek 开发自己的应用。广东共建未来教育科技的负责人刘俊就想通过 DeepSeek 筛选适合公司的应用开发服务商,如同在众多商品中挑选符合自己要求的面膜,他向 DeepSeek 强调价格透明后,得到了四家备选公司,目前已联系了其中一家。
已推出应用的企业也迅速接入 DeepSeek。唐兴才表示,DeepSeek 有利于大模型应用企业或其他有大模型需求的企业以较低成本接入并使用相关技术服务,有效降低了技术应用门槛。容联云的大模型应用已接入 DeepSeek,基于此在不同行业和业务场景定制个性化解决方案,推动银行、保险、证券、医疗等领域的数智化应用和发展。当开源策略打破技术垄断,应用创新重构价值分配,生态竞争取代单点突破,从业者正见证一个新时代的开启。李开复认为,如今在中国,AI - First 应用百花齐放的土壤已经具备,那些在移动互联网时代具备优秀 App 开发能力的人,迎来了大展身手的舞台。
03 产业链冲击波
连锁反应持续,各方积极响应
“我们打算招募更多的闲置算力。” 青云科技市场总监王玉圆在接入 DeepSeek - R1 后向记者透露,在她看来,这波连锁反应中,上游的算力公司最早受益。
2024 年底至今,DeepSeek 成为科技圈当之无愧的顶流,引发产业链震动。众多云计算企业纷纷接入,2 月 6 日百度智能云宣布千帆大模型平台上线 DeepSeek - R1 与 DeepSeek - V3 模型首日,超 1.5 万家客户进行模型调用;多家国产 GPU(图形处理器)实现适配,摩尔线程即将开放的夸娥(KUAE)GPU 智算集群,全面支持 DeepSeek - V3、R1 模型及新一代蒸馏模型的分布式部署;大模型应用也实现规模化集成,涵盖网文、网安、图形影像等多个领域。
“紧锣密鼓”“一直在关注”“快”,是记者与产业链各环节公司交流时听到最多的词汇,各方都不想错过这一机遇。2 月 5 日,第三方机构 AI 产品榜公布了 DeepSeek 的最新数据:上线 21 天,日活用户 2215 万,相比几天前 “上线 18 天日活用户数 1500 万” 的成绩,增长曲线依旧陡峭。资本市场也迅速做出反应,DeepSeek 概念股涨停潮释放出市场的热情。
实际上,AI 产业链上的各类企业更早察觉到机会。王玉圆表示,在 DeepSeek - V3 发布时(2024 年 12 月 26 日),青云内部就已开始测试。由于 V3 版本体量较大,对算力要求高,后来 DeepSeek 发布了体量更小的 DeepSeek - R1(2025 年 1 月 20 日)及一些蒸馏版本,青云迅速上线了 4 个 DeepSeek - R1 系列模型和文生图版本模型。此前,华为云、腾讯云、百度智能云、阿里云已接入 DeepSeek 模型,与青云科技同日官宣合作的还有天翼云、京东云、字节跳动旗下的火山引擎。
王玉圆称,他们正在测试 DeepSeek - R1 满血版,希望以更低成本接入,无论使用何种类型的 GPU,青云都会尽快为客户提供 DeepSeek - R1 满血版服务。处于产业链上游的算力企业也迅速跟进,截至目前,沐曦、天数智芯、摩尔线程、海光信息 4 家国产 GPU 企业均宣布已适配 DeepSeek 模型服务。摩尔线程市场生态高级总监吕其恒表示,DeepSeek 蒸馏模型可直接部署在其 GPU 和集群上,DeepSeek - V3 和 R1 模型虽需一定适配,但摩尔线程的 CUDA(由 NVIDIA 开发的并行计算平台和编程模型)兼容较为完整,春节期间便快速完成了适配。据他透露,摩尔线程即将开放自主设计的夸娥(KUAE)GPU 智算集群,全面支持 DeepSeek - V3、R1 模型及新一代蒸馏模型的分布式部署。
国产芯片大展拳脚
大模型上下游产业链涵盖从硬件基础设施到软件应用开发的多个环节,包括 GPU 芯片、CPU 芯片、数据采集、标注、存储和管理等上游环节,大模型开发、训练、优化等中游环节,以及大模型应用开发、大模型部署与运维等下游企业。
工信部信息通信经济专家委员会委员盘和林认为,DeepSeek 的出现对国产算力芯片产业影响最大。我国成熟制程芯片全产业链具备强大的供给能力,DeepSeek 降低了 AI 对算力的需求,使得国内的 FPGA(现场可编程门阵列)和 ASIC(供专用集成电路的芯片)算力芯片在 AI 领域迎来发展机遇。
王玉圆也认同在 DeepSeek 引发的连锁反应中,算力产业受益最快。青云计划招募更多闲置算力,通过青云的基石智算 CoresHub 对外提供服务。有算力需求的企业和开发者无需直接购买算力,可在青云平台通过调用 API 的方式按 token 计费,降低了使用门槛。这也是云厂商提供大模型服务的常见方式,区别在于自建或租用算力。青云的算力共营模式在 2024 年已有多家智算中心接入,如今更是希望招募更多算力资源。
相比之下,百度的模式则更为重资产。2 月 5 日,百度智能云宣布已点亮昆仑芯三代万卡集群,并将进一步点亮 3 万卡集群。中国工程院院士、清华大学计算机系教授郑纬民认为,当下构建国产自主万卡系统虽充满挑战,但意义重大。
应用落地是关键
芯片和集群离普通用户端较远,用户更多关注产业链下游的应用。据不完全统计,目前安恒信息、奇安信、天融信、360、美图、阅文、视觉中国、联想等大模型应用都已接入 DeepSeek。例如,天融信于 2 月 6 日宣布,天融信天问大模型正式完成 DeepSeek 大模型的接入,赋能安全事件检测分析、威胁情报融合等多个场景,进一步提升了安全产品和服务能力。
一家已将自家大模型集成 DeepSeek 的公司负责人称,春节期间合作便已达成。另一位业内人士表示,相关合作在交流当天的两天后便已披露。在与多家 AI 相关企业沟通时,记者深切感受到从业者争分夺秒的紧迫感。2 月 6 日,百度智能云传来最新消息:2 月 3 日,百度智能云千帆大模型平台正式上线 DeepSeek - R1 与 DeepSeek - V3 模型,上线首日,超 1.5 万家客户通过千帆平台进行模型调用。
企业和开发者除了可直接调用 DeepSeek 官方 API,还能通过云厂商调用 API,或采购适配 DeepSeek 的 GPU 进行本地化部署。瑞达恒研究院经理王清霖指出,云厂商更多是将 DeepSeek 等模型集成到自身云平台,为用户提供 “算力 + 模型” 的综合服务,类似 “傻瓜相机” 的集成应用,适合对 AI 技术需求较小、技术能力偏弱的个人开发者或中小企业;GPU 公司则更关注模型的算法优化、运行效率和性能,适合对计算性能和能耗要求较高、需大规模部署大模型技术推理与训练的企业。
DeepSeek 正以其独特的魅力与强大的影响力,重塑人工智能时代的产业格局,引领着技术创新与应用落地的新潮流,其未来发展值得持续关注。