-
对话|应对卡脖子,开源是中国大模型安全的最优解?
-
张广凯13764468101
最后更新: 2025-01-23 16:49:09文/观察者网 张广凯
2025开年伊始,国内大模型行业似乎正酝酿着一场剧烈的格局变动。
一边是零一万物与阿里云达成合作,不再独立追求超大模型的预训练;另一边,以豆包为代表的大厂模型仍在快速进化,“不差钱”的DeepSeek更是以创新架构,让人看到超越OpenAI的可能性。
这似乎印证了一段时间以来的流言:国内大模型企业将进一步收敛,一些过去的头部玩家也开始掉队?
另一个有趣的现象是,此前一直走闭源路线的MiniMax,最近突然发布了自己的开源模型。开源是弱势方争夺市场的捷径,还是本身就具备比闭源更好的商业逻辑闭环?
当然,美国对中国愈加严厉的政策限制,一直都是不容忽视的巨大风险。国产大模型行业准备好迎接进一步脱钩了吗?
围绕上述话题,我们邀请AI生态专家、曾任零一万物开源及开发者生态负责人的林旅强,以及Hugging Face工程师王铁震进行对话,收获了不少新颖的观点。
林旅强
王铁震
摘要如下:
·中国大模型行业的研发能力与OpenAI没有明显差距,即使放弃预训练的团队,也并非因为训练效果不佳,只是更好的商业选择。
·随着主流模型能力基本够用,一味追求模型能力最强或许是个误区。以操作系统为例,性价比才是大规模应用的决定性因素。
·当算力成本进一步降低,开源模型的性价比将更加突出。
·开源的优势还在于更容易成为行业标准。
·开源的AI开发工具链,对大模型的国产化替代意义巨大。
以下为对话全文:
放弃预训练,不是能力不够
观察者网:可以聊聊最近零一万物预训练团队并入阿里的事吗?这是不是意味着,国内头部大模型公司之间的能力已经在分化,零一发现自己预训练的效果不够好?
林旅强:完全不是这样的。零一的团队很强,预训练出来的东西也很强,去年5月发布的Yi-Large,10月发布的Yi-Lightning都很好,尤其是Yi-Lightning,可以说是当时时间点上最强的之一。
但是模型强不强,跟商业上能不能走通是两回事。零一绝对不是没能力做预训练,而是作为一个小公司,必须面对现实——你投入巨大的资源去做预训练,能不能做到self sustainable?是不是对投资人负责?
所以一个公司最终还是要去找到符合商业规律的生存之道。
王铁震:对,我非常同意。我要补充一下,其实中国的research非常强,这两年中国的大模型追得非常快,包括最近的DeepSeek,甚至让OpenAI都感到一些危机。
如果说中国跟美国的头部模型存在一些差距,我觉得不能说是人的问题,主要还是因为资金的分配、公司的政策方向等等。像零一这样的中国公司,有最优秀的团队,有开复老师的领导,那么如果给它像OpenAI一样的资金,它绝对也能做出同样好的产品。但是这样的条件在中国是很稀缺的。
大部分中国公司,不可能把无止境的资金投入到一个非常烧钱的项目里。在“六小虎”中,所有人一开始都是to b也要做,to c也要做,to developer也要做,foundamental research也要做,但是很快大家就会发现,我不可能每一件事情都做得好,每一件事情的竞争都是非常激烈的,我需要把所有的精力放到某一个自己很擅长的事情上面,才能做出最好的效果。
可能零一也经历了这样一波周期,发现必须把全部精力集中在做APP,或者专注做to b。我觉得这完全没有问题,因为很少有公司能够像DeepSeek或者阿里巴巴一样,有另外赚钱的业务去养活不赚钱的foundamental research。
所以我觉得国内做预训练的公司会越来越少,其实是一个好事,是更好的资源调配。想做预训练的人也可以更集中,资金也可以更集中,可能最后只有四五家模型,但每家都可以得到非常多的资金支持,可以走得更远更好。
中国很多行业都走过了类似的路,比如说电动汽车、光伏,都经历了自然淘汰的过程,从无序竞争到有序收敛,这是一个市场比较理想的状态。
观察者网:也就是说国内的大厂也好,“六小虎”也好,在大模型能力上还没有显著差距。
王铁震:我认为还在牌桌上的玩家,水平都没有太大的差距,有差距的自己已经放弃了,所以牌桌上的玩家确实在减少。
林旅强:很多行业应用,也未必非要去做预训练。例如百川很早就宣布把重点放在医疗,那么医疗大模型是不是一定需要做预训练?基于别人的基座大模型,拿行业数据去做后训练是不是足够了?
所以退出牌桌的人,也不一定是失败,而是调整。所有公司都要找到适合自己的路。
观察者网:那么当初为什么大家一拥而上都去做预训练?是战略选择错误,还是担心使用别人的模型,不是好的商业模式?
林旅强:首先,你要向资本市场讲一个故事。2023年上半年,资本市场会觉得一个团队能做预训练,代表团队的能力是很扎实的。
另一个原因是当时的基座模型还不够强,后续去做fine-tune的效果也不好,所以只能自己去做基座。
现在,很多大模型效果已经好到一定的程度,甚至10B以下的小模型都比当时强很多了,对很多场景来说完全够用了。所以大家不会再盲目追求超大模型。
王铁震:对,刚开始的时候,你必须向资本市场证明自己的团队实力。只做fine-tune的团队,估值不会很高,后续做很多事情就会非常受限。而且最开始的那段时间,市场上资金是最充裕的,越往后融资越难,如果开始拿不到足够资金,后面可能很快就死了。
还有很重要的一点,是对人才的争夺。那个时候大模型人才是相当稀缺的,很多公司都需要开出非常高的薪水挖人。
做预训练更有利于去培养自己的团队。如果只是做微调,你只能看到世界的一小部分,只有懂预训练的人才能告诉你,一个问题到底应该用预训练解决,还是后训练解决。
但在今天这个时间点,基于很多开源模型去做后训练,已经能达到比较好的效果,预训练可能就更多是一种情怀了。
最好的大模型,未必要最强
观察者网:那么在今天这个时间点上,开源模型跟闭源模型的能力还有差距吗?
林旅强:我想先correct一下这个问题本身。模型就是模型,不会因为它是开源或者闭源就更强或更弱,模型强弱跟是否开源是完全两个维度的事情。
观察者网:但是最早Llama之所以选择做开源,可能是因为它不够强,要通过开源来抢市场。
林旅强:开源确实有利于抢占市场,但是它想抢市场,跟它够不够强,不能建立直接关系。现在DeepSeek也是开源,难道是因为它不够强?所以我个人觉得Llama只是开源中一种情况,并不代表开源的本质。
开源和闭源的参与者也是动态变化的,比如之前一直闭源的MiniMax,最近突然也做开源了,这并不只是取决于模型强弱。
王铁震:这是一个经常被问到的问题,最近我刚好也有一些新的想法。
首先就像前面提到的,没有开源强的闭源模型已经死掉了,所以结果就变成,闭源模型永远是大于等于开源模型。
之前我也觉得,开源模型跟最头部的闭源模型相比,还是有非常大的差距。但是最近DeepSeek发布的成果,以及国内在推理模型上面的进展,都让我觉得差距没有那么大了,反而是OpenAI更应该感到焦虑。
视频生成模型也是一个很好的观察角度。Sora是一个闭源模型,它刚出来的时候大家都惊叹,中国跟它的差距非常大。但是现在大家惊叹的反而是,Sora怎么一直都像个期货,好像还不如中国的开源模型给力。
所以开源模型是可以很强的。但这个问题仍然很有价值,我会想问,如果开源模型厂商真的做出了比OpenAI更好的模型,它们还会不会继续开源?整个开源生态本身已经在收敛,如果再有更多厂商放弃开源预训练,对行业将是巨大损失,因为没有市场竞争的话,很难保证大家都还愿意在这个牌桌上玩。
观察者网:所以仍然可以说,闭源模型大于等于开源模型?究竟有没有哪家开源模型,能够达到跟OpenAI差不多的能力?
林旅强:其实对于开发者跟行业来说,很多开源模型的能力是足够的。那么在同等能力情况下,如果有开源的选择,我一定选开源,因为性价比就是开源强。
所以你怎么去评判强不强?论性价比开源超强。你的问题其实暗含了一个假设,认为模型能力一定要达到最强,这件事情是很重要的。如果从科研角度或者公司估值的角度,追求最强确实是有意义的,但是从我们开发者角度,性价比高才能普及。
我举个例子,PC端操作系统,最强的肯定是Windows或者macOS,但是Linux对于全球行业的影响力或许更大。你看得到的机器上跑的都是Windows或者macOS,你看不到的机器上跑的基本都是Linux,后者的数量可能更多。
Linux甚至根本不需要一家公司去推动,它成立一个基金会,IBM、谷歌都会捐钱。每家捐几百万美元,就能换来持续可用的操作系统,而且不会被人卡脖子。
所以究竟是Linux最强,还是macOS比较强,现在已经没有人care这一点了。
观察者网:有支持闭源的人,说开源模型是“智商税”,认为即使从成本来看,闭源也比开源要低。
林旅强:我尊重他们的选择,但我不认同这个结论,开源相比闭源成本一定是低的。因为购买一个闭源模型本身就是很大的支出,在此之外,开源不会比闭源增加任何成本。
王铁震:一些现在做闭源的公司,其实在过去的时代也在做开源,对NLP、OCR等领域都有很大帮助。后来在大模型领域转向闭源,虽然很可惜,但是一定是经过了深思熟虑,甚至可能也有激烈的内部讨论。那么一旦选定了技术路线,对外也只能这样说。
- 责任编辑: 张广凯 
-
基金季报揭示神秘资金力挺A股:耗资千亿增持,至今一股未卖
2025-01-23 16:43 观网财经-金融 -
国产“足球巨星”机器人来了
2025-01-23 16:27 人工智能 -
一箭18星!长六改火箭成功发射千帆极轨06组卫星
2025-01-23 16:00 观网财经-科创 -
字节启动AGI长期研究计划,代号Seed Edge
2025-01-23 11:34 观网财经-互联网 -
1月136款游戏获批,王者荣耀衍生作品拿下版号
2025-01-23 11:15 观网财经-互联网 -
高端餐饮年度观察|西餐日料承压,中餐持续走强,高处不胜寒
2025-01-23 11:04 观网财经-消费 -
B站上线“小店”业务,谋求商业化新机会
2025-01-23 10:01 观网财经-互联网 -
吴清:力争大型国有险企,每年新增保费的30%用于投资A股
2025-01-23 09:20 金融观察 -
对抗OpenAI,谷歌向Anthropic追投10亿美元
2025-01-22 17:17 人工智能 -
上线小程序,广告反内卷,B站找到了商业化新蓝海
2025-01-22 16:50 观网财经-互联网 -
出售与辉同行后东方甄选亏近亿元,新东方股价暴跌24%
2025-01-22 16:19 大公司 -
12306重申加价抢票是忽悠,购票平台为何还在卖“加速包”?
2025-01-22 15:22 -
华为数字能源多位高层变更,年营收超500亿
2025-01-22 15:12 观网财经-科创 -
特朗普都提名了哪些人来管理五角大楼?
2025-01-22 14:42 特朗普 -
超越协和,国产的超音速客机要来了?
2025-01-22 10:10 观网财经-科创 -
国补后苹果手机跌破3000元,iPhone16价格成全球最低
2025-01-22 09:44 观网财经-科创 -
寒武纪遭前CTO诉讼索赔42.87亿
2025-01-21 22:35 观网财经-科创 -
万亿券商合并新进展:海通证券、国泰君安宣布2月6日起停牌
2025-01-21 21:14 金融观察 -
DeepSeek又有重大突破?一款未公开大模型展现惊人能力
2025-01-21 18:13 人工智能 -
饿了么推出九项举措:让“算法”成为骑手的“办法”
2025-01-21 18:04 大公司
相关推荐 -
-
这也能扯上中国? 评论 0“特朗普政府出大糗,欧洲笑不出来” 评论 88“就算美国有再多,也不得不运往中国” 评论 95“或许我们不应该问,‘为什么是杭州?’” 评论 99美媒揪心:中国会像对服装家居那样颠覆科技行业吗? 评论 189最新闻 Hot
-
这也能扯上中国?
-
美方炒作涉台问题:若有必要,中国试图击败美国军事干预
-
万斯:我也要去格陵兰
-
AI科学家放弃美国终身教职回国
-
奔驰高管:欧洲车企太依赖中美了
-
“特朗普政府出大糗,欧洲笑不出来”
-
“俄罗斯是敌是友?美情报高官集体面临‘送命题’”
-
丹麦也怒了,“不可接受”
-
这幅“发福丑画”,将被换成“符合当代形象”的
-
“就算美国有再多,也不得不运往中国”
-
“担心特朗普不可靠,欧洲呼吁建立自己的核保护伞”
-
受特朗普重创的欧洲密集展开“对华外交攻势”,效果几何?
-
“印度打算与中国和解,向美国发出信号”
-
“或许我们不应该问,‘为什么是杭州?’”
-
全美哗然!绝密战争计划居然这样泄漏,特朗普都懵了
-
“美国律师党投降了”
-