-
专访《生成式人工智能》作者丁磊:中国大模型厂商赶超美国,关键在这里
-
吕栋lvdong@guancha.cn
最后更新: 2024-05-08 23:15:24观察者网:您在新书《生成式人工智能》中提到,Transformer与ChatGPT模型的出现密切相关,已成为深度学习最亮眼的成果之一,但很多人不明白什么是Transformer,为什么Transformer这么重要?除了Transformer,催生ChatGPT这类大模型的关键技术还有哪些?
丁磊:提到Transformer,大家肯定首先想到的就是“transform”这个词,也就是“转换”的意思。而顾名思义,Transformer也就是“转换器”的意思。为什么一个技术模型要叫“转换器”呢?其实这也正是Transformer的核心,也就是它能实现的功能——从序列到序列。
序列到序列模型(sequence to sequence)是在2014年提出的。所谓序列,指的是文本数据、语音数据、视频数据等一系列具有连续关系的数据。在序列到序列模型中,只要能编码成序列,输入和输出的可以是任何形式的内容。而序列编码形式非常广泛,我们日常做的大部分工作都可以编码成序列,因此这种模型可以解决很多问题。
2017年出现的Transformer模型,在序列到序列模型基础上有两大提升,分别是采用多头注意力机制和引入位置编码机制,能够识别更复杂的语言情况,从而能够处理更为复杂的任务。在Transformer模型中,能输出或生成的内容更加广泛,包括文本、图像、语音、视频以及更广义的内容,例如它可以生成报告、策划方案、代码以及程序等,是通用型的模型,可以生成任何我们需要的内容。目前国内外的大厂,都在基于Transformer技术推出自己的模型。
而且Transformer模型底层是开源的,每个人都可以利用Transformer技术,然后就是看谁可以设计出更加精巧的模型结构。现在ChatGPT是基于GPT模型的,未来可能有更新的GPT模型结构,我们可以去改进它。也就是说,首先我们能改变模型结构,其次我们有没有更多更好的数据去训练模型,第三就是如何去训练一个类似ChatGPT的模型,这也是很有讲究的。
这三点也可以这么理解,就像教育小孩一样,首先要有一个类似人类大脑的框架在那里,也就是模型的结构;其次是训练模型的数据,相当于给小孩看什么样的教材、讲什么样的课程;第三是如何培养孩子,也就训练的方法。这三点,决定了我们能训练出什么样的模型。
ChatGPT(资料图)
观察者网:现在很多互联网大厂在宣传自己模型的时候,更喜欢突出千亿甚至万亿的参数规模,这导致行业在模型参数上展开“军备竞赛”,业界也似乎秉持着“模型越大越好”的观点,您如何评价这种观点?我们该如何认识一个大模型的水平?
丁磊:大模型或模型大只是单一评价维度,大公司喜欢突出参数规模,是因为他们可以调动的资源更多,比如在算力、数据等层面,他们更有优势,所以他们更偏向突出模型参数规模的优势。但是从客观角度来说,我觉得模型的“深度”更重要。
什么叫深度?是指模型在某一领域解决问题的能力更强,比如解决数学问题的能力更突出,或者在具体行业应用中,能把某一行业的问题解决的更专业,这就叫模型更深。如果一个模型只是够大,并不能解决相应的业务问题,或者是只能解决部分问题,给不出完全正确的解决方案,在很多情况下就会失去用处。因此,除了关注参数规模之外,还要看重模型的深度。
观察者网:能否这样理解,大模型的“大”代表的是通用性,如果中小企业没有能力去炼大模型的话,可以基于大厂研发的大模型,去做更加专用的行业模型来服务自身的业务?
丁磊:大部分的中小企业并不会去参与大模型的竞赛,相反他们会基于开源的大模型去研发,甚至ChatGPT也都支持在线的训练和迭代。也就是说,这些中小企业会利用一些开源的大模型,或者在线可以训练迭代的大模型,去解决他们业务场景的问题,来构建相应的“深模型”,这也是大部分中小企业应该走的路。
观察者网:现在布局大模型的大多都是互联网企业,像国内的阿里、百度、腾讯等,以及美国的微软和谷歌,互联网企业在做大模型方面有哪些独特的优势?
丁磊:互联网大厂在数据积累方面肯定更有优势,但我认为开源还是会成为整个行业的趋势,现在国内外都有开源的大模型,使用的数据大多也都是互联网上公开的,像OpenAI训练ChatGPT使用的数据,大多也都是互联网上可以公开获得的。大公司获取数据的速度可能会更快,获得体量也会更大,但这并不意味着互联网巨头在大模型领域有绝对的垄断优势。我们之前分析过,实际上训练ChatGPT这种大模型,实力雄厚的创业公司或者一些中型公司,也都有能力来做这方面的事,不一定只有大公司才能做。
观察者网:中美在AI领域的竞争最引人关注。马斯克不久前曾提到,中美在AI方面的差距大约在十二个月左右。而国内一些厂商称自己的大模型部分能力已超越ChatGPT,并且很快将整体赶超ChatGPT。您如何看待中美在AI方面的差距,国内厂商能否迅速赶超美国企业?
丁磊:我觉得与其对比中美,不如对比训练模型这件事跟互联网思维模式的差别。各国企业其实没有本质差别,都可以做训练模型这件事,但谁能最终做出来,就需要一种新的思维方式。打个比方,包括谷歌在内的互联网公司研发产品,采用的是“养鸡模式”,公司会将“养鸡”拆成不同的细分任务,多部门人员各自负责具体业务。
而训练GPT模型是“养娃模式”,它反而不需要那么多老师、厨师,核心人物只要少数。也就是说,它很难拆分成完全独立的任务,必须有固定父母站在全局角度,亲自教授培养孩子。所以在这种模式下,谷歌没有最早做出产品的原因很简单,现有体系很难在AI领域取得里程碑式的成功。训练GPT模型本质是一个很难拆解的事,需要公司领导层在技术、业务,甚至资本层都是专家。
另一个简单的例子就是,美国AI绘画工具Midjourney,是由一家独立研究实验室开发出来的。包括创始人大卫·霍尔兹在内仅有11个人,除了他和财务、法务,核心只有8位研发人员。我也曾在IBM沃森研究中心有过一段工作经历,IBM的沃森人工智能也曾陷入这种困境——有太多的人参与人工智能训练,资源太多、研发不聚焦,造成项目没有持续取得成绩。
实际上,美国真正专注通用人工智能研发的知名公司也就两家——OpenAI以及谷歌母公司Alphabet下设的人工智能实验室DeepMind。就目前披露的信息看,OpenAI创始人奥特曼个人能力非常强,不仅懂技术,也懂商业运作,OpenAI在运营过程中也鲜少受股东制约。OpenAI是长在美国硅谷重视工程师地位的文化土壤里,有着强大的“工程师文化基因”,简单说就是工程师可以主导研发,拥有更大自主性,发挥创造性的空间更大。
但OpenAI并不能代表美国的互联网公司。所以我认为,互联网公司在训练大模型这件事上,并不具有天赋基因。它们可以去学,也可以去适应,但它本身并没有这个基因。他们适合做一件事情,就是像“养鸡”这样的事,或者说更适合做大规模的生产,但训练模型更像是“养娃”,你不能把这个问题拆分,ChatGPT拥有1750亿个参数,我们没办法把它拆分成100份1000份,让不同团队并行去做,根本做不到。
观察者网:有没有可能判断一下,中美企业在大模型领域的差距,以及追赶的时间表?
丁磊:这个没办法给出明确的时间表,因为现在主要也就OpenAI一家的大模型在各方面都比较领先。但是我认为,任何一家互联网企业,如果按照原来的运行模式,很难做出像ChatGPT这样的大模型,无论中国还是美国企业都一样。
观察者网:现在人们容易讨论的问题是,为什么ChatGPT会率先诞生在美国,而中国企业涌入大模型更像是跟风,您怎么看待这种问题?
丁磊:我在硅谷工作多年,非常了解为什么硅谷会出现OpenAI以及奥特曼这样的人物——是硅谷的“工程师文化基因”造就了他们。OpenAI其实也是一个异类公司,而硅谷拥有技术驱动的传统文化,可以去忽视短期利益去做长期投入。OpenAI以及奥特曼,本身也有较强的资金基础,使他们可以进行大规模投入,而大部分公司并不具备做这种事情的先决条件。
观察者网:我们都知道,人工智能有三驾马车:算力,算法,数据。在生成式AI概念中,这三驾马车的重要性有大小之分吗?眼下英伟达的GPU成为稀缺品,国内AIGC的发展会因为算力因素受限吗?
丁磊:数据、算法和算力都很重要。但是我认为,数据现在比较容易获得,很多数据都是互联网上的数据,可以很容易获得。最核心的还是算法,这关系到模型训练的效果。
- 责任编辑: 吕栋 
-
昔日顶流基金经理蔡嵩松行贿、受贿案已当庭宣判
2024-05-08 22:54 -
王炸芯片,难再成苹果救星
2024-05-08 18:18 观网财经-科创 -
ST阳光:控股股东涉嫌内幕交易被证监会拟罚款2.32亿元
2024-05-07 20:57 -
华为苹果同日对决,背后还有中韩面板之争
2024-05-07 17:23 观网财经-科创 -
历史性一幕!iPhone在华市场份额跌出前五
2024-05-07 11:13 观网财经-科创 -
45亿加码“五五购物节”,拼多多助力上海“拼”出精彩
2024-05-06 19:32 -
美国Tiktok法案的起草人,引火烧身了
2024-05-06 18:47 观网财经-金融 -
舒适赛道红利释放,红豆股份品牌转型出成效
2024-05-06 13:33 -
“五一”近3亿人次出游,较2019年同期增长28.2%
2024-05-06 12:16 观察者头条 -
巴菲特股东大会要点来了!回应减持苹果、巨额现金储备等
2024-05-05 08:28 -
武广高铁、沪杭客专等4条高铁线涨价,涨幅近20%
2024-05-04 14:13 高铁世纪 -
深圳将取消福田、南山之外区域住房限购?深圳住建局回应
2024-05-04 10:27 观网财经-房产 -
20张营业执照只有3家实存?央媒:问题在下头,根子在上头
2024-05-03 11:21 基层治理 -
上海推出商品住房“以旧换新”活动
2024-05-03 09:39 观网财经-房产 -
中俄东线天然气管道最新进展
2024-05-03 09:30 国企备忘录 -
31省份“一季报”:苏鲁浙增速超6%,山西总量下滑
2024-05-02 21:39 宏观经济 -
美联储维持利率不变,纳指两连跌星巴克重挫
2024-05-02 07:42 观网财经-海外 -
南京公积金新政:包括宣城、马鞍山在内的南京都市圈9城互认互贷
2024-05-01 19:50 观网财经-房产 -
美国当前经济数据中,也许藏着高官接连访华的答案
2024-05-01 09:24
相关推荐 -
-
“投票显示,美以遭前所未有孤立” 评论 79“以军说那里是安全的,他们照做了,结果呢?” 评论 115新战线还是佯攻?俄军南北两线同时行动 评论 289来华试乘后,“凭啥中国人要永远买西方车?” 评论 230最新闻 Hot
-
“以军说那里是安全的,他们照做了,结果呢?”
-
“照你说的,我们是输给中国了吧?”,她被问住了
-
“西班牙、爱尔兰等国本月承认巴勒斯坦,后续还有更多”
-
联大通过涉巴勒斯坦“入联”决议
-
“电动汽车关税将升至100%,还要对医疗器械下手”
-
美国认了,又没认…
-
“美国想玩权游,中国会反击”
-
最后一天,印度从马尔代夫全部撤军
-
美欲对中国联网车下手,韩国又紧张了
-
为对付中国,他称美国得向印度取经
-
他向美媒“告洋状”,想蹭乌克兰却忘了……
-
乌克兰称俄军可能在北部开辟新战线
-
拜登都承认了,“布林肯报告仍将嘴硬”
-
“韩国得自卫,不然美军赢不了中国”
-
“对于联大第2758号决议,美国只有严格遵守的义务”
-
上万人抗议以色列,她也现身了
-