大理塑料管材生产线 Transformer之父离开谷歌，奥特曼等了他十年

134 2026-06-20 00:25:28

本文来自微信公众号：字母 AI，作家：袁心玥，裁剪：靖，题图来自：AI 生成Transformer 的奠基东说念主，运转参与寻找 Transformer 之后的下步。

Google 工程总裁、Gemini 模子联认真东说念主 Noam Shazeer 在 X 上通告，我方将离开 Google，加入 OpenAI。

Shazeer 是《Attention Is All You Need》的中枢作家之，早的" Transformer 八子"就有他的名字。

从 GPT 到 Claude、从 Gemini 到险些扫数主流大模子，当代 AI 的底层结构都绕不开 Transformer，而 Shazeer 恰是早参与界说这套结构的东说念主之。

2024 年，Google 曾通过笔约 27 亿好意思元的本领授权与东说念主才回流交往，把 Shazeer 和部分 Character.AI 团队从头请回 Google，让他参与 Gemini 模子研发。不到两年后，这位 Gemini 联认真东说念主再次离开 Google，回身去了 OpenAI。

据 OpenAI 谈论官 Mark Chen 发帖，Shazeer 将担任 OpenAI 新的架构谈论认真东说念主。

Sam Altman 也发帖示意，从 OpenAI 创立之初，Noam 即是他想作的东说念主之。他等这天等了十年，但很值得。

被 Google 反复追回的东说念主，又离开了 Google

Noam Shazeer 并不是次离开 Google，从他的英账号来看，他的做事生存险些直在和谷歌"拉拉扯扯"。

Shazeer 曾在 2024 年 8 月播出的 Dwarkesh Podcast 访谈中说，我方似乎每隔 12 年就会从头加入次 Google：2000 年次，2012 年次，2024 年又次。

2000 年 12 月，Shazeer 加入 Google，成为公司早期的软件工程师。当时的 Google 还很年青，他亦然早批加入公司的工程师之。

Shazeer 早参与的枢纽技俩之，是翻新 Google 搜索的拼写纠错系统。但他感瞻仰的不仅仅搜索——还有 AI。

他在播客里说，我方当年加入 Google，有个很朴素的想法：先赚些钱，以后就不错长期作念 AI 谈论。

2009 年，Shazeer 曾已而离开 Google。公开贵府并莫得翔实施展此次离开的原因。自后他在播客中回忆，几年后我方回 Google 和浑家吃午饭，偶然坐到了 Jeff Dean 和早期 Google Brain 团队掌握，被那群东说念主从头诱惑。

2012 年，Shazeer 从头加入 Google。那年，Google Brain 正处在早期阶段，Jeff Dean 等东说念主正在把度学习从谈论技俩进到 Google 里面中枢的位置。此次回首也让 Shazeer 从早期搜索工程体系，转向 Google 的 AI 主航说念。

几年后，Shazeer 的名字运转着实插足当代 AI 史。

2017 年，他和 Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin 等东说念主共同发表《Attention Is All You Need》，提议了 Transformer 架构。

自后发生的事情，依然不需要太多解释。险些扫数主流大模子，底层结构都绕不开 Transformer。

Transformer 除外，Shazeer 很早就参与动寥落 MoE，也即是混模子——这条阶梯的中枢想想是，不让每次筹划都激活扫数这个词模子，而是把柄不同输入调用不同""模块，从而在扩大模子容量的同期截止筹划资本。

自后，MoE 成为大模子扩展和率化的枢纽向。

2021 年，Shazeer 和 Google 共事 Daniel De Freitas 离开公司，创办 Character.AI。据传，这件事的火索是 Google 拒公开荒布他们参与开荒的款聊天机器东说念主。

那款居品初名为 Meena，方针是让 AI 能围绕等闲聊题伸开当然对话。

据《华尔街 · 日报》报说念，Shazeer 曾在份里面备忘录《Meena Eats the World》中瞻望，这类聊天机器东说念主有可能取代 Google 搜索，并创造数万亿好意思元收入。

但 Google 莫得选定发布它，管给出的事理包括安全和平允风险。对 Google 来说这或者是严慎，但对 Shazeer 这么的东说念主来说，像是个巨大契机被放下——而契机被放下，往往意味着被错过。是以 Shazeer 离开了。

年后，OpenAI 用另种式施展注解了 Shazeer 的判断。2022 年 11 月，ChatGPT 让全寰宇贯通到，聊天机器东说念主可能成为平淡东说念主战役 AI 的进口。

Character.AI 也在这股海浪中快速起势。

2023 年 3 月，Character.AI 完成 1.5 亿好意思元融资，估值达到 10 亿好意思元。它主各式可对话的 AI 角，用户不错和实用助手、诬捏东说念主物以至名东说念主形象聊天。

当年莫得放行 Meena 的 Google，后又不得不把 Shazeer 请回来。

2024 年，Google 与 Character.AI 达成笔极度交往：Google 得到 Character.AI 的部分本领授权，同期把 Shazeer、Daniel De Freitas 以及部分谈论团队带回 Google DeepMind。

为了拿到本领和东说念主，Google 付出的代价达约 27 亿好意思元。

据《华尔街 · 日报》报说念，Shazeer 也因为持有 Character.AI 股份，在这笔交往中得到了数亿好意思元收益。

换句话说，Google 当年拒发布的聊天机器东说念主阶梯，后以另种奋斗的式回到了 Google。

回首后，Shazeer 加入 Gemini 中枢层，参与 Google 枢纽的大模子研发。他的头衔变成了 Google 工程总裁、Gemini 模子联认真东说念主。

不到两年后，剧情又迎来障碍—— Shazeer 又次离开 Google。此次，他去的是作念出 ChatGPT 的 OpenAI。

细想来，他的故事若干像是段对于 chatbot 的孽缘。

Transformer 之后，下个改变期间的架构

据 OpenAI 谈论官 Mark Chen 的说法大理塑料管材生产线，Shazeer 将担任 OpenAI 新的架构谈论认真东说念主。

往常几年，大模子行业熟悉的叙事是 scaling law：多量据、大模子、多算力、长高下文，带来强才气。

但从 2024 年运转，越来越多迹象标明，单纯扩大预纯熟范围的旯旮收益正不才降。

Ilya Sutskever 曾公开示意，预纯熟算作往常几年枢纽的 scaling ，正在接近数据和法上的领域；要是仅仅把范围再放大 100 倍，并不会自动带来下次 GPT-3 到 GPT-4 式的逾越。

另面，Transformer 自己的短板也运转暴炫夸来。

前些年，大还会把问题表示成"模子还不够大"或者"高下文还不够长"，但当今越来越多谈论炫夸，塑料挤出设备好多才气瓶颈并不仅仅范围问题，而是架构问题。

比如，长高下文不等于着实记挂。模子不错在几十万以至上百万 token 的高下文里检索信息，但这不代表它确切心理了个庞杂的里面景况。它能回看往常，不等于它明晰当下的情况。

再比如，想维链不等于着实理。Chain-of-Thought、reasoning model、test-time compute 的流行，施展模子如实需要多中间筹划。但要是每点景况变化、每个毛糙理，都要靠显式笔墨写出来，再从头喂回模子，内容上是种尽头奋斗的补丁。

Google DeepMind 前段时候发的论文《The Topological Trouble With Transformers》（Transformer 的拓扑窘境），盘问的即是上述问题。

论文指出，纯前馈 Transformer 在动形色态跟踪上存在结构短板。Transformer 很擅长回看高下文，却不擅长心理个赓续变化的里面景况。

论文举了几个直不雅的例子：模子不错在高下文里看到前边的对话，却仍然在多轮交互里出现前后不致；它不错看到对于" bank "的高下文，却在后续问题里从把这个词从"河岸"表示成"银行"；它也可能在猜数字游戏里给出相互矛盾的响应。

要是个模子仅仅把往常一都放进窗口里，再通过注目力机制去查找，它像是在翻本很长的札记，而不是赓续领有个会新的记挂。

提及来，这背后以至带有点贯通科学和形而上学意味。以东说念主类自己为例，东说念主的记挂和瞎想力分享个度肖似的中枢神经收集——记挂并不是把往常完好意思归档，然后在需要时原样调取。好多时候，记挂像是种回溯的重建：大脑在当下从头组织陈迹、补全语境，并把往常、瞎想和判断混成个不错步履的景况。

着实的智能，尤其是长程理、多轮对话、贪图、代码代理和复杂任务扩充，需要的不啻是回首往常，还次序路当下实在的景况。

诚然，Transformer 毕竟是很久之前的底层架构，这篇说的"短板"其实像是放在当今的评价框架里去看往常的个架构。

但也恰恰施展，Transformer 不决适咱们当下对于智能的需求。

当今围绕 Transformer 的阅兵依然日出不穷：MoE 试图不竭参数范围和筹划资本之间的矛盾；解码试图裁减理资本；长高下文试图扩展模子的记挂领域；state-space model、递归结构、latent reasoning、test-time compute，则试图补上景况跟踪、长期致和动态理的短板。

AI 行业渐渐酿成了个新的共鸣——下代模子不成仅仅大的 Transformer，它须会组织筹划、会心理景况、会在理经由中新我方对寰宇的示意。

于是，架构问题又被翻了出来。

Shazeer 加入 OpenAI 的璀璨意旨就在于此，架构谈论认真东说念主这个岗亭指向的，恰是前沿模子竞争底层的问题。

这让 Shazeer 的跳槽不再是" Transformer 之父去 OpenAI 链接加强 Transformer "的故事，像是个参与界说 Transformer 期间的东说念主，运转参与寻找 Transformer 之后的下步。

契机资本、东说念主才干戈和下代模子

对 Google 来说，Shazeer 的离开诚然是损失——这个损失并不仅仅少了位 Gemini 联认真东说念主，还指向 Google AI 史里阿谁反复出现的问题：它时常很早看到翌日，却未能快把翌日到用户眼前。

Shazeer 在播客中回忆，Larry Page 以前常说，Google 二大的资本是税，大的资本是契机资本。（以万，Shazeer 还补了句：要是 Page 没说过，那我方依然误引他好多年了。）

Google 领有寰宇上强的谈论东说念主员、完好意思的工程体系、的 TPU 和数据中心、以及满盈庞杂的居品进口。但越是这么的大公司，越要在安全、平允、组织领域和居品化风险之间反复衡量。

在 AI 这么个窗口期短的行业里，严慎自己可能是要的，但严慎也可能变成奋斗的延伸、契机的流失。

而对 OpenAI 来说，Shazeer 的加入，意旨尽头要紧——就连 Sam Altman 都示意"从 OpenAI 创立之初，Noam 即是他想作的东说念主之"。

OpenAI 得到的是组其稀缺的教训集：Transformer、MoE、大范围纯熟、解码、对话模子、基础模子工程，以及在 Google 这种大范围系统里多年磨出来的架构直观。

大模子架构谈论并不是提议个漂亮想法就达成了。Shazeer 在播客里说过，小范围谈论空想的景况，是早上醒来预料个主意，今日写出来，跑些施行，很快看到初步效果。

而前沿模子研发着实繁难的地，恰恰在于从"小施行"走向"大系统"。个翻新在小模子上看起来有，放大到大范围纯熟时未还能诞生；几个单有的手段放在起，也未能协同责任。

到了大范围纯熟，好多施行险些法着实加快。后仍然是 N=1 的施行：群聪惠的东说念主坐在房间里，盯着纯熟效果，判断到底是哪部分起了作用，哪部分拖了后腿。

OpenAI 当今需要的，不仅仅多 GPU、或者再纯熟个大的模子。它需要底层的架构判断：把有后劲的结构放大到真实纯熟系统里，把率晋升调动为资本势，并用新的架构变化开下代才气。

Shazeer 宝贵的地就在于判断才气。

与此同期，OpenAI 正在靠近十分千里重的财务压力。

Financial Times 报说念称，OpenAI 2025 年支拨达到约 340 亿好意思元，净亏空约 390 亿好意思元；另有败露财务文献口径炫夸，包摄于 OpenAI 的净亏空约为 385 亿好意思元。

这里面包含不少复杂的管帐和非现款技俩，但向很明晰：前沿模子竞争正在变成场其奋斗的干戈。

OpenAI 的要紧感，部分也来自它平直的敌手 Anthropic。

本年 6 月，Anthropic 和 OpenAI 先后提交 IPO 文献，两公司险些在同期间把我宗旨公开市集。

在这个节点上，Anthropic 直在补强中枢东说念主才。本年 4 月，Anthropic 请来前 Microsoft Azure AI 管 Eric Boyd 担任基础才气认真东说念主，认真守旧 Claude 链接膨胀所需的底层系统。5 月，Anthropic 还拉来了 OpenAI 联首创东说念主 Andrej Karpathy，让他加入 Claude 的预纯熟团队，并组建个用 Claude 加快预纯熟谈论的小组。

于是，OpenAI 也在东说念主才上握紧补强：Shazeer 认真架构谈论，Clint Gibler 加入 OpenAI Cyber 团队，分裂指向模子底层才气和安全才气。

这场东说念主才战背后，争夺的是谁能快找到下代模子的纯熟式、理式和组织筹划的式。OpenAI 要是要在上市前链接施展注解我方的先，就须施展注解我方有才气把模子作念得强、庞杂、低廉。

而当今，OpenAI 把这个问题交给了也曾位参与界说 Transformer 的东说念主。

本文来自微信公众号：字母 AI，作家：袁心玥，裁剪：靖Q Q：183445502相关词条:设备保温塑料挤出机厂家预应力钢绞线玻璃丝棉万能胶厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定大理塑料管材生产线，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。