" o1 发布后淫声,一个新的范式产生了"。
其中关键,OpenAI 议论科学家、o1 中枢孝敬者Hyung Won Chung,刚刚就此共享了他在 MIT 的一次演讲。
演讲主题为" Don ’ t teach. Incentivize(不要教,要激发),中枢不雅点是:
激发 AI 自我学习比试图教授 AI 每一项具体任务更要紧
想维链作家 Jason Wei赶快赶来打 call:
Hyung Won 识别新范式并透彻铲除任何千里没资本的技艺给我留住了深远的印象。
2022 年底,他鉴定到了强化学习的力量,并从其时起就一直在宣扬它。
在演讲中,Hyung Won 还共享了:
手艺东说念主员过于关怀问题科罚自己,但更要紧的是发现紧要问题;
硬件逾越呈指数级增长,软件和算法需要跟上;
面前存在一个误区,即东说念主们正在试图让 AI 学会像东说念主类不异想考;
"只是彭胀限度" 时时在长久内更有用;
……
底下奉演出讲主要内容。
对待 AI:授东说念主以鱼不如授东说念主以渔
先浅易先容下Hyung Won Chung,从公布的 o1 背后东说念主员名单来看,他属于推理议论的基础孝敬者。
贵寓显现,他是 MIT 博士(标的为可再无邪力和动力系统),前年 2 月加入 OpenAI 担任议论科学家。
加入 OpenAI 之前,他在Google Brain崇拜空话语模子的预窥探、教导微调、推理、多话语、窥探基础要领等。
在谷歌职责时间,曾以一作身份,发表了对于模子微调的论文。(想维链作家 Jason Wei 同为一作)
回到正题。在 MIT 的演讲中,他当先提到:
通往 AGI 唯独可行的方法是激发模子,使通用手段出现。
av收藏夹在他看来,AI 规模正处于一次范式改变,即从传统的径直教学手段转向激发模子自我学习和发展通用手段。
情理也很直不雅,AGI 所包含的手段太多了,无法逐个学习。(主打以不变应万变)
淫声
具体咋激发呢??
他以下一个 token 展望为例,清晰了这种弱激发结构怎样通过大限度多任务学习,饱读吹模子学习科罚数万亿个任务的通用手段,而不是单独科罚每个任务。
他不雅察到:
淌若尝试以尽可能少的致力科罚数十个任务,那么单独口头识别每个任务可能是最浅易的;
淌若尝试科罚数万亿个任务,通过学习通用手段(例如话语、推理等)可能会更容易科罚它们。
对此他打了个比喻,"授东说念主以鱼不如授东说念主以渔",用一种基于激发的方法来科罚任务。
Teach him the taste of fish and make him hungry.(教 AI 尝尝鱼的滋味,让他饿一下)
然后 AI 就会我方出去垂钓,在此过程中,AI 将学习其他手段,例如耐烦、学习阅读天气、了解鱼等。
其中一些手段是通用的,不错哄骗于其他任务。
靠近这一"循循善诱"的过程,也许有东说念主以为还不如径直教来得快。
但在 Hyung Won 看来:
对于东说念主类来说如实如斯,然而对于机器来说,咱们不错提供更多的推断打算来裁减时候。
换句话说,靠近有限的时候,东说念主类也许还要在内行 or 通才之间作念采用,但对于机器来说,算力就能出名胜。
他又例如清晰,《龙珠》里有一个设定:在稀零窥探地点,扮装能在外界嗅觉只是一天的时候内取得一年的修皆后果。
对于机器来说,这个感知差值要高得多。
因此,具有更多推断打算技艺的强劲通才经常比内行更擅长稀零规模。
原因也尽人皆知,大型通用模子概况通过大限度的窥探和学习,快速合适和掌捏新的任务和规模,而不需要从新驱动窥探。
他还补充说念,数据显现推断打算技艺梗概每 5 年提高 10 倍。
总结下来,Hyung Won 以为中枢在于:
模子的可彭胀性
算力对加快模子进化至关要紧
此外,他还以为面前存在一个误区,即东说念主们正在试图让 AI 学会像东说念主类不异想考。
但问题是,咱们并不知说念我方在神经元层面是怎样想考的。
机器应该有更多的自主性来采用怎样学习,而不是被达成在东说念主类清醒的数学话语和结构中。
在他看来,一个系统或算法过于依赖东说念主为设定的秩序和结构,那么它可能难以合适新的、未料想的情况或数据。
酿成的斥逐等于,靠近更大限度或更复杂的问题时,其彭胀技艺将会受限。
回首 AI 往日 70 年的发展,他总结说念:
AI 的逾越与减少东说念主为结构、加多数据和推断打算技艺十指连心。
与此同期,靠近面前东说念主们对 scaling Law 的质疑,即以为只是扩大推断打算限度可能被以为不够科学或意旨。
Hyung Won 的见解是:
在彭胀一个系统或模子的过程中,咱们需要找出那些散伙彭胀的假定或达成条目。
举个例子,在机器学习中,一个模子可能在少许据集上推崇细致,然而当数据量加多时,模子的性能可能会着落,或者窥探时候会变得不能接收。
这时,可能需要转换算法,优化数据处理经由,或者改变模子结构,以合适更大的数据量和更复杂的任务。
也等于说,一朝识别出瓶颈,就需要通过改进和转换来替换这些假定,以便模子或系统概况在更大的限度上有用运行。
窥探 VS 推理:后果相似,推理资本却低廉 1000 亿倍
除了上述,o1 另一中枢作家Noam Brown也共享了一个不雅点:
窥探和推理对模子性能进步作用相似,但后者资本更低,低廉 1000 亿倍。
这意味着,在模子开荒过程中,窥探阶段的资源浪掷卓绝深广,而本色使用模子进行推理时的资本则相对较低。
有东说念主以为这突显了异日模子优化的后劲。
不外也有东说念主对此持怀疑气派,以为二者根柢没法拿来对比。
这是一个奇怪的比拟。一个是旯旮资本,另一个是固定资本。这就像说实体店比其中出售的商品贵 500000 倍
对此,你怎样看?
Hyung Won Chung 演讲 PPT:
https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit#slide=id.g2d1161c9c52_0_20
参考皆集:
[ 1 ] https://x.com/hwchung27/status/1836842717302943774
[ 2 ] https://x.com/tsarnick/status/1836215965912289306淫声