anisur222 發表於 2024-2-19 17:12:23

认知集体:RLHF 不是对齐的魔杖


生成人工智能的世界正在快速发展。我们发现跟上变化的最佳方法是直接联系人工智能专家并听取他们的想法,不要进行炒作、夸张和营销宣传。因此,在第一篇文章中,我们邀请人工智能领域最优秀的人才分享他们在这个令人兴奋的领域的观点和经验。 Christopher Rytting 是杨百翰大学计算机科学专业五年级博士生。他研究大型预训练语言模型模拟人类的能力,既可以用于直接研究,也可以作为社会科学研究的辅助工具。 作者:克里斯托弗·迈克尔·瑞廷 ChatGPT 在机器学习最大的会议 NeurIPS 2022 上首次亮相后,通过人类反馈强化学习(也称为 RLHF)训练的语言模型正在学术界大放异彩。有传言说ChatGPT 会取代 Google,Twitter 正在人们声称通过 GPT-4 中的一些总体调整来结束即时工程,并且很多预期的功劳都归于 RLHF。这种炒作感觉就像发烧,近乎神秘,我想探索并消除它。 为什么我们喜欢强化学习 我们可以从四分之一个多世纪前发表在《人工智能研究杂志》上的《强化学习:一项调查》论文开始,该论文总结了强化学习,并称其承诺“欺骗”——一种通过奖励和惩罚对智能体进行编程的方式,而无需明确如何完成任务。

仅奖励和惩罚就可以让我们获得人工智能的想法很有吸引力。为什么?因为它类似于对自然选择本身的一种非常流行的解释,即我们自己以及所有智慧生命形式都是通过奖励和惩罚来编程的,以最终追求繁衍。该理论认为,进化 美国电话号码列表 生物的每一个特征(它们的智力、它们的快乐、它们的痛苦、每一个表现或经验的碎片)都源于或多或少有利于每个生物的繁殖的遗传变异。强化学习援引进化神话的神圣优雅来证明自己的承诺。 强化学习如此引人注目的另一个原因是,它可以被视为对科学直觉的拒绝,即系统应该——甚至可以——被理解,许多人认为过去五十年的人工智能研究有理由拒绝这一拒绝。在科学史上,观察和思考现象揭示了因果机制。研究这些现象的学生可以理解并在某些情况下控制它们,例如氮促进作物生长或升力飞机。这种直觉,称为理解的价值,是二十世纪象征性的老式人工智能(GOFAI)的设计原则。我们会思考、分析它,并通过逐条规则地写下他们的想法来相应地教导我们的代理。然而,兴奋被疲倦所取代,因为这个不断增长的规则体系的任何终点都在人们的视线之外,总是被一长串边缘案例所阻挡,排除了任何强大的“智能”的概念。

https://zh-cn.baleads.com/wp-content/uploads/2024/02/seo111-1.png

的失败让我们筋疲力尽,资金枯竭,人工智能的冬天来临了。 让我们摆脱那个时期的是方法的改变,从人工制作转向数据训练。在一个又一个的领域(尤其是游戏、自然语言处理和视觉),通过模拟和现实世界数据训练人工智能如何做——胜过通过编写规则和逻辑来训练人工智能如何做。 2019 年(甚至在 GPT-3 之前,这可能是这种最小监管方法最引人注目的例子),RL 的核心人物之一 Rich Sutton 总结了这一转变并发表了《痛苦的教训》。这个标题反映了科学家接受自己的正确角色是多么困难,他们抑制了最深的冲动(理解),并将控制权交给了他们在释放数据之前几乎不会设计的学习算法。 DeepMind 的一篇类似文章名为《Reward is Enough》,你可以想象这句话是感叹还是叹息。 那么,强化学习在概念上、几乎在意识形态上都可以代表进化论,或者代表有效的替代无效的,无论我们的愿望和先验如何。拒绝或质疑它的价值可能会让人感觉像是异端邪说——尽管它是出了名的挑剔、不稳定、困难,而且迄今为止还无法产生普遍智能的智能体。
頁: [1]
查看完整版本: 认知集体:RLHF 不是对齐的魔杖

一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |