实验表明法学硕士随着语言能力的提高对现实的理解也随之加深
如果你让GPT-4这样的大型语言模型(LLM)闻一闻雨水浸透的露营地,它会礼貌地拒绝。如果你让同一个系统向你描述这种气味,它会用“充满期待的空气”和“清新而朴实的气味”来描述这种气味,尽管它既没有雨水经验,也没有鼻子来帮助它进行这样的观察。这种现象的一个可能解释是,LLM只是模仿其庞大训练数据中存在的文本,而不是真正理解雨水或气味。
但是,没有眼睛就意味着语言模型永远无法“理解”狮子比家猫“大”吗?哲学家和科学家长期以来都认为赋予语言意义的能力是人类智慧的标志——并思考什么基本要素使我们能够做到这一点。
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员深入研究了这个谜题,发现了有趣的结果,表明语言模型可以通过发展自己对现实的理解来提高其生成能力。
该团队首先开发了一套小型的Karel谜题,其中包括在模拟环境中提出控制机器人的指令。然后,他们用这些解决方案训练了一名法学硕士,但没有展示这些解决方案的实际工作原理。最后,他们使用一种名为“探测”的机器学习技术,在模型生成新解决方案时深入研究了模型的“思维过程”。
在对超过100万个随机谜题进行训练后,他们发现,尽管模型在训练期间从未接触过这种现实,但它还是自发地形成了对底层模拟的自己的想法。这些发现让我们对学习语言意义需要哪些类型的信息这一直觉产生了怀疑,以及LLM是否有一天能够比现在更深入地理解语言。
“在这些实验开始时,语言模型会生成不起作用的随机指令。当我们完成训练时,我们的语言模型以92.4%的比例生成了正确的指令,”麻省理工学院电气工程和计算机科学(EECS)博士生、CSAIL成员CharlesJin说道,他是这项研究新论文的主要作者。
“这对我们来说是一个非常激动人心的时刻,因为我们认为,如果你的语言模型能够以如此高的准确度完成一项任务,我们可能希望它也能理解语言中的含义。这为我们提供了一个起点,让我们探索LLM是否真的理解文本,现在我们发现它们的能力远不止盲目地将单词拼接在一起。”
法学硕士(LLM)的内心世界
探测器帮助金亲眼见证了这一进展。它的作用是解释LLM认为指令意味着什么,揭示LLM开发了自己的内部模拟,以模拟机器人如何响应每个指令。随着模型解决难题的能力提高,这些概念也变得更加准确,表明LLM开始理解指令。不久之后,模型就能始终如一地正确地将各个部分组合在一起,形成工作指令。
金指出,法学硕士对语言的理解是分阶段发展的,就像孩子学习语言的过程一样。一开始,就像婴儿牙牙学语:重复且大部分内容难以理解。然后,语言模型掌握了语法或语言规则。这使得它能够生成可能看起来像是真正的解决方案的指令,但它们仍然不起作用。
不过,法学硕士的指令会逐渐完善。一旦模型获得意义,它就会开始大量生成正确实现所要求规范的指令,就像孩子形成连贯的句子一样。
将方法与模型分离:一个“奇异的世界”
金表示,探测器的目的只是“进入法学硕士的大脑”,但也有可能它也能为模型进行一些思考。研究人员希望确保他们的模型能够独立于探测器理解指令,而不是探测器根据法学硕士掌握的语法推断机器人的动作。
“想象一下,你有一堆数据,这些数据编码了LM的思维过程,”金建议道。“探测器就像法医分析师:你把这堆数据交给分析师,然后说,‘这是机器人的移动方式,现在试着在数据堆中找到机器人的动作。’分析师后来告诉你,他们知道数据堆中机器人的情况。但如果数据堆实际上只是编码了原始指令,而分析师已经找到了一些巧妙的方法来提取指令并相应地执行指令,那会怎样?那么语言模型实际上根本没有学到指令的含义。”
为了理清他们的角色,研究人员将新探测器的指令含义颠倒过来。在这个金称之为“奇异世界”的世界中,在机器人穿过网格的指令中,“上”等方向现在意味着“下”。
“如果探测器将指令翻译成机器人姿势,它应该能够同样出色地根据奇异的含义翻译指令,”金说。“但如果探测器实际上在语言模型的思维过程中找到了原始机器人动作的编码,那么它应该很难从原始思维过程中提取奇异的机器人动作。”
事实证明,新探测器出现了翻译错误,无法解释指令含义不同的语言模型。这意味着原始语义嵌入在语言模型中,表明LLM可以独立于原始探测分类器了解需要哪些指令。
“这项研究直接针对现代人工智能的一个核心问题:大型语言模型的惊人能力仅仅是由于大规模的统计相关性,还是大型语言模型对它们被要求处理的现实发展出有意义的理解?这项研究表明,法学硕士开发了一个模拟现实的内部模型,即使它从未接受过开发这种模型的训练,”麻省理工学院EECS教授、CSAIL成员、该论文的高级作者MartinRinard说。
这项实验进一步证实了团队的假设,即语言模型可以加深对语言的理解。不过,金承认他们的论文存在一些局限性:他们使用了一种非常简单的编程语言和一个相对较小的模型来收集他们的见解。在即将开展的一项研究中,他们将寻求使用更通用的设置。虽然金的最新研究没有概述如何让语言模型更快地学习意义,但他相信未来的研究可以基于这些见解来改进语言模型的训练方式。
“一个有趣的未解问题是,法学硕士在解决机器人导航问题时是否真的使用其内部现实模型来推理现实,”里纳德说。“虽然我们的结果与法学硕士以这种方式使用该模型一致,但我们的实验并非旨在回答下一个问题。”
布朗大学计算机科学和语言学助理教授ElliePavlick表示:“目前有很多争论,关于法学硕士是否真正‘理解’语言,或者他们的成功是否可以归因于从大量文本中吸收的技巧和启发式方法。”她没有参与这篇论文。
“这些问题是我们如何构建人工智能的核心,以及我们期望我们的技术固有的可能性或局限性是什么。这是一篇很好的论文,以一种可控的方式研究了这个问题——作者利用了这样一个事实:计算机代码就像自然语言一样,既有语法又有语义,但与自然语言不同的是,语义可以直接观察和操纵以用于实验目的。实验设计很优雅,他们的发现也很乐观,这表明也许法学硕士可以更深入地了解语言的‘含义’。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
截至2024年,大众探岳GTE的售价可能会因地区、配置和促销活动而有所不同。一般来说,2024款探岳GTE的价格可能...浏览全文>>
-
关于2025款途观L的价格信息,目前还没有官方发布。不过,根据以往的市场规律和车型更新周期,我们可以大致推测...浏览全文>>
-
根据您提供的信息,2024款广东东莞威然的最低售价为22 99万元起。关于具体的落地价,需要考虑以下因素:1 ...浏览全文>>
-
根据您的描述,生活家PHEV 2025款的最低售价为 63 98万元起。如果目前有促销活动或优惠政策,建议尽快咨询...浏览全文>>
-
奔腾T99作为一汽奔腾旗下的旗舰SUV车型,凭借其大气的外观设计、丰富的科技配置以及出色的性能表现,吸引了众...浏览全文>>
-
当然可以!以下是一个简单的试驾预约流程,帮助您轻松开启智蓝G5新能源的试驾之旅:1 确定需求- 车型选择...浏览全文>>
-
特斯拉的赛博越野旅行车(Cybertruck)自发布以来就引发了广泛关注。这款车型结合了皮卡的实用性、SUV的多功能...浏览全文>>
-
江淮悍途EV是一款纯电动皮卡,如果您想预约试驾,通常需要满足以下条件和准备以下信息:1 基本条件 - 年...浏览全文>>
-
截至我所掌握的信息,瑞驰新能源的ED75 2024款具体价格和配置可能会因地区、经销商以及政策补贴的不同而有所...浏览全文>>
-
在考虑购买上汽大众ID 4 X时,了解车辆的价格以及相关的购车费用是非常重要的。以下是一些关键信息和费用明...浏览全文>>
- 山东济南途观L新能源价格大公开,买车不花冤枉钱
- 东莞途岳最新价格2025款全分析,买车不踩坑
- 济南探岳GTE新车报价2024款,换代前的购车良机,不容错过
- 郑州ID.7 VIZZION多少钱 2024款落地价,配置升级,值不值得买?
- 郑州途锐新能源最新价格2024款,优惠购车,最低售价67.98万起
- 瑞虎7 PLUS新车报价2025款,买车前的全方位指南
- 广东东莞揽巡价格走势,市场优惠力度持续加大
- 轩逸新车报价2025款,买车前的全方位指南
- 飞凡R7新车报价2025款,换代前的购车良机,不容错过
- 试驾风光ix5,轻松搞定试驾
- 捷途山海L7预约试驾,从预约到试驾的完美旅程
- 试驾E福顺,从预约到试驾的完美旅程
- 长安星卡EV多少钱?选车指南与落地价全解析
- 凯翼E5 EV多少钱?如何挑选性价比高的车
- 标致408X预约试驾,快速操作,轻松体验驾驶乐趣
- 试驾星际牛魔王,新手必看的操作流程
- 岚图汽车岚图梦想家试驾预约,轻松几步,畅享豪华驾乘
- 影豹多少钱?全方位对比助你选车
- 豪运最新价格2023款,豪华配置超值价来袭
- 缤智多少钱 2025款落地价全解买车必看