首页 -> 资讯 > 要闻 > 正文

基于 Transformer 的大模型是如何运行的?Meta 从全局和上下文学习揭秘|世界热闻

    来源: 机器之心  2023-06-23 03:04:09

机器之心报道

编辑:马梓文

本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠性和可解释性。


(资料图)

随着大型语言模型(LLM)在使用和部署方面的不断增加,打开黑箱并了解它们的内部工作原理变得越来越重要。更好地理解这些模型是如何做出决策的,这对改进模型和减轻其故障(如幻觉或推理错误)至关重要。

众所周知,最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理。LLM 对这些上下文的学习能力通常归功于 Transformer 架构,特别是自注意力块的使用,其能够仔细选择输入序列,进而推理出可信的下一个 token。此外,预测可能需要全局知识,如语法规则或一般事实,这些可能不会出现在上下文中,需要存储在模型中。

我们不禁会疑问,为什么基于 Transformer 的模型非常擅长使用它们的上下文来预测新的 token,这种能力是如何在训练中产生的?带着这些问题,来自 Meta AI 的研究者进行了深入的研究。他们通过研究合成设置下 Transformer 的学习机制,揭示了其全局和上下文学习的平衡,并将权重矩阵解释为联想记忆,为理解和优化 Transformer 提供了基础。

论文地址:https://arxiv.org/pdf/2306.00802.pdf

首先要了解的是在训练过程中 Transformer 是如何发现这些能力的。为此,该研究引入了一个合成数据集,该数据集由二元语言模型生成的序列组成。然后,模型需要依靠上下文学习来对特定的二元序列进行良好的预测,而全局二元可以根据当前 token 的全局统计数据进行猜测。虽然单层的 Transformer 无法可靠地预测上下文二元,但该研究发现通过开发感应头(induction head)机制的双层 Transformer 取得了成功,即拥有两个注意力头的 circuit,其允许 Transformer 从上下文 [ , a, b,, a ] 中预测 b,并且在 Transformer 语言模型中似乎无处不在。这种感应头(induction head)机制在 Transformer 语言模型中是普遍存在的,并且取得了成功。

更进一步的,为了更好的了解上下文机制是怎样出现在训练过程中的,该研究在随机初始化时冻结了一些层(包括嵌入和值矩阵)来进一步简化模型架构。这样一来研究重点转移到注意力和前馈机制,同时避免了学习表征的困难。与此同时,这种简化还为单个权重矩阵引入了一个自然模型作为联想记忆。自然模型可以通过它们的外积存储输入 - 输出或键 - 值对嵌入。随机高维嵌入由于其接近正交性而特别适合这种观点。

总结而言,该研究的贡献可概括为:

本文引入了一种新的合成设置来研究全局和上下文学习:序列遵循二元语言模型,其中一些二元在序列中变化,而另一些不会。

本文将 Transformer 的权重矩阵视为学习存储特定嵌入对的联想记忆,并以此为任务推导出一个简化但更可解释的模型。

本文对训练动态进行了细致的实证研究:首先学习全局二元,然后以自上而下的方式学习适当的记忆,形成感应头。

本文给出了训练动力学的理论见解,展示了如何通过在噪声输入中找到信号,在种群损失上进行一些自上而下的梯度步骤来恢复所需的联想记忆。

方法介绍

接着该研究介绍了合成数据设置,这样能够仔细研究感应头机制在训练过程中的发展以及 Transformer 如何学习利用上下文信息的。

双元数据模型:模型序列由一个通用的双元语言模型(即马尔可夫链)组成,每个序列的生成方式如下:

下图 2 可视化了测试序列上的注意力图,这表明该模型已经学习了感应头机制。接着该研究介绍了 Transformer 联想记忆观点:因为几乎正交的嵌入,权重矩阵表现为联想记忆,将成对的嵌入存储为其外积的加权和。研究引入了一个具有固定随机嵌入的简化 Transformer 模型,将用这种想法产生对学习动力学的精确理解。

此外,该研究提出了一个有用的观点,将 Transformer 中的模型权重视为高维嵌入向量的联想记忆。感应头机制可以通过以下外积矩阵作为记忆来获得,而其他所有权重则固定为随机初始化状态:

实验

图 3 研究了在迭代 300 次之前冻结不同层对训练动态的影响。

全局 vs 上下文学习。从图 4(左 / 右)可以看出,当联合训练所有层时,全局二元统计的学习速度往往比感应头更快,这可以从早期迭代中的 loss 和 KL 的快速下降中看出。

此外,从图 4(左)中看到,数据分布的变化会对上下文机制的学习速度产生重大影响。该研究观察到以下情况可能会使上下文学习减慢: ( i ) 较少数量的触发器 K, ( ii ) 仅使用少有的固定触发器,以及 ( iii ) 使用随机触发器而不是固定触发器。

该研究还在图 4(中间)中显示,在训练时将输出 token 分布更改为二元分布会降低准确率,这表明,使用更多样化的训练分布可以产生具有更好泛化准确率的模型,并且只需少量的额外训练成本。

更多研究内容,请参考原论文。

标签:

【免责声明】

1、凡本网注明出处非(巨潮财经网)的作品,均转载于自其它媒体,并不代表本网赞同其观点和对其真实性负责,目的在于信息的传递,本网不承担稿件侵权行为的连带责任,如对稿件有质疑请与本网客服联系。

2、刊发此文目的在于传递更多信息,文章内容仅供参考,不构成投资建议,投资者据此操作,风险自担。

3、如涉及作品内容、版权等其它问题,请在15日内联系本网客服。

阅读延展

基于 Transformer 的大模型是如何运行的?Meta 从全局和上下文学习揭秘|世界热闻

基于 Transformer 的大模型是如何运行的?Meta 从全局和上下文学习揭秘|世界热闻

机器之心报道编辑:马梓文本文旨在更好地理解基于Transformer的大型语

2023-06-23 03:04:09

世界最资讯丨三勒浆中考学生可以喝吗_三勒浆

世界最资讯丨三勒浆中考学生可以喝吗_三勒浆

1、说实话是因人而异的。2、我前段时间喝过一点点,觉得提神什么的还有

2023-06-23 00:56:18

csgo开箱模拟器免费网站_前十名首次开箱软件排名汇总

csgo开箱模拟器免费网站_前十名首次开箱软件排名汇总

CS:GO免费开箱【点击进入】老牌开箱网+超高爆率+一秒发货CSGO开箱APP【

2023-06-22 22:19:54

神经科学家发现充当大脑节拍器的神经元类型_视讯

神经科学家发现充当大脑节拍器的神经元类型_视讯

‬通过测量大脑触摸区域中单个神经元的快速电子尖峰,布朗大学的神经科

2023-06-22 21:07:54

不死者之王第二季动漫在线观看完整版 不死者之王多会儿出第二季

不死者之王第二季动漫在线观看完整版 不死者之王多会儿出第二季

1、据官方消息,不死者之王定档今年十月,至于是否会跳票未知。2、但跳

2023-06-22 20:11:27

最近更新

基于 Transformer 的大模型是如何运行的?Meta 从全局和上下文学习揭秘|世界热闻

基于 Transformer 的大模型是如何运行的?Meta 从全局和上下文学习揭秘|世界热闻

机器之心报道编辑:马梓文本文旨在更好地理解基于Transformer的大型语

2023-06-23 03:04:09

是不是你想要认识我是什么歌 是不是你想要认识我是什么歌里面的歌词 今日热讯

是不是你想要认识我是什么歌 是不是你想要认识我是什么歌里面的歌词 今日热讯

hello大家好,我是城乡经济网小晟来为大家解答以上问题,是不是你想要

2023-06-23 01:04:43

世界最资讯丨三勒浆中考学生可以喝吗_三勒浆

世界最资讯丨三勒浆中考学生可以喝吗_三勒浆

1、说实话是因人而异的。2、我前段时间喝过一点点,觉得提神什么的还有

2023-06-23 00:56:18

全球百事通!左传名句100句(左传名句)

全球百事通!左传名句100句(左传名句)

关于左传名句100句,左传名句这个很多人还不知道,现在让我们一起来看看

2023-06-22 22:52:07

csgo开箱模拟器免费网站_前十名首次开箱软件排名汇总

csgo开箱模拟器免费网站_前十名首次开箱软件排名汇总

CS:GO免费开箱【点击进入】老牌开箱网+超高爆率+一秒发货CSGO开箱APP【

2023-06-22 22:19:54

全球今头条!曾丹苓(关于曾丹苓介绍)

全球今头条!曾丹苓(关于曾丹苓介绍)

来为大家解答以上的问题。曾丹苓,丹苓介绍这个很多人还不知道,现在让

2023-06-22 21:55:11

每日快报!七项服务举措!  中国太保快速应对宁夏银川烧烤店爆炸事故

每日快报!七项服务举措! 中国太保快速应对宁夏银川烧烤店爆炸事故

6月21日20时40分许,宁夏银川市兴庆区富洋烧烤店发生燃气爆炸事故,造

2023-06-22 21:35:45

神经科学家发现充当大脑节拍器的神经元类型_视讯

神经科学家发现充当大脑节拍器的神经元类型_视讯

‬通过测量大脑触摸区域中单个神经元的快速电子尖峰,布朗大学的神经科

2023-06-22 21:07:54

羟基硬脂精 氧化硬脂精_关于羟基硬脂精 氧化硬脂精介绍 环球即时

羟基硬脂精 氧化硬脂精_关于羟基硬脂精 氧化硬脂精介绍 环球即时

1、食品添加剂指定标准食品添加剂羟基硬脂精(氧化硬脂精)2、本标准适

2023-06-22 20:35:11

不死者之王第二季动漫在线观看完整版 不死者之王多会儿出第二季

不死者之王第二季动漫在线观看完整版 不死者之王多会儿出第二季

1、据官方消息,不死者之王定档今年十月,至于是否会跳票未知。2、但跳

2023-06-22 20:11:27

盐城盐都投放800万元消费券

盐城盐都投放800万元消费券

夏夜的江苏盐城渎上·老西门街区,霓虹闪烁,人流如织。6月21日晚,202

2023-06-22 19:45:53

猎狼岛巫哲讲的什么 猎狼岛巫哲

猎狼岛巫哲讲的什么 猎狼岛巫哲

1、我去晋江看过,这篇没有番外吧番外应该是没了,这文已经熬干了我的精

2023-06-22 19:02:03

环球滚动:中国平安快速应对宁夏银川烧烤店爆炸事故 已排查到11名出险客户

环球滚动:中国平安快速应对宁夏银川烧烤店爆炸事故 已排查到11名出险客户

6月21日20时40分许,宁夏回族自治区银川市兴庆区民族南街富洋烧烤店操

2023-06-22 18:40:00

今日热闻!金州大桥项目完成总工程量的80% 预计年底建成通车

今日热闻!金州大桥项目完成总工程量的80% 预计年底建成通车

金州大桥工程项目自进场施工以来,各项工程进度进展顺利,目前已完成项

2023-06-22 18:13:06

世界要闻:中国乡村“现象级”体育赛事频现

世界要闻:中国乡村“现象级”体育赛事频现

新华社北京6月22日电题:中国乡村“现象级”体育赛事频现新华社记者许

2023-06-22 18:10:20

天天速递!让消费者放心购买茅台老酒,茅台品藏馆授牌,首批十家

天天速递!让消费者放心购买茅台老酒,茅台品藏馆授牌,首批十家

本文来源:MOUTAI品藏家6月19日,茅台品藏家2023仲夏联谊会在有着300多

2023-06-22 17:50:15

世界讯息:快讯 | 上海三中院裁定受理拉夏贝尔破产清算

世界讯息:快讯 | 上海三中院裁定受理拉夏贝尔破产清算

财经网生活讯近日,上海市第三中级人民法院发布新疆拉夏贝尔服饰股份有

2023-06-22 17:32:30

上火的原因和症状(上火的原因)_当前快讯

上火的原因和症状(上火的原因)_当前快讯

火的原因和症状,上火的原因这个问题很多朋友还不知道,来为大家解答以

2023-06-22 17:10:02

全新一代星途凌云内饰曝光,“科技豪华”让人眼前一亮

全新一代星途凌云内饰曝光,“科技豪华”让人眼前一亮

人们总说奇瑞喜欢把肉埋在饭里,言外之意就是说奇瑞像理工男一样,只喜欢展现硬核实力,却往往忽视了软实力的展现。作为奇瑞...

2023-06-22 17:01:10

限量1600台 新款GR卡罗拉Circuit发布

限量1600台 新款GR卡罗拉Circuit发布

[本站新车首发]日前,新款丰田GR卡罗拉CircuitEdition(赛道版)正式发

2023-06-22 16:39:19

当前速递!中方代表就涉疆等问题阐明严正立场

当前速递!中方代表就涉疆等问题阐明严正立场

中国日报布鲁塞尔6月21日电6月21日,外交部人权事务特别代表杨晓坤在人

2023-06-22 15:54:02

Volocopter以9000万美元的价格筹集了沃尔沃车主吉利 天天热推荐

Volocopter以9000万美元的价格筹集了沃尔沃车主吉利 天天热推荐

飞行汽车的承诺已成为一个想法,更多的是技术世界的缺点,而不是其令人

2023-06-22 15:38:09

新动态:特斯拉官方推特新创建一个与AI相关的推特附属账号

新动态:特斯拉官方推特新创建一个与AI相关的推特附属账号

财经网汽车6月22日讯,特斯拉创建了一个名为TeslaAI的推特账号,并称 "

2023-06-22 15:54:33

特斯拉寻求收购德国无线充电初创公司Wiferion|环球看热讯

特斯拉寻求收购德国无线充电初创公司Wiferion|环球看热讯

财经网汽车6月22日讯,特斯拉有意收购德国一家小型无线充电初创公司,

2023-06-22 15:44:20

全球热头条丨聊城市冠县安居置业有限公司:高质量、高效率解决群众难题

全球热头条丨聊城市冠县安居置业有限公司:高质量、高效率解决群众难题

大众网记者郑玉冰聊城报道冠县花留庄小区周先生反映家中窗户未安装好,

2023-06-22 14:53:20

奇奇颗颗历险记第三部全集_奇奇颗颗历险记第二季

奇奇颗颗历险记第三部全集_奇奇颗颗历险记第二季

1、全部92集三部第部--《奇奇颗颗历险记》第二部--《丛林奇遇》第三部-

2023-06-22 15:00:41

原创
            华为5G手机:麒麟990+鸿蒙系统+100W快充+256GB大内存,二手旗舰价1510元 环球快看

原创 华为5G手机:麒麟990+鸿蒙系统+100W快充+256GB大内存,二手旗舰价1510元 环球快看

如果你还在寻找一款性价比超高的二手旗舰手机,毕竟现在的华为5G手机

2023-06-22 14:09:43

低血压的原因引起的呢_低血压的原因及调理

低血压的原因引起的呢_低血压的原因及调理

1、指导意见:夏天气温高,血管扩张,相对血压偏低。2、一般不用服用升

2023-06-22 13:36:47

硬卧行李箱放哪里_火车硬卧行李放哪|全球快资讯

硬卧行李箱放哪里_火车硬卧行李放哪|全球快资讯

火车硬卧行李放在卧铺的行李架上,卧铺设有行李架,位置位于过道的上方

2023-06-22 12:40:08