本年英语高考,CMU用重构预练习交出134高分,大幅跨越GPT3

  • A+
所属分类:英语学习资讯

??这篇文章提出的重构预练习(reStructured Pre-training,RST),不只在各种 NLP 使命上体现亮眼,在高考英语上,也交出了一份满足的成果。

咱们存储数据的方法正在发生改变,从生物神经网络到人工神经网络,其实最多见的情况是运用大脑来存储数据。跟着当今可用数据的不断增加,我们寻求用不一样的外部设备存储数据,如硬盘驱动器或云存储。跟着深度学习技能的鼓起,另一种有前景的存储技能现已呈现,它运用人工神经网络来存储数据中的信息。

研讨者认为,数据存储的究竟方针对错常好地效能于人类日子,数据的造访方法和存储方法相同重要。可是,存储和造访数据的方法存在差异。前史上,我们一向在尽力抵偿这一间隔,以便非常好有利地势用世界上存在的信息。如图 3 所示:

在生物神经网络(如人脑)方面,人类在很小的时分就承受了课程(即常识)教育,以便他们可以获取特定的数据来应对凌乱多变的日子。关于外部设备存储,我们一般依照某种方法(例如表格)对数据进行规划化,然后选用专门的言语(例如 SQL)从数据库中有用地检索所需的信息。关于根据人工神经网络的存储,研讨人员使用自监督学习存储来自傲型语料库的数据(即预练习),然后将该网络用于各种下流使命(例如心境分类)。

来自 CMU 的研讨者提出了一种造访包括各品种型信息数据的新办法,这些信息可以作为辅导模型进行参数优化的预练习信号。该研讨以信号为单位规划化地标明数据。这类似于运用数据库对数据进行存储的场景:首要将它们规划成表或 JSON 格局,这样就可以经过专门的言语 (如 SQL) 精确地检索所需的信息。

此外,该研讨认为有价值的信号丰厚地存在于世界各类的数据中,而不是简略地存在于人工打点的监督数据会集, 研讨人员需要做的是 (a) 辨认数据 (b) 用共同的言语重组数据(c)将它们集成并存储到预练习言语模型中。该研讨称这种学习范式为重构预练习(reStructured Pre-training,RST)。研讨者将这个进程比作「矿山寻宝」。不一样的数据源如维基百科,恰当于盛产宝石的矿山。它们包括丰厚的信息,比方来自超联接的命名实体,可认为模型预练习供给信号。一个好的预练习模型 (PLM) 大约理解地晓得数据中各种信号的构成,以便根据下流使命的不一样需要供给精确的信息。

论文地址:https://arxiv.org/pdf/2206.11147.pdf

预练习言语模型寻宝

该研讨提出天然言语处置使命学习的新范式, 即 RST,该范式从头注重数据的作用,并将模型预练习和下流使命的微调视为数据的存储和造访进程。在此基础上,该研讨完成了一个简略的原则,即杰出的存储机制不只大约具有缓存很大都据的才能,还大约思考造访的便利性。

在战胜了一些工程应战后,该研讨经过对重构数据(由各种有价值的信息而不是初始数据构成)进行预练习来完成这一点。实验证明,RST 模型不只在来自各种 NLP 使命(例如分类、信息抽取、实际检索、文本生成等)的 52/55 盛行数据集上体现大幅跨越现有最佳体系(例如,T0),而且无需对下流使命进行微调 。在每年稀有百万学生参加的我国最声威的高考英语考试中也获得了优良的成果。

具体而言,这篇文章所提出的高考 AI (Qin) 比学生的均匀分数高出 40 分,比运用 1/16 参数的 GPT3 高出 15 分。特另外 Qin 在 2021 年英语考试中获得了 138.5 的高分(满分 150)。

此外,该研讨还发布了高考基准(Gaokao Benchmark)在线提交平台,包括 2021-2021 年至今 10 篇带注释的英文试卷(并将每年进行拓宽),让更多的 AI 模型参加高考,该研讨还树立了一个相对公正的人类和 AI 竞赛的查验平台,协助咱们非常好地晓得咱们地址的方位。另外,在前几天(2022.06.08)的 2022 年高考英语查验中,该 AI 体系获得了 134 分的好成果,而 GPT3 只获得了 108 分。

该研讨的首要奉献包括:

(1)提出 NLP 办法的演进假设。该研讨企图经过探究现代 NLP 技能打开之间的内在联络,从全局的视点树立了「NLP 技能演进假设」。简而言之,该假设的中心思维是:技能的迭代老是沿着这样的方向打开:即开发者只需做更少的作业便可以来方案非常好、更通用的体系。

到当前中止,NLP 技能演进现已阅历了如图 2 所示的多次迭代:特征工程→架构工
本年英语高考,CMU用重构预练习交出134高分,大幅跨越GPT3插图
程→方针工程→prompt 工程,正执政着更实践有用的以数据为中心的工程跨进。研讨者期望将来能激起更多的科研人员批判性地思考这个疑问,掌控技能前进的中心驱动力,找到学术打开「梯度上升」途径,做更多有科学意义的作业。

(2)根据演进假设新范式:重构预练习(reStructured Pre-training)。该范式将模型预练习 / 微调视为数据存储 / 造访进程,并声称杰出的存储机制大约使预期数据易于造访。有了这样一个新范式,该研讨可以从 10 个数据源(例如 Wikipedia)中共同世界上 26 种不一样类型的信号(例如语句的实体)。在此基础上练习的通用模型在各种使命上获得了很强的泛化才能,其间包括 55 个 NLP 的数据集。

(3)用于高考的 AI。根据上述范式,该研讨开发了一个专门用于高考英语查验使命的 AI 体系——Qin。这是世界上第一个根据深度学习的高考英语人工智能体系。Qin 在多年的高考试题上都获得了杰出的成果:比一般人高出 40 分,仅用 GPT-3 1/16 的参数量就获得了比 GPT-3 高 15 分的成果。特别是在 2021 年英语试题上,QIN 获得了 138.5 分(满分 150 分)的高分,听力和阅览了解都满分。

(4) 丰厚的本钱。(1) 为了跟踪现有 AI 技能在完成人类智能方面的发展,该研讨发布了一种新基准——Gaokao Benchmark。它不只供给对实际世界场景中各种实践使命和领域的归纳评价,还可以提招供类的体现成果,以便人工智能体系可以直接与人类进行比照。(2)该研讨运用 ExplainaBoard(Liu et al., 2021b)为 Gaokao Benchmark 设置了一个交互式排行榜,以便更多的 AI 体系可以轻松参加 Gaokao Benchmark 并主动获得分数。(3)一切本钱都可以在 GitHub 上找到。

此外,AI 在高考英语查验使命上的成功为研讨者供给了许多新的思考:AI 技能可以赋能教育,协助处置教育和教育中的一系列疑问。

例如,(a) 协助教师主动评分,(b) 协助
本年英语高考,CMU用重构预练习交出134高分,大幅跨越GPT3插图(1)
学生答复有关作业的疑问并具体说明,以及 (c) 更重要的是,推进教育公正,让大大都家庭都能获得平等质量的教育效能。这项作业初度以共同的方法联系了世界上 26 个不一样的信号,而不是企图区别有监督和无监督的数据,而是关怀咱们可以多少运用大天然给咱们的信息以及如何运用。来自各种 NLP 使命的 50 多个数据集的超卓体现闪现了以数据为中心的预练习的价值,并激起了更多的将来探究。

重构预练习

处置 NLP 使命的范式正在灵敏改变,而且仍在持续,下表列出了 NLP 中的五种范式:

与现有的以模型为中心的方案范式不一样,该研讨更多地从数据的视点思考,以最大极限有利地势用已稀有据。具体来说,该研讨选用数据存储和造访视图,其间预练习期间被视为数据存储进程,而根据预练习模型的下流使命(例如,情感分类)被视为来自预练习模型的数据造访进程,并声称杰出的数据存储机制大约使存储的数据更易于造访。

为了完成这一方针,该研讨将数据视为由不一样信号构成的目标,并认为一个好的预练习模型大约(1)掩盖尽可以多的信号类型,(2)当下流使命需要时,为这些信号供给精确的造访机制。一般来说,这个新范式包括三个进程:重构、预练习、微调。

重构、预练习、微调的新范式凸显了数据的重要性,研讨人员需要在数据处置上投入更多的工程精力。

重构工程

信号界说

信号是数据中存在的有用信息,可认为机器学习模型供给监督,标明为 n 元组。例如「莫扎彪炳世在萨尔茨堡」,「莫扎特」、「萨尔茨堡」可以被认为是命名实体辨认的信号。一般,可以从不一样的视点对信号进行聚类,如下图 6 所示。

数据发掘

实际世界的数据中包括许多不一样类型的信号。重构预练习使这些信号可以充分被使用。该研讨将搜集到的信号(n 元组)组织在树形图中,如下图 10 所示。

信号获取

下一步该研讨进行了信号获取和处置,触及从不一样模态的数据发掘中获取初始数据、数据清洗和数据标准化。现有的办法大致分为两种:(1)根据规则的,(2)根据机器学习的。在这项作业中,该研讨首要重视根据规则的信号获取战略,并为将来的作业留下更多高掩盖率的办法。

信号重构

在从各种数据发掘中获取出不一样的信号之后,接下来重要的一步是将它们共同成一个固定的方法,以便在预练习时刻将一切信息共同存储在模型中。prompt 办法(Brown et al., 2021; Liu et al., 2021d)可以完成这个方针,原则上,经过恰当的 prompt 方案,它几乎可以将一切类型的信号共同为一种言语模型个性。

该研讨将信号分为两大类:通用信号和使命有关信号。前者包括根柢的言语常识,可以在必定程度上使一切下流使命获益,然后者则可以使某些特定的下流使命获益。

在 55 种常用的 NLP 数据集上的实验

该研讨在 55 个数据集前进行评价,然后将它们别离与 GPT3 和 T0pp 进行比照。与 GPT3 比照的成果如图所示:在除 cb 数据集之外的四个数据集上,RST-All 和 RST-Task 都具有比 GPT3 的小样本学习非常好的零样本功能。此外,cb 数据集是这些数据会集最小的,验证会集只需 56 个样本,因而不一样的 prompt 在该数据集上的功能会有较大的不坚决。

与 T0pp 比照成果如表 4-6 所示。例如在 55 个测量的均匀功能中,RST-All 在 49 个数据集上打败了 T0pp,并在 47/55 示例上以最大功能胜出。此外,在 55 个数据集的均匀功能查验中,RST-Task 在 52 个数据集上优于 T0pp,并在 50/55 个示例下跨越 T0pp。这阐明重构学习的优胜性。

功能最佳的模型 RST-Task 擅长哪些使命?为了答复这个疑问,该研讨将 RST-Task 模型在零样本设置中的功能与其时 SOTA 模型进行比照,成果如图 13 所示。RST-Task 擅长主题分类、情感分类和天然言语推理使命,但在信息获取使命中体现较差。

高考实验:迈向人类水平的 AI

该研讨搜集了 10 份高考英语试卷,包括 2021 年国考 I/III、2021 年国考 I/II/III、2021 年国考 I/II/III、2021 年全国卷 A/B。这些试卷遵从相同的题型,他们将一切考试题型分为以下七个子品种,如表 7 所示:

每篇高考英语试卷满分 150 分。听力、完形填空、阅览、写道别离占 30、45、40、35。一般,写作有些是片面的,需要人工评价,而其他有些是客观的,可以主动评分。如表 8 所示:

运用表 1 中所示的重构工程循环来构建高考英语 AI 体系,即 Qin。整个进程如图 14 所示:

该研讨运用以下 prompt 将初始信号元组变换为 prompt 样本,如表 9 所示:

实验成果如表 10-11 所示,咱们可以得出以下结论:在每一份英语试卷中,RST 在两套听力考试中获得了最高的总分,均匀分数为 130.6 分;与 T0pp 比较,RST 的功能要远远优于相同模型巨细下的 T0pp。在一切设置中,RST 获得的总分均匀比 T0pp 高出 54.5 分,最高间隔为 69 分(占总分的 46%);与 GPT3 比较,RST 可以在模型巨细小 16 倍的情况下获得显着非常好的成果。在一切思考的设置中,RST 获得的总分均匀比 T0pp 高 14.0 分,最高为 26 分(占总分的 17%);关于 T0pp,运用黄金和语音转文本成果单获得的听力分数差异很大,均匀为 4.2 分。比较之下,GPT3 和 RST 别离为 0.6 和 0.45,标明 T0pp 的功能对文本质量很活络。

该研讨进行了细粒度分析,以晓得不一样模型在不一样疑问子品种上的体现。在图 15-(a) 中,很显着 RST 和 GPT3 在每个疑问子品种上都优于 T0pp。

图 15-(b)为这些年模型的体现和学生在全国试卷上的均匀体现。很显着,T0pp 在 9/10 试卷上的总分低于学生的均匀水平,而 RST 和 GPT3 的体现则跨越了学生的均匀水平。特别是这十份试卷中有五份,RST 的总分跨越了 130(一般被认为是学生争夺的方针分数)。

2022 年高考 - 英语考试(2022.06.08)刚刚结束,晓得到模型在迩来一年的高考试卷中的体现。该研讨用 GPT3 和 RST 进行实验。成果闪现 RST 总分抵达 134,远高于 GPT3 抵达的 108 分。

论文最终还有三个彩蛋,更多具体内容,请查看原论文。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: