phporc库技巧_12家研究机构160页参考了650篇论文根本模型推理综述 Part4

文章目录 [+]

添加图片注释，不超过 140 字（可选）

4.1.1 数据来源 Data Source

根本模型是数据驱动的，数据的质量和数量都是根本模型开拓的核心。
图14展示了根本模型预演习的三种紧张数据来源。

phporc库技巧_12家研究机构160页参考了650篇论文根本模型推理综述 Part4

文本数据

（图片来自网络侵删）

公开可访问的大规模文本数据集领域正在迅猛扩展，为各种运用供应了丰富多样的资源。
一个范例的例子是Pile (Gao et al., 2020)，这是一个弘大的英语文本语料库，以其霸占了825GB的规模而著名，专门为大规模措辞模型的演习而精心策划。
该语料库包括22个不同的子集，以其多样性和质量而有名，搜集了现有的和新创建的内容，个中有很大一部分来自学术和专业领域。
这些数据大部分是通过网络爬取的办法获取的，类似于CommonCrawl项目。
须要认识到的是，这种网络爬取会产生不同质量的内容，既包括高质量的维基百科词条，也包括低级别的垃圾邮件，因此须要进行严格的过滤和处理以提高数据质量。

这个领域中另一个显著的数据集是C4数据集 (Raffel et al., 2019)，它是Common Crawl网络语料库的一个扩展和精髓精辟版本，被广泛运用于各个领域。

比较之下，ROOTS数据集 (Lauren?con et al., 2022)是一个巨大的资源，覆盖了1.6TB的数据，涵盖了来自三个宏不雅观地区和九个措辞家族的59种措辞，还包括13种编程措辞的材料，个中Java、PHP和C++等霸占了大部分内容。

Gutenberg项目(Lahiri, 2014)供应了142位作者的3036本英文图书，这个凑集是更大的Gutenberg语料库的一个子集，经由精心清理，以尽可能地删除元数据、容许详细信息和转录者的注释。

CLUECorpus (Xu et al., 2020)作为一个中文文本领域的主要资源，拥有100GB的大规模数据。
这个社区驱动的项目整合了九个不同的任务，涵盖了从单句/句对分类到机器阅读理解的各种任务，都以真实的中文文本为根本。

此外，Proof-Pile数据集 (Azerbayev et al., 2023)以其弘大的80亿个标记在数学文本领域引人瞩目。
它是为了普遍数学领域而专门调度的数学措辞模型中的少数开源数据集之一。

peS2o数据集 (Soldaini and Lo, 2023)包括约4000万篇免费获取的学术论文，是一个非常宝贵的资源。
它经由了彻底的清理、过滤和格式化，非常适宜用于预演习措辞模型。
该数据集源自Semantic Scholar开放研究语料库(S2ORC)，扩展了学术文本资源的可用性。

此外，研究职员还可以获取各种公开的对话数据集，如Reddit语料库 (Roller et al., 2020)。
在线社交媒体平台上的数据也供应了丰富的对话内容。
科学文本凑集常日侧重于聚合诸如arXiv论文、科学教材、数学网站和干系科学资料等材料。
科学数据的繁芜性，常常包含数学符号和蛋白质序列，哀求对其进行专门的标记化和预处理方法以实现标准化和措辞模型的统一处理。

最近的研究 (Austin et al., 2021)强调了在广泛的代码语料库上演习大型措辞模型（LLMs）对天生程序质量的显著提升。
这些语料库常日来自于StackOverflow和GitHub等平台。

末了， RedPajama项目 (Computer, 2023)因其令人瞩目的LLaMA演习数据集而值得一提，该数据集包含着弘大的12万亿个标记。
该数据集来自CommonCrawl、C4、GitHub、图书、ArXiv、维基百科和StackExchange等各种数据源，为措辞模型的开拓和改进供应了一个全面而多样化的资源。

图像数据

利用广泛且经由人工精心策划的数据集（如ImageNet (Deng et al., 2009)和ImageNet21K (Ridnik et al., 2021)）进行监督预演习的方法已成为发展可通报的视觉表示的一种盛行方法。
此过程旨在创建输入图像与特定可视观点相对应的独特标签之间的联系。
随着对大规模预演习的需求不断增长，从环球网络中获取的图像-文本配对天生大量喧华标签的能力日益主要。
借助这些噪声标签，许多顶尖工业研究实验室闇练地利用半自动数据管道构建了大量分类数据集。
这些努力的显著例子包括JFT (Sun et al., 2017)和I2E (Wu et al., 2023e)。
此外，它们还利用专有数据源（如Instagram的标签）进一步丰富数据集，并增强预演习模型的精确性。
这种策略极大地促进了前辈的视觉识别系统的发展，使它们能够有效地识别和分类各种视觉观点和工具。

多模态数据

大规模数据集领域有几个显著的例子。
例如，SBU (Ordonez et al., 2011)实行大量Flickr查询，然后对结果进行严格筛选，以天生100万个与视觉干系的图像，每个图像都具有干系的标题。
相反，RedCaps (Desai et al., 2021)是一个弘大的数据集，包含来自Reddit的1200万个图像-文本配对。

WIT数据集 (Srinivasan et al., 2021)以其精心策划的37.6亿图像-文本实例而著名，它还领悟了实体信息，涵盖了108种维基百科措辞，并包含了1150万个独特图像。
该领域中的其他相对较大的数据集包括Shutterstock (Nguyen et al., 2022)、 LAION-400M (Schuhmann et al., 2021)和COYO-700M (Byeon et al., 2022)。
OpenAI的CLIP (Radford et al., 2021)通过精心网络的4亿个图像-文本配对进行改进，这些配对是从网络中细心挑选而来的。

最近，我们不雅观察到了十亿级别数据集的涌现。
例如， LAION-5B数据集 (Schuhmann et al., 2022)包含了58.5亿个经由CLIP过滤的图像-文本配对，个中有23.2亿个是英文。
DataComp (Gadre et al., 2023)作为一个数据集实验平台，专注于一个从Common Crawl网络的新的128亿个图像-文本配对池。
Flamingo (Alayrac et al., 2022)引入了MultiModal MassiveWeb (M3W)数据集，它从大约4300万个网页中聚合了文本和图像，并根据文档工具模型（DOM）将图像与文本进行对齐。

在这个背景下，值得把稳的一个项目是ImageBind (Girdhar et al., 2023a)，它旨在开拓一个涵盖图像、文本、音频、深度、热像和IMU数据等六种不同模态的联合嵌入，并有可能扩展到其他模态，如点云(Guo et al., 2023b)。
这个年夜志勃勃的努力意味着在建立不同数据类型之间的故意义联系方面迈出了主要的一步。
随着多模态学习的进展，数据集创建和运用的这些进展对该领域的持续创新至关主要。

推理数据

对付增强根本模型推理能力来说，代码数据和论文数据的主要性不可忽略。
首先谈论代码数据，CoCoGen的研究表明，当将构造化知识推理任务视为代码天生问题时，与自然措辞演习的预演习措辞模型（LMs）比较，针对代码的预演习模型表现出更强的推理能力(Madaan et al., 2022)。
纵然对付不涉及源代码的任务，这一结论仍旧成立。
这类代码数据可以在GitHub以及公开得到的各种经由筛选的数据集中找到。
就此，StarCoder发布了一个弘大的预演习数据集（783GB），以进一步提升措辞模型在编码方面的闇练程度(Li et al., 2023k)。
至于论文数据， Galactica这一模型在科学论文、参考文献、知识库和其他多元化来源的大量语料库上进行了演习，相对付现有模型，在各种科学任务上展现出更强的性能(Taylor et al., 2022)。
论文数据紧张来自于像Arxiv这样的学术平台，特殊看重数学论文。
此外，peS2o数据集涵盖了来自Semantic Scholar Open Research Cor-pus（S2ORC）的4000多万篇开放获取的学术论文，为模型的预演习供应了丰富的资源(Soldaini and Lo, 2023)。

4.1.2 网络架构Network Architecture

根本模型架构是至关主要的。
我们不才文中谈论不同的网络架构，并在图 15中展示它们。

添加图片注释，不超过 140 字（可选）

编码器-解码器构造

首创性的Transformer模型，如Vaswani et al. (2017)所描述，建立在编码器-解码器框架上。
该范例采取双重Transformer块的堆叠，个中一个函数作为编码器，另一个作为解码器。
编码器阶段利用多头自把稳力层的堆叠排列来解码输入序列中的内在信息，从而产生潜在表示。
在随后的阶段中，解码器对这些表示运用交叉把稳力机制，匆匆使目标序列的天生。
这种创新的架构广泛运用于序列到序列建模任务，如神经机器翻译。
BERT (Kenton and Toutanova, 2019)是一种具有独特设计的模型，用于对无标签文本进行深度双向表征的预演习。
它在所有层上同时处理左侧和右侧高下文，使其在各种NLP任务中具有非常高的灵巧性。
相反，BART (Lewis et al., 2020)采取传统的基于Transformer的神经机器翻译架构。
虽然其构造可能显得大略，但BART可以被视为BERT的一种演进，将BERT的双向编码器和GPT的单向从左到右的解码器以及其他高等预演习方法相结合。
此外，遵照编码器-解码器构造典范的预演习措辞模型(PLMs)，如T5 (Raffel et al., 2019)，在广泛的NLP任务中一贯展示出卓越的性能。

仅解码器架构

仅解码器架构的特点是计策性地利用了把稳力遮罩，这是一个关键要素，确保每个输入令牌只对前面的令牌产生把稳力，包括自身。
这种独特的配置使得解码器内部令牌之间的信息流是单向的，从前面的令牌流向当前令牌，从而简化了输入和输出令牌的处理。
这种方法不仅简化了学习机制，还增强了模型的连贯性和同等性。
在措辞建榜样畴，GPT(天生式预演习Transformer)系列是仅解码器架构的典范。
该系列包括GPT-1 (Radford et al., 2018)、GPT-2 (Radford et al., 2019)以及特殊前辈的GPT-3 (Brown et al., 2020)。
个中，GPT-3作为这种范例中的范例模型，展示了其架构的有效性，特殊是在高下文学习方面，这是大型措辞模型(LLMs)的一个独特特点。
仅解码器架构的影响超越了GPT系列，对LLMs领域产生了主要影响。
许多前沿的措辞模型都采取了这种架构作为它们的根本构造。
例如，OPT (Zhang et al., 2022a)采取了仅解码器架构，实现了令人讴歌的自然措辞理解能力。
Gopher (Rae et al., 2021)也利用这种单向的信息流来提升措辞建模任务的繁芜性和规模。
此外，仅解码器架构在诸如BLOOM (Scao et al., 2022)的模型发展中起到了主要浸染，这些模型利用其单向信息流来完成须要高下文理解的任务。
LLaMA (Touvron et al., 2023a)及其后续模型LLaMA-2 (Touvron et al., 2023b)已将这种架构风格融入到措辞建模中，取得了在各种NLP基准上的卓越性能。
GLM (Zeng et al., 2022)进一步凸显了仅解码器架构在一系列措辞理解任务中的有效性，突显其在措辞建模的当代领域中的主要角色。

CLIP的变种

CLIP (Radford et al., 2021)采取一种创新的方法，同时演习图像编码器和文本编码器，以推断一组<图像，文本>对之间的精确对应关系。
这种策略是其学习过程的根本。
比较之下，FILIP (Yao et al., 2021)通过引入跨模态的后期交互机制，在细粒度上增强了对齐效果。
该机制利用视觉和文本标记之间的最大相似度丈量，为比拟目标供应辅导，从而实现更精确的对齐。
FLIP (Li et al., 2023q)引入了一种独创的演习技能，随机屏蔽和移除图像补丁的一部分。
这种方法可以在相同的墙钟韶光内学习更多的图像-文本对，每次迭代可以进行更多的样本比拟，而不会显著增加内存利用。
在措辞编码器方面，K-Lite (Shen et al., 2022)建议将外部知识以维基百科定义的形式与原始替代文本相结合，用于比拟预演习。
实证证据表明，以这种办法丰富文本描述可以提高CLIP的性能。
LaCLIP (Fan et al., 2023)利用大型措辞模型的高下文学习能力，重写与图像关联的文本描述，通过更有效地对齐描述与视觉内容，进一步提升模型的性能。
DetCLIP是在Yao et al. (2022)中先容的一种针对开放天下检测的并行视觉观点预演习方法的前沿方法。
它利用了精心构建的观点词典的知识丰富。
与此同时，它的继任者DetCLIPv2 (Yao et al., 2023a)利用了区域提案与文本词之间的最大词-区域相似度，勾引比拟目标。

其他架构

传统的Transformer架构常常受到二次打算繁芜性的限定。
为理解决这个问题，最近的研究集中在开拓更高效的措辞建模架构上。
S4模型 (Gu et al., 2021)通过对状态矩阵运用低秩校正，稳定其对角化，并减少状态空间模型（SSM）的繁芜性，使其操作类似于柯西核。
类似地，GSS (Mehta et al., 2022)作为对S4和DSS (Gupta et al., 2022)模型的引人瞩目的替代方案涌现，具有显著更快的演习韶光上风。
比较之下，H3 (Dao et al., 2022)被设计成在特定功能方面表现出色，例如回顾序列中的早期标记并比较序列中的标记，通过集成FlashCov进一步提高效率。
对付那些探索亚二次关注机制替代方案的人来说，Hyenra (Poli et al., 2023)供应了一个值得把稳的办理方案。
这个模型通过将隐式参数化的长卷积与数据掌握的门结合起来，显著减少了打算哀求。
RWKV (Peng et al., 2023a)采取线性把稳机制，使模型可以同时充当Transformer或RNN。
这种方法不仅在演习过程中便于并行打算，而且在推理过程中保持了恒定的打算和内存繁芜性，被认为是首个可扩展到数百亿参数的非Transformer架构。
RetNet (Sun et al., 2023f)代表了另一个主要贡献，它在演习并行性、本钱效益的推理和稳健性能之间取得了最佳平衡。
LongNet (Ding et al., 2023a)引入了扩展把稳力技能，该技能随着标记之间的间隔增加，显著扩大了把稳力范围，从而有效地扩展序列长度至十亿个标记以上。
末了，Streaming-LLM (Xiao et al., 2023b)提出了一种高效的框架，许可有限长度把稳窗口演习的措辞模型适应无限序列长度，无需额外的微调。
这一打破将这些模型的序列长度能力扩展到400万个标记。

4.2 Fine-Tuning

大型措辞模型（Large Language Models，LLMs）采取的一种基本策略是先在广泛的通用领域数据上进行预演习，然后根据特界说务或领域调度模型。
这种方法使LLMs能够全面理解措辞模式，从而能够在包括自然措辞理解、天生和翻译在内的广泛领域的下贱任务中进行性能微调。
在这些特界说务中，适应过程具有主要意义，由于它使LLMs能够利用其先前得到的知识，并将其运用于新的实例。
适应过程涵盖了各种技能，包括对预演习模型进行彻底微调，引入任务特定的层或模块，以及利用知识蒸馏等迁移学习方法。

4.2.1 Data Source

基准数据

在数据网络过程中，自然的一步是适应现有的自然措辞处理基准。
鉴于这些基准是开源的，研究职员创造利用推理基准来增强模型的推理能力既方便又具有本钱效益。
然而，基准的可用性在数量和规模方面存在寻衅，并且创建新基准的手工事情是一项资源密集型的任务。
为理解决这个问题，研究职员正在设计谋略，利用前辈的措辞模型天生推理合成的微调数据。

合成数据

本节先容利用前辈的大型措辞模型（LLM）合成推理数据，并随后利用天生的数据进行微调的方法。
本研究的核心是将链式思维（CoT）技能运用于LLM，从而创建推理路径。
随后，利用天生的数据进行模型微调 (Fu et al., 2023b; Hsieh et al., 2023; Huang et al., 2022a; Li et al., 2022d; Magister et al., 2023)。
此外，Ho et al. (2022)提出的Finetune-CoT方法涉及从LLM中采样多个推理路径，然后利用精确的路径对学生模型进行微调。
Hsieh et al. (2023)提出的逐步蒸馏方法引入了一种新的机制，其紧张目标是（a）演习超越LLM的较小模型以及（b）在微调或蒸馏中减少演习数据需求。
此外，Huang et al. (2022a)详细先容的Self-Improve方法包括利用链式思维提示和自同等性，选择带有最高置信度的基于情由的答案作为未标记问题的目标输出。
随后，利用这些自动天生的办理方案对LLM进行微调，此外还将问题和真实标签输入LLM以提示其推理路径。
另一种方法是利用人工编写的阐明作为LLM的演示示例，然后天生用于演习集的阐明 (Li et al., 2022d)。
值得把稳的是，这项研究供应了证据，支持基于较大西席模型天生的思维链输出对学生模型进行微调的可行性，从而改进各种类型的推理数据集，包括算术、知识和符号推理的任务性能(Magister et al., 2023)。
在数学领域， Luo et al. (2023c)提出了一种名为RLEIF（来自Evol-Instruct反馈的强化学习）的新方法，先容了WizardMath框架。
该方法首先利用数学特定的Evol-Instruct天生多样的数学辅导数据。
随后，它涉及演习一个辅导褒奖模型（IRM）和一个过程监督褒奖模型（PRM） (Yuan et al., 2023a; Lightman et al., 2023)。
IRM评估蜕变辅导的质量，而PRM吸收办理方案中每个步骤的反馈。
此外， Yu et al. (2023b)提出的MetaMath引入了一种创新的问题勾引方法（如前后增强 (Jiang et al., 2023c)），用于扩充演习数据集，得到MetaMathQ。
该方法涉及利用前向和后向推理路径重写问题，并利用LLM重新表达问题文本。
末了，《Orca》Mukherjee et al. (2023)引入了一种名为阐明微调的方法，通过利用GPT-4供应详细阐明的查询-相应对对模型进行微调，以阐明西席模型天生每个相应时的推理过程。
在随后的作品《Orca2》中，Mitra et al. (2023)提出了一种名为Prompt Erasing的技能。
该方法通过用通用指令更换供应给学生系统的特定指令，省略有关如何实行任务的特定细节，改变了演习过程。

4.2.2 Parameter-Efficient Fine-tuning

在建立根本模型的基本范式之一是在通用领域数据上进行彻底的预演习，然后根据特定的任务或领域进行定制化。
随着模型规模的不断增长，进行全面的微调来改变所有的模型参数变得日益不可行。
因此，在高效细化根本模型方面，参数高效微调的主要性不可忽略。
图16展示了几种不同类型技能的代表性方法。

图 16: 不同参数高效演习方法的示例。
（a）低秩适应（LoRA）保持预演习模型的原始权重不变，同时在网络的每一层集成基于秩分解的可演习矩阵来调度参数。
图来源于LoRA（Hu等人，2022）。
（b）提示调度在输入层引入可演习的提示向量，并利用提示增强的输入来办理特定的下贱问题。
（c）仅须要对预演习网

适配器调优Adapter Tuning

Houlsby et al. (2019)谈论了一种利用专门的神经网络模块——“适配器”——在Transformer模型中的技能，称为适配器调优。
已经开拓出一种创新的自适应方法LLaMA-Adapter (Zhang et al., 2023h)，用于有效地微调LLaMA模型以进行指令跟随任务。
LLaMA-Adapter通过将只有120万个可学习参数引入预演习的LLaMA 7B模型，利用52000个自我辅导演示，并在利用8个A100 GPU在一个小时内完成微调过程来展示其效率。

MAD-X (Pfeiffer et al., 2020)是一个基于适配器的框架，旨在学习模块化的措辞和任务表示，可在各种任务和措辞中实现高可移植性和高参数效率的适应。
另一方面，AdaMix (Wang et al., 2022f)在每个Transformer层中微调了一组自适应模块的稠浊，同时保持大多数PLM权重冻结。
Compacter (Karimi Mahabadi et al., 2021)将任务特定的权重矩阵整合到预演习模型的权重中，可以有效地得到每个Compacter层中共享的“缓慢”权重和“快速”秩一矩阵之间的克罗内克积的总和。
末了，He et al. (2021)引入了一个统一的框架，建立了这些方法之间的联系。

低秩适应Low-Rank Adaptation

低秩适应（LoRA） (Hu et al., 2022)，如图 16(a)所示，供应了一种独特的方法，旨在在运用于下贱任务时减少预演习Transformer模型中可演习参数的数量。
该技能涉及预演习模型权重的冻结，并在Transformer架构的每个层中引入可演习的秩分解矩阵。
虽然低秩分解在表示能力方面存在限定，但KronA (Edalati et al., 2022)选择利用克罗内克积作为低秩表示的替代方法。
AdaLoRA (Zhang et al., 2023g)通过奇异值分解对增量更新进行参数化，许可有效地修剪不主要的奇异值。

DyLoRA (Valipour et al., 2022)采纳了一种另类的方法，专注于在演习过程中组织适配器模块在不同秩级上得到的表示。
对付那些寻求高效微调度决方案的人来说，“通过量化LLM的高效微调”（QLoRA） (Dettmers et al., 2023)供应了一个吸引人的选择。
QLoRA可以在单个48GB GPU上对具有650亿个参数的模型进行微调，使它成为研究职员和从业职员的实用选择。
为了实现更繁芜的推理任务，LongLoRA (Chen et al., 2023k)供应了一种扩展大型措辞模型输入上文大小的新方法，同时保持打算效率和性能的完全性。

提示调优Prompt Tuning

前缀调优，最初在Li and Liang (2021)中引入，通过在每个层中附加一系列可演习的连续向量（称为“前缀”）来扩展基于Transformer的措辞模型。
它为提示调优奠定了根本，提示调优类似于“前缀调优” (Lester et al., 2021)的观点，重点是仅在输入层专门集成可演习的提示向量。
提示调优是获取“软提示”的一种大略但非常有效的方法，使得经由精调的措辞模型在特定的下贱任务（如分类 (Yang et al., 2022a)）中表现出色，如图 16(b)所示。

在类似的背景下，OptiPrompt (Zhong et al., 2021)在连续嵌入空间中操作以优化性能。
另一方面，P-tuning (Liu et al., 2023m)利用可演习的连续提示嵌入和离散提示，展示了在完备监督或少样本设置中，无论是预演习的还是经由微调的措辞模型都展现出了有效性。
这个观点的演化，P-tuning V2 (Liu et al., 2021a)，提出了将连续提示整合到预演习模型的每个层中，而不仅仅局限于输入层。
这一扩展供应了一种在模型的全体架构中利用连续提示的综合方法。

部分参数调优 Partial Parameter Tuning

与强调参数效率的先前方法不同，部分参数调优通过选择性地微调原始模型中的特定参数而不引入任何额外组件来差异自己。
Bitfit(Zaken et al., 2021)将这一观点作为一种稀疏微调方法的示例，仅集中于调度模型的偏置项。
Child-Tuning(Xu et al., 2021a)采取了一种策略性的参数适应方法。
它针对大型预演习模型中称为“子网络”的参数子集进行调度，同时在反向传播过程中小心地屏蔽非子网络的梯度。
在SSF(Lian et al., 2022)的情形下，对应于图 16(c)，该方法引入了可学习参数进行演习。
这些额外的参数可以通过重新参数化在推理过程中与原始预演习模型权重无缝集成，修正可以运用于这些参数的全部凑集或子集。
另一方面，DiffFit(Xie et al., 2023b)供应了一种针对大型预演习扩散模型量身定制的参数高效微调策略。
该方法通过微调偏置项并将新引入的缩放因子整合到模型的特定层中，实现了对新领域的快速适应。
Fu et al. (2023d)在理论上剖析了微调方法中的参数稀疏性，并设计了SAM来优化得当参数的选择。

稠浊模态适应Mixture-of-Modality Adaption

Luo et al. (2023a,b)开拓了一种首创性的视觉措辞模型微调方法，称为稠浊模态适应（Mixture-of-Modality Adaptation, MMA）。
如图 16(d)所示，MMA作为一个综合的优化框架，通过有效的适配器将图像编码器与大型措辞模型（LLMs）统一起来。
该事情还在MMA中引入了前辈的路由算法，使模型能够动态地修正其单模态和多模态指令的推理路径。
利用MMA，作者创建了LaVIN(Luo et al., 2023b)，这是一个主要的视觉措辞辅导模型，它在一系列遵照指令的任务中表现出了增强的演习效率和改进的推理能力。
LaVIN在性能上表现优于现有的多模态LLMs。
MMA方法论和LaVIN模型在增强视觉措辞模型的实用性方面具有相称大的潜力，特殊是在机器人和自主系统等运用领域。
在类似的情境中， LLaMA-Adapter V2(Gao et al., 2023c)代表了一个关注参数效率和视觉信息无缝集成的视觉辅导模型。
该模型采取了几种策略来提高性能，包括扩展可学习参数凑集，采取早期领悟方法将视觉表示符合并到LLMs的初始层中，以及运用联合演习方法来处理图像-文本配对和指令跟随数据集。
其余， LLaVA(Liu et al., 2023e)作为一个综合的多模态模型呈现出来，进行了端到真个演习过程。
LLaVA将视觉编码器和LLM连接起来，以处理涉及视觉和措辞理解的广泛任务。
LLaVA-1.5(Liu et al., 2023d)引入了相对大略的调度，比如利用带有MLP投影的CLIP-ViT-L-336px，并将任务特定的VQA数据与基本相应格式提示集成。
这些修正使LLaVA-1.5能够设置一个强大的基准性能，在11个基准任务中达到顶级结果。

4.3 Alignment Training

对齐演习的方法论引入了一种创新的方法，直策应用人类反馈来优化措辞模型的学习技能。
这个观点首创了一种新的范式，即通过调度措辞模型使其更加贴近繁芜的人类代价不雅观。
虽然大型措辞模型（LMs）可以根据给定的例子实行各种自然措辞处理（NLP）任务，但它们常常呈现出意想不到的行为。
这些意想不到的行为包括天生虚构信息、创建带有偏见或搪突性的文本，或者无法遵守用户指令。
这种差异源于传统措辞建模目标（从基于网络的文本预测下一个标记）与 “以一种既有帮助又安全”的办法遵照用户指示的目标之间的背离。
这种不一致表明了措辞建模目标的不匹配。
纠正这些意外行为至关主要，特殊是考虑到措辞模型在许多领域的广泛运用。

4.3.1 Data Source

我们将数据定义为dk = (ik, yk)，个中ik表示指令，yk表示对应的回答。

人工数据

Databricks精心策划了一个全面的众包指令数据集，名为“databricks-dolly-15k” (Conover et al., 2023)，包含统共15,000条指令。
此外，OpenAssistant语料库包含超过10,000个对话，涉及超过13,000个国际标注者的参与。
UnifiedQA (Khashabi et al., 2020)已经在20个不同的数据集上进行了评估，涵盖了各种措辞征象。
CrossFit (Ye et al., 2021)已经成为一个NLP基准，将160个任务从公开可用的NLP数据集转换为统一的文本到文本格式。
P3 (Sanh et al., 2021)从超过270个数据集网络了超过2,000个英语提示，而MetaICL (Min et al., 2022)在142个NLP数据集上进行了实验，个中包括七种不同的元演习和目标划分。
ExMix (Aribandi et al., 2022)供应了107个多样化的有监督NLP任务。
自然指令数据集 (Mishra et al., 2022)包含61个任务，而Super-NaturalInstructions (Wang et al., 2022e)则在其根本上扩展了超过1.5k个任务。
Flan 2022 (Longpre et al., 2023)结合了各种来源的指令调优，通过修正模板来实现精良的评估性能。
xP3 (跨措辞公共提示池) (Muennighoff et al., 2022)是一个超过46种措辞和16个NLP任务的提示和数据集的凑集，有助于多措辞模型BLOOMZ和mT0在零-shot指令跟进中。
LongForm (K¨oksal et al., 2023)从C4和英文维基百科语料库中选择了15,000个目标文本示例。
此外，一个名为ShareGPT的网站积极鼓励用户分享他们引人入胜的ChatGPT/GPT4对话，从而产生了大量多样化的由人类创作的指令，能够引发高质量的ChatGPT/GPT4回应。
为了创建非英文数据集， Open Instruction Generalist (COIG) (Zhang et al., 2023b)将英文指令翻译成中文，并利用标注者进行改动和重新组织。

综合数据Synthesis Data

从人工来源网络数据可能是一项资源密集型和耗时的过程。
鉴于GPT-4等大型措辞模型（LLMs）的显著成功，在强化学习人类反馈（RLHF）中利用LLM回答为其他LLMs制订指令的方法变得越来越可行。
这个领域的首创性事情，正如Self-Instruct论文所示，利用ChatGPT的高下文学习能力天生了大量的指令。
这些指令来自于预先定义的一组人工注释示例，涵盖了广泛的主题和任务类型。
在这个根本上， Aplaca和其各种迭代版本利用LLM天生了浩瀚的RLHF演习对。

Instruction Backtranslation利用自助学习创建了相应和指令，并利用自助策展天生基于相应的指令。
Unnatural Instructions是一份有创新的指令数据集，包含64,000个由LLM通过种子示例和改述天生的示例，从而天生了约240,000个实例的数据集。
OPT-IML Bench是指令元学习(IML)的基准，包括从八个现有基准中得出的2,000个任务。
它利用基本GPT-3的Self-Instruct方法评估模型的泛化能力，天生了超过52,000个指令和82,000个实例。
Koala是一个小而高质量的数据集，从ChatGPT Distillation Data等各种来源精心策展，得到了一个全面而多样的数据集。
GPT4All包括了大约一百万个GPT-3.5-Turbo OpenAI API的提示-相应对，涵盖了从2023年3月20日到2023年3月26日期间的数据。
Alpaca-GPT4包括了52,000个中英双语的指令遵照示例。
它利用GPT-4的反馈数据来提升零-shot性能。
LaMini-LM包含了由GPT-3.5-Turbo模型天生的2.58 million个指令-相应对的弘大数据集。
这些对是从各种提示来源抽取的，以确保多样性。
CoEdIT是一个别系，为文本编辑模型的演习和评估供应了一个包含82,000个<instruction: source, target>对的数据集。
UltraChat是一个开源的多轮对话凑集，个中包括一个百万级别的多轮指令对话数据。
CoT-Collection通过从FLAN Collection中弥补了1.88 million个Chain-of-Thought (CoT) rationales的实例，进一步丰富了数据集。
Dynosaur是一种动态的数据策展方法，用于指令调度，不断扩充，收受接管来自Huggingface Datasets Platform的新数据集。

4.3.2 Training Pipeline

一种增强大型措辞模型（LLM）以更准确地解读和回应人类意图的常见方法被称为监督微调（SFT）。
该技能涉及处理标记为x的辅导输入，然后打算与实际精确回应y之间的交叉熵丢失。
SFT的紧张浸染是帮助LLM理解文本提示中的更深层含义，并天生得当的回答。
然而，SFT的一个主要缺陷是它缺少区分最佳和次优回答的能力。
战胜这一寻衅须要额外的演习策略，例如引入人类偏好演习。
整体演习流程如图 17所示。

图 17: 大型措辞模型（LLM）对齐演习的发展过程。
首先，LLM常规上通过利用高质量指令数据进行监督微调（SFT）进行优化。
然后，可以通过人类偏好演习进一步调整。
干系技能包括在线人类偏好演习（左侧），须要强化学习, 和离线（右侧）直接优化策略以最好知足偏好。

在线人类偏好演习

人类反馈强化学习（RLHF）(Ouyang et al., 2022)是一种通过在近端策略优化（PPO）(Schulman et al., 2017)框架中结合额外的褒奖模型来解读人类偏好的策略。
RLHF可分为三个紧张阶段： 1）初始阶段包括创建一套全面的辅导方针，并在现有大型措辞模型（LLM）上运用监督微调（SFT）； 2）下一个阶段涉及人类评估者对回答对进行手动评分，为评估天生回答的有效性开拓褒奖模型；3）末了，通过利用褒奖模型确定的褒奖优化（PPO）对SFT模型（策略）进行改进。

只管PPO框架以其在学习人类偏好方面的有效性而有名，但演习过程中可能会涌现寻衅和不稳定性。
备选方法Reward Ranked Fine-Tuning（RAFT） (Dong et al., 2023a)首先对大批量指令进行采样，然后由当前LLM天生回答，利用褒奖模型对天生的数据进行排序。
然后，仅利用褒奖模型确定的前几个实例进行SFT。
此外，Advantage-Induced Policy Alignment（APA） (Zhu et al., 2023a)利用基于估计上风的平方偏差丢失函数，为RLHF框架中的策略对齐供应了另一种不雅观点。

离线人类偏好演习

由于策略、行为策略、褒奖和代价模型之间须要繁芜的交互浸染，因此履行这些在线算法常日具有寻衅性。
这种繁芜性须要调度许多超参数来提高性能。
为理解决这个问题，人类偏好的离线学习已经被研究。

一种方法是直接偏好优化（DPO）(Rafailov et al., 2023)，旨在隐式优化与现有人类反馈强化学习（RLHF）算法相同的目标。
而偏好排序优化（PRO） (Song et al., 2023b)进一步通过微调大型措辞模型（LLM）以更好地与人类偏好对齐，并引入监督微调（SFT）演习目标来提高性能。
序列可能性校准（SLiC） (Zhao et al., 2022a)着重于调度模型天生的序列的概率，以更靠近模型的潜在空间中的参考序列。
相反，Rank Responses to align Human Feedback（RRHF） (Yuan etal., 2023b)利用排名丢失将多个回答的模型概率与人类偏好对齐，供应了一种更大略但有效的替代方法，保留了近端策略优化（PPO）算法的性能。
Alignment Fine-Tuning（AFT）方法 (Wang et al., 2023m)通过利用思维链的演习数据微调大型措辞模型（LLM），根据精确性将天生的回答分为正面和负面，并利用一种新颖的约束对齐丢失调度回答得分。

4.4 Mixture of Experts (MoE)

如图 18 所示，稠浊专家（Mixture of Experts，MoE）模型是一个繁芜的监督学习框架，由一系列网络组成，个中每个网络都经由微调以处理完全的演习数据集 (Jacobs et al., 1991)。
在这种架构中，每个示例都由其相应的专家网络处理。
稀疏门控专家稠浊（Sparsely-Gated Mixture-of-Experts）模型 (Shazeer et al., 2017)整合了数千个前馈子网络，并采取选择机制，在每个数据实例中激活一组稀疏的专家。
通过这种方法，该模型形成了一个包含1,370亿参数的模型，为每个示例分配一个专家。
该模型通过一个门控函数实现稀疏性，将每个输入导向前K个专家，个中K至少为2。

添加图片注释，不超过 140 字（可选）

在这个观点的根本上，GShard (Lepikhin et al., 2020)将MoE范式运用于变压器模型，通过用成对的MoE层更换每个前馈层，并利用一个顶层-2门控网络。
在另一种方法中，Switch Transformers (Fedus et al., 2022)通过为每个输入选择最佳专家或者单个最佳专家（K即是1），来优化MoE的稀疏性。

此外，GaLM (Du et al., 2022a)利用稀疏激活的MoE架构增加模型容量，同时大幅减少演习本钱，比较更密集的模型。
GaLM最大的变种拥有惊人的1.2万亿参数，大大超过了GPT-3的规模。
MoE还被成功运用于增强视觉模型的能力 (Chen et al., 2023m,e,n)。

此外， MoE在网络压缩策略中也有运用。
WideNet (Xue et al., 2022)是一种参数高效的方法，利用参数共享来压缩网络的深度。
为了优化建模能力， WideNet通过用MoE构造更换标准的前馈网络，并结合不同的层规范化方法，有效地处理多样的语义表示。
MoEBERT (Zuo et al., 2022)采取类似的策略，将预演习模型中的前馈神经网络转化为多个专家。
这种修正在演习过程中保持了预演习模型的鲁棒表示能力，并集成了逐层蒸馏。
在推理时，激活一个专家以优化性能。

4.5 In-Context Learning

正如Brown et al. (2020)所述，高下文学习（ICL）是一种利用精心设计的自然措辞提示的方法，该提示包括任务描述和任务示例的子集，以供应演示。
该过程始于任务描述，然后从任务数据集中精选出几个示例作为演示。
这些选择的示例然后通过精心设计的模板被奥妙地编排整天然措辞提示。
随后，测试实例与这些演示示例结合起来，作为措辞模型或视觉-措辞模型的输入，天生所期望的输出。
利用供应的任务演示，LLM可以有效地识别和实行新任务，无需显式的梯度更新。

添加图片注释，不超过 140 字（可选）

值得把稳的是， ICL与辅导调度具有根本的联系，由于两种方法都利用自然措辞来组织任务或实例。
然而，辅导调度须要对LLM进行微调以适应模型，而ICL纯粹依赖于提示LLM进行运用。

此外，须要把稳的是，辅导调度可以提升LLM实行特界说务的ICL能力，特殊是在只供应任务描述的零-shot情形下(Chung et al., 2022)。
接下来先容了一系列常见的技能，并列在图 19中。

4.5.1 Demonstration Example Selection

在高下文学习（ICL）的有效性中，根据示范例的选择常日存在相称大的可变性。
因此，仔细选择能够真正发挥措辞模型（LLMs）的ICL能力的示例子集变得至关主要。
示范选择的两种紧张方法被广泛采取：启示式方法和基于LLM的方法，这已在Liu et al. (2022b)和Lee et al. (2022)的作品中得到了研究。

先验知识方法由于本钱效益和大略性，启示式技能在先前的研究中被广泛采取来选择示范。
许多研究已经整合了基于k-NN的检索器，以识别特定查询的语义干系示例，正如Liu et al. (2022b)和Lee et al. (2022)所证明的。
然而，须要把稳的是，这些方法常日在每个示例的根本上运作，缺少整体示例集的全面评估。
为战胜这种限定，引入了以多样性为中央的选择策略，以策划一组能够共同代表特界说务范围的示例，正如Levy et al. (2022)和Hongjin et al. (2022)所研究的。
此外，Ye et al. (2022)的研究在示范选择过程中同时考虑了干系性和多样性。
有趣的是，Complex CoT (Fu et al., 2022)提倡包含涉及繁芜推理步骤的繁芜示例，而Auto-CoT (Zhang et al., 2022c)则建议对示范进行更多样化的抽取。

检索方法研究的另一个领域致力于利用措辞模型（LLMs）在示范选择中的能力。
例如，LLMs可以直策应用其包含量化性能提升来评估每个示例的信息量，正如Li and Qiu (2023a)所示。
在干系领域中，Rubin et al. (2022)引入了一种名为EPR的方法，该方法涉及两阶段检索过程。
首先，EPR通过无监督方法召回相似示例，然后利用密集检索器对它们进行排序。
在此根本上，Dr.ICL (Luo et al., 2023e)将EPR方法运用于更广泛的评估任务，包括QA、NLI、MathR和BC。
在高下文学习的背景下，Compositional Exemplars for In-context Learning（CEIL）(Ye et al., 2023a)利用确定性点过程（DPPs）学习输入和高下文示例之间的相互浸染。
该模型利用精心设计的比拟学习目标进行优化。
此外，LLM-R (Wang et al., 2023l)采取了一个用于检索候选示例的排序方法，依赖于地面真实输出的条件LLM对数概率。
它采取基于交叉编码器的褒奖模型来捕捉LLMs的细粒度排名旗子暗记，并通过知识蒸馏演习基于双编码器的密集检索器。
Unified Demonstration Retriever（UDR）(Li et al., 2023n)利用共享的示范检索模型来办理检索器在不同任务之间的不可转移性问题。
UDR根据LLMs的反馈对候选示例进行排名。
利用已演习的检索器，DQ-LoRe (Xiong et al., 2023a)利用双查询和低秩逼近重新排序来自动选择高下文学习的示范。

Chain-of-Thought

Zero-Shot CoT

Zero-Shot CoT(Kojima et al., 2022)引入了一种新颖的方法，通过加入附加句子来增强模型的推理能力。
例如，实证证据表明，包括短语“让我们逐步思考”可以显著提升模型的推理能力。
在类似的思路下，《操持与办理（PS）提示》 (Wang et al., 2023k)提出了一种双重策略。
首先，它通过制订操持将整体任务分解为更小、可管理的子任务。
随后，根据所制订的操持实行这些子任务。
更确切地说，PS提示将Zero-Shot CoT原始的“让我们逐步思考”更换为鼓励更详细方法的新提示：“让我们首先理解问题并制订办理方案的操持。
然后，让我们按照操持逐步实行并办理问题。
”

Few-Shot CoT

思维链（CoT） (Wei et al., 2022b)通过利用详细的推理路径作为提示，为措辞模型（LLM）的推理能力供应了主要的发展方向。
这种趋势产生了各种CoT变体，例如从最少到最多 (Zhou et al., 2022a)，繁芜CoT (Fu et al., 2022)，思维方案 (Chen et al., 2022d)，思维方程式 (Liu et al., 2023k)，措辞赞助程序（PAL） (Gao et al., 2023b)，数学提示程序 (Imani et al., 2023)和代码提示 (Hu et al., 2023b)。
然而，值得把稳的是，所有这些方法都须要注释，这对它们的运用带来了实际限定。
为理解决这一限定，Auto-CoT (Zhang et al., 2022c)提出了一种利用Zero-Shot-CoT (Kojima et al., 2022)天生CoT推理路径的新方法。
此外，Auto-CoT将这些推理路径分为不同的聚类，并选择与每个聚类中央点最靠近的问题。
思维影象 (Li and Qiu, 2023b)在推理过程中选择与之干系且质量较高的思维。
更进一步，思维树(Yao et al., 2023b)将人类的思维过程建模为链和树，思维图(Yaoet al., 2023d)将这一观点扩展为同时表示链和图的人类思维过程。
此外，思维框架(Ning et al., 2023)辅导LLM首先创建答案的基本构造，然后利用批处理解码同时添补每个框架的细节。

多路径聚合

DIVERSE方法 (Li et al., 2022h)采取投票验证器来合并多个推理路径得出的终极答案。
在类似的思路下，自同等性方法 (Wang et al., 2023t)建议对多个推理路径进行抽样，并通过多数表决确定终极结果。
在这个方向上，引入了基于繁芜性的投票观点，保留具有高繁芜性的推理路径进行多数表决 (Fu et al., 2022)。
此外，模型选择 (Zhao et al., 2023d)采取不同的方法，通过Chain-of-Thought (CoT)和Plan-of-Thought (PoT)对两个答案进行抽样，然后利用措辞模型（LLM）选择精确答案。
自评估勾引解码 (Xie et al., 2023c)在步骤级别上对各种推理步骤进行抽样，并利用波束搜索完成搜索树。
自同等性的一个明显局限是相对高的本钱。
为了缓解这个缺陷，自适应同等性 (Aggarwal et al., 2023)在知足预定标准之前逐渐进行推理路径抽样。
与思维树干系的两种并发方法 (Yao et al., 2023b; Long, 2023)逐渐对推理步骤进行抽样，而不是完全的推理路径。
此外，推理方案（RAP） (Hao et al., 2023a)将LLM重新定义为天下模型和推理代理。
它采取基于蒙特卡罗树搜索的原则性方案算法，在广泛的推理空间中促进计策性探索。
思维交流 (Yin et al., 2023c)和思维互换 (Liu et al., 2023k)引入各种外部推理见地和推理方法以提高推理性能。

4.5.3 Multi-Round Prompting

多轮提示通过迭代改进的办法增强了回答能力，与没有采取这种渐进改进过程的单轮提示方法（如思路链和自同等性方法）不同。

学习型改进器 Learned Refiners

学习型改进器须要经由演习过程，常日涉及到反馈和改进的配对 (Schick et al., 2022; Du et al., 2022b; Yasunaga and Liang, 2020; Madaan et al., 2021)。
CURIOUS (Madaan et al., 2021)首先构建了一个表示干系影响的图。
然后将该图作为额外的输入用于回答问题。
PEER (Schick et al., 2022)是一种前辈的协作措辞模型，仿照了全体写作过程，包括起草、建议修正、提出编辑建媾和对其行为进行阐明等。
比较之下，Read, Revise, Repeat (R3) (Du et al., 2022b)旨在通过最小化人为干预来实现精良的文本修订。
它通过剖析模型天生的修订和用户反馈，进行文档修订，并进行反复的人机交互来实现这一目标。
DrRepair (Yasunaga and Liang, 2020)引入了一个将与修复源代码干系的符号与诊断反馈连接起来的程序反馈图。
然后利用图神经网络对推理过程进行建模。
Self-Correction (Welleck et al., 2022)采取了一种创新的方法，将一个不完善的根本天生器（例如标准措辞模型或监督序列到序列模型）与一个单独的纠正器分离。
这个纠正器学习逐步改进输出。
此外，LLM-Augmenter (Peng et al., 2023b)通过纳入由效用函数产生的反馈（例如LLM天生的回答的真实性评分）持续改进LLM的提示，以改进模型的回答能力。

提示改进器 Prompted Refiners

REFINER框架 (Paul et al., 2023)是一个综合系统，旨在通过特定目标天生中间推理步骤来微调措辞模型（LMs），并由一个自动化的评论模型对推理过程供应反馈。
Self-Refine框架 (Madaan et al., 2023)包括两个主要组成部分：首先利用LLM天生输出，然后通过迭代的自我改进过程利用相同的LLM对其输出供应反馈。
Self-Debugging (Chen et al., 2023j)整合LLM和工具反馈以提高性能。
同样， Progressive-Hint Prompting（PHP） (Zheng et al., 2023a)利用先前的答案作为参考天生后续回答。
此外，为LLMs利用不同的提示可以使它们在处理不同方面时承担不同的角色 (Dong et al., 2023b; Fu et al., 2023a; Du et al., 2023)。
Du et al. (2023)引入了一种互补的方法来提高措辞回答的能力，即在多轮谈论中，多个措辞模型进行关于各自的回答和推理过程的谈论，终极达成共识的答案。
Self-collaboration (Dong et al., 2023b)利用多个LLM作为独立的“专家”，每个LLM卖力繁芜任务中的特定子任务，并定义互助和交互策略。
Fu et al. (2023a)不雅观察到，只有一部分被考虑的措辞模型表现出通过AI反馈进行自我改进的能力，较弱的模型可能难以理解游戏规则或将AI反馈纳入进一步的改进中。
总之，模型因其扮演的角色而具有各种各样的学习能力，并且LLMs和工具之间的互动可以进一步增强推理能力 (Chen et al., 2023j; Gou et al., 2023; Zhang et al., 2023e; Yang et al., 2023b; Olausson et al., 2023)。

4.6 Autonomous Agent

在实现人工通用智能（AGI）的过程中，自主运作的代理人常常被视为关键路径。
这些代理人长于独立制订操持并遵照指令来实行任务。
目前，这些自主实体紧张依赖大型措辞模型（LLM）来掌握和编排各种工具 (Xi et al., 2023; Wang et al., 2023y)，包括网络浏览器和代码阐明器，以完成指定的任务，如图 20 所示。

图 20: LLM自主代理的一样平常流程。
LLM代理利用LLM作为其数字大脑，能够节制多种能力并具有高等智能。
代理可以吸收多样化的编码数据作为输入，并相应地构建或访问知识库和技能库。
凭借足够的知识和提示，代理可以半自主地实行一系列任务。

VISPROG (Gupta and Kembhavi, 2022) 是一种繁芜视觉任务的神经符号学方法，利用大型措辞模型来天生类似 Python 的模块化程序，无需特界说务的演习。
它供应了全面且可阐明的情由。
ToolFormer (Schick et al., 2023) 是一个自监督模型，根据演示决定何时以及以何种参数调用哪些 API，并将结果融入到标记预测中。
ART (Paranjape et al., 2023) 引入了一个用于自动推理和工具利用的框架，利用冻结的LLMs来天生中间推理步骤，并无缝集成外部工具。
CAMEL (Li et al., 2023c) 提出了一个名为“角色扮演”的首创性沟通代理框架，利用起源提示来勾引谈天代理人实现任务，并与人类意图保持同等。
GPT4Tools (Yang et al., 2023d)授予LLMs多模态工具能力以办理多种视觉任务。
HuggingGPT (Shen et al., 2023)通过ChatGPT连接AI模型来办理任务，利用Hugging Face中的功能描述来进行任务方案和模型选择。
Chameleon (Lu et al., 2023)通过插件和模块增强LLMs以进行繁芜推理，通过组合各种任务的工具来合成程序。
Wang et al. (2023q) 提出学习“方案标记”（soft prompt）的方法。
TRICE (Qiao et al., 2023)办理了如何向措辞模型教授何时以及如何利用工具的寻衅，提出了一个通过工具实行的反馈学习的两阶段框架。
ChatCoT (Chen et al., 2023o)提出了一种基于谈天的增强思维链推理框架，用于谈天型LLMs，利用多轮对话将思维链和工具利用自然地领悟起来。
MultiTool-CoT (Inaba et al., 2023)利用思维链提示在推理过程中结合多个外部工具。
AssistGPT (Gao et al., 2023a)引入了一种多模态AI助理，采取交叉代码和措辞推理方法，包括操持、实行、检讨和自主学习。

OpenAGI (Ge et al., 2023)是一个用于现实天下任务的开源AGI研究平台，利用自然措辞查询来选择和实行适当的模型，并提出了一种从任务反馈中进行强化学习的机制。
ToolkenGPT (Hao et al., 2023b)将LLMs的微调上风与工具演示数据和高下文学习相结合，将工具表示为灵巧调用的标记（“toolkens”）。
AutoGPT (gravitas/auto gpt, 2023)将问题分解为子问题，并利用工具来办理它们。
ReAct (Yao et al., 2023c)探索了推理痕迹和任务特定动作的交替天生，增强了措辞任务的协同浸染，提高了可阐明性和可信度。
Reflexion (Shinn et al., 2023)通过措辞反馈和情节影象来增强措辞代理，提高后续试验的决策能力。
CREATOR (Qian et al., 2023a) 授予LLMs通过文档和代码实现来创建自己的工具的能力，办理了工具利用能力的局限性。
Voyager (Wang et al., 2023d)是一个在Minecraft中利用LLM的强化学习代理，用于终生学习，结合了自动课程设置、技能库和迭代的提示机制。
AutoAgents (Chen et al., 2023b)可以根据任务定义自适应天生专门的代理来构建代理团队。
SwiftSage (Lin et al., 2023b)是一个受人类认知的双进程理论启示的代理框架，将行为克隆和LLMs整合到繁芜推理任务中，提高问题办理效率。
这些参考文献涵盖了增强大型措辞模型在各个领域中的能力的广泛方法和框架。

5 谈论：寻衅、局限性和风险 Discussion: Challenges, Limitations, and Risks

幻象

只管根本模型已经在推理任务中展现出了令人满意的能力，但是我们该当认识到这些模型仍旧面临寻衅，特殊是在幻象问题上 (Li et al., 2023p ??immediateu¨ndler2023selfcontradictory?)。
幻象指的是根本模型天生的输出包含虚构或缺点信息，偏离了预期的输出。
这些幻象可能会导致模型天生的内容的可靠性和准确性受到危害。

根本模型中的幻象问题由多种成分引起。
个中一个关键成分是依赖大规模的预演习数据，这些数据可能包含有偏见或缺点的信息。
这会导致模型学习和传播虚假模式或天生不切实际的输出。
在根本模型中导致幻象问题的另一个主要成分是模型缺少认识自身知识限定的能力。
当面临超出其理解范围的问题时，这些模型方向于编造彷佛合理的答案，而不是承认自己的知识匮乏 (Yin et al., 2023d)。
办理根本模型中的幻象问题是一个持续的研究领域。
研究者们已经探索了诸如微调任务特天命据、整合外部知识源和开拓前辈的评估指标等技能来减轻幻象问题。
他们还在探索方法来增强根本模型的推理能力，使其能够做出更明智和准确的预测。

值得把稳的是，虽然在减少幻象方面已经取得了一些进展，但由于措辞理解和天生的固有繁芜性，完备肃清幻象仍旧是一个寻衅。

语境长度

另一个限定是优化语境长度和语境构建。
例如，GPT模型的窗口大小从2K（GPT-3 (Brown et al., 2020)）增加到32K（GPT-4 (OpenAI, 2023a)）。
更长的语境窗口对付处理长序列数据（例如基因序列）非常有用。
通过具有更大的语境窗口，措辞模型能够处理更长的输入，例如全体文档或者全面理解一篇文章的内容。
这种能力使得措辞模型能够通过更全面的理解输入来产生更加干系的回答。
增加根本模型中的语境窗口大小可以带来一些好处，例如捕捉更远的依赖关系和提高模型对语境的理解。
然而，这也带来一些寻衅和本钱。
在早期的研究中不雅观察到，随着标记数量的增加，较大语境窗口大小的打算本钱呈二次增加(Aryan et al., 2023)。
这意味着处理和演习模型所需的打算资源会随着窗口大小的增加而显著增加。
LongNet (Ding et al., 2023a)是Transformer模型的一种修正版本，能够处理超过10亿暗号长度的序列，并在较小引列上仍旧保持高效。
LongNet还具有线性的打算繁芜性。
Position Interpolation (Chen et al., 2023g)在推理过程中实现了输入位置指数的线性降尺度，以与初始语境窗口大小对齐。
这种方法防止了超出演习的语境长度，否则可能导致非常高的把稳力分数并滋扰自把稳机制。

确实，增加措辞模型中的语境窗口大小供应了一些好处，但是在窗口大小和泛化能力之间须要权衡。
研究者们指出二者之间可能存在权衡(Liu et al., 2023h)。
一个值得研究的寻衅是如何在不捐躯模型性能和泛化能力的情形下增加语境窗口长度。
找到许可模型捕捉更长程依赖和语境的策略是至关主要的，同时保持模型能够对新或未知的输入有良好的泛化能力。

多模态学习

多模态学习是推理中非常强大但常常被低估的方面。
它在许多领域中有着重要运用，个中多模态数据至关主要，包括医疗保健（如CT、X射线、MRI扫描和基因序列）、机器人技能、电子商务、零售、游戏和娱乐。
在这些领域中，整合不同的模态能够更全面地理解数据，并促进更繁芜的推理过程。
多模态推理的一个关键上风是它有能力显著提高模型性能。
虽然一些先前的事情已经深入研究了多模态推理，比如PaLM-E提出的面向感知推理的多模态措辞模型 (Driess et al., 2023)和用于恐怖学习的视觉措辞模型Flamingo (Alayrac et al., 2022)，但仍有充足的空间可以探索其他数据模态。
将视频、音频、3D数据和多个图像等模态纳入个中，不仅丰富了模型可用的信息，还为更加细致全面地理解天下开辟了激动民气的可能性。

根本模型推理在电子设计自动化（EDA）的程序设计 (Huang et al., 2021a)和形式方法 (Woodcock et al., 2009)领域中具有其他潜在的运用。

形式方法与逻辑推理紧密干系，是打算机科学领域中在软件和硬件的设计、规范、验证和剖析方面采取的数学策略。
这些技能根植于构造化逻辑、自动机理论和其他全面的数学框架，并被用于对系统的行为、准确性和可靠性进行详细检讨。
形式方法的运用使研究职员和专业职员能够担保繁芜系统的完全性和精确性，使其在软件和硬件的创建和评估中不可或缺。
形式方法与根本模型的领悟为软件和硬件系统的设计增强了推理能力。
形式方法供应了精确的数学方法来定义和确认系统特性，而根本模型则供应了强大的措辞理解和推理能力。
这些方法的综合可以促进更可靠和韧性的软件和硬件系统的发展。

通过利用多模态推理并进一步扩展对各种数据模态的探索，我们可以在推理系统中得到新的见地和能力。
认识和利用多模态推理的能力对充分发挥不同领域推理的潜力至关主要。

效率和本钱

效率和本钱是推理根本模型面临的主要寻衅。
根本模型，尤其是那些具有弘大架构和大量演习数据的模型，演习和支配的打算本钱较高。
大量的参数须要更多的内存和打算资源进行处理，从而在可扩展性、可访问性和本钱效益方面带来寻衅。
高效的推理模型应能够进行快速的实时推理，以知足交互运用的需求。
然而，推理任务中涉及的繁芜打算可能导致较慢的推理韶光，从而阻碍实时性能和用户体验。
因此，提高根本模型的速率和本钱效益，使其更加廉价和快速，是至关主要的。

有几种技能可以用于提高根本模型的效率，包括：

模型修剪 (Sun et al., 2023d; Wang et al., 2020)：从模型中移除不必要的连接、参数或层。
这将得到一个更紧凑的架构，降落打算哀求。
压缩(Zhu et al., 2023c) 和量化(Tao et al., 2022)：减小模型的大小或减少模型参数的精度，利用更少的比特来表示它们。
这样可以减少内存利用和打算繁芜度。
知识蒸馏 (Gu et al., 2023b)：演习一个较小的模型（学生）来模拟一个较大的模型或模型凑集（西席）的行为和预测。
这种知识的转移使得利用较少的打算资源能够实现高效的推断。
低秩分解 (Ren and Zhu, 2023; Hsu et al., 2022)：将高维张量更换为低维张量。
通过减少参数数量，这些方法能提高效率而不显著丢失性能。

通过采取这些技能，可以提高根本模型的效率，使它们在各种推理任务和运用中更快捷、更具本钱效益。

人类偏好

办理与根本模型干系的风险和潜在危害，如偏见、不公正、操纵和缺点信息，须要负责考虑和采纳积极方法。
一种方法是专注于改进从人类偏好和反馈中学习，以确保模型行为更负任务和准确。

为了减轻这些风险，我们可以探索几种策略。
首先，我们须要在根本模型的演习和微调阶段引入机制，以合并多样化的不雅观点并减少偏见。
这可以涉及多样化的数据网络、代表性抽样和谨慎的注释过程，须要从广泛人类不雅观点中得到输入。
从人类反馈中得到不断的学习温柔应也起着关键浸染。
通过使模型与人类标注员或用户进行持续互动，我们可以网络反馈并迭代地改进模型的行为。
这个迭代过程有助于识别和纠正潜在的偏见、不公正或缺点信息，从而使模型能够随韶光改进。
此外，确保根本模型的输出与现实天下的证据、实验创造和明确知识同等是至关主要的。
这须要将强有力的事实核查机制和验证流程纳入模型演习流程中。
此外，利用外部信息来源，如可信数据库或专家知识，有助于验证和确认模型天生的输出。

Bai et al. (2022)提出的宪法人工智能（Constitutional AI）利用了包括“基于人工智能反馈的强化学习”（RLAIF）在内的有监督学习和强化学习阶段的方法。
类似地，Bakker et al. (2022)探索利用70亿参数的大型措辞模型（LLM）进行微调，以天生最大化不同和多样化不雅观点的人们的预期赞许的陈述。
这种方法强调了在模型演习过程中纳入人类偏好和多样不雅观点的主要性。

通过整合这些技能和方法，我们可以努力减轻与根本模型干系的风险和潜在危害。
改进从人类偏好学习、持续学习与反馈、确保与实际证据同等等步骤是构建更负任务和值得相信的推理系统的寻衅性步骤。

多措辞支持

虽然推理本身是一种与措辞无关的过程，但全面的知识来源常日仅限于少数措辞，紧张是英语。
历史上，措辞根本模型在推理性能方面表现出色，紧张是英语，对其他措辞如中文和日语的支持相对有限。
目前，缺少具有强大多措辞推理能力的稳健根本模型。

Fang et al. (2022)在他们的知识推理框架中提出了利用英语作为中间措辞的方法。
他们采取了一种翻译-检索-翻译（TRT）策略，利用英语知识来源增强了推理能力。
此外，Huang et al. (2023a)引入了跨措辞思维启示（XLT）作为改进措辞和推理模型（LLMs）多措辞能力的系统方法。

鉴于这些进展，对付开拓专门用于多措辞推理的根本模型有着日益增长的兴趣。
构建在多措辞环境中表现出色的稳健模型为未来的研究和开拓供应了有趣的路子。

总之，要办理这些寻衅，须要进行持续的研究和开拓努力。
这包括推进推理模型的支配。

6 未来方向 Future Directions

进一步的研究和发展在这一领域有潜力开释出根本模型中更前辈的推理能力。

6.1 安全和隐私 Safety and Privacy

基于建模根本的模型的崛起和其在推理任务中的运用，突显了确保它们的安全性和可信度的急迫需求 (Huang et al., 2023e)。

各种意图攻击已被识别出来，包括鲁棒性差距 (Shreya and Khapra, 2022)，后门攻击(Shen et al., 2021b; Kurita et al., 2020)，污染(Carlini et al., 2023)，虚假信息 (Nelson et al., 2008)，隐私透露 (Li et al., 2023d)，以及未经授权的信息表露(Perez and Ribeiro, 2022)。
详细而言，后门攻击涉及通过诸如污染演习数据 (Shen et al., 2021b)或修正模型参数的技能将恶意知识注入到根本模型中 (Kurita et al., 2020)。

作为对付具备隐私性的机器学习模型进行演习的最具原则性的技能之一，差分隐私许可在不暴露任何个体演习示例细节的情形下对数据集进行演习，供应了增强的隐私保护 (Shi et al., 2022; Behnia et al., 2022)。
对付抵御对抗性攻击的另一种有效方法是通过对抗性演习，当模型输入中添加恶意但对人类不可见的扰动时，可以供应另一层安全保障 (Li et al., 2023i; Li and Spratling, 2023)。

为了回应一些版权问题，Kirchenbauer et al. (2023)提出了一个专门为专有措辞模型设计的水印嵌入框架。
该框架能在对文实质量影响最小的情形下嵌入水印，并利用高效的开源算法进行检测，肃清了访问措辞模型API或参数的需求。

6.2 可阐明性和透明度 Interpretability and Transparency

此外，须要增加根本模型的透明度和可阐明性(Liao and Vaughan, 2023)。
随着这些模型变得越来越繁芜和精密，理解它们的推理过程和影响其输出的成分变得越来越主要。

有时，根本模型会天生有毒内容，可能引发暴力并造成信息疫情 (Bender et al., 2021; Weidinger et al., 2021)。
它们可能会无意中透露敏感信息，从而危及隐私和安全。
此外，LLM（大规模的措辞模型）还可能促进故意或无意的缺点信息传播 (Pan et al., 2023b; Buchanan et al., 2021; Kreps et al., 2022; Zhou et al., 2023b)。
根本模型的繁芜和不愿定性进一步加剧了这些寻衅。
这些模型展现出在不同环境下实行各种任务的能力 (Bommasani et al., 2021)。
然而，它们弘大且不透明的构造阻碍了对其能力和行为的全面理解，使我们难以确定它们的决策过程和潜在偏见。
这种缺少透明度引发了关于模型可阐明性、掌握和任务的担忧。

开拓模型可阐明性的技能和框架可以帮助办理透明度和任务方面的关怀。

6.3 自主措辞智能体 Autonomous Language Agents

逻辑推理能力在实现详细环境中的繁芜任务中至关主要，并在详细智能中起着重要浸染（Dasgupta等，2022）。
根本模型通过在高下文学习过程中展现了强大的推理和灵巧性能力（Yang等，2023）。
近期研究，如Voyager和DEPS，探索了在Minecraft中利用LLMs进行方案（Wang等，2023a；Wang等，2023b）。
个中，DEPS特殊提出了基于LLMs的交互式方案方法（Wang等，2023b）。
LLMs在不须要额外领域知识的情形下，直接基于自然措辞指令天生动作序列的潜力已经得到展示（Li等，2022）。
为详细化智能体配备知识知识对其在多样化环境中成功完成繁芜人类指令至关主要（Wu等，2023）。

在自主智能体的推理背景下，有关键特色：

无限任务能力：基于根本模型的代理器授予其处理广泛任务范围的能力，乃至包括那些未预定义或事先预见的任务。
这种灵巧性使得代理器能根据其对环境的理解和用户特定需求的动态天生任务。

自主任务天生：基于模型推理的能力使得智能体能够在给定的环境中自主天生新的任务。
这种能力授予了智能体主动性，使其能够创造机会并向用户提出干系任务。
智能体可以适应和应对变革的环境，使其在知足用户需求方面更加灵巧、主动和高效。

代价体系: 自主代理人由一个经由演习的根本模型授予力量的代价体系驱动，该模型作为任务天生的根本。
这个代价体系辅导代理人的决策过程，考虑到成分包括优先级、偏好和伦理考虑。
通过利用根本模型的能力，代理人能够做出与人类代价不雅观同等的明智决策，确保负任务和道德行为。

天下模型：根本模型还可以被用作一个天下模型，代表真实天下并成为代理人交互和推理的根本。
这个综合性模型使代理人能够理解语境、解读自然措辞输入，并天生适当的反应或行为。
借助根本模型作为它们的天下模型，代理人能够有效地在环境中导航和运行，提高它们智能交互和响运用户需求的能力。

通过利用根本模型，自主代理可以与用户进行更故意义和有效的交互，更好地理解他们的意图和需求，并相应地天生干系任务。
这种方法为高下文理解、类人推理和个性化帮忙等领域的研究打开了有希望的路子。
终极，它提升了总体用户体验，并实现了更繁芜和智能的人工智能系统的发展。

鉴于它们的推理能力，根本模型在人机交互和具身智能运用方面具有显著潜力，并可以用于创建可以动态响运用户输入并相应调度行为的互动温柔应性系统。
这涉及开拓能够从用户交互中学习并随韶光更新知识和行为的模型。
通过使根本模型能够积极与用户互动并适应他们的偏好和需求，我们可以创建更个性化和以用户为中央的人机交互体验。

6.4 科学推理 Reasoning for Science

未来的事情也可以基于多模态问答任务或声音推理的韶光推理研究 (Brandt and McClure, 2011)，例如音频问答（AQA） (Fayek and Johnson, 2019)。
研究职员可以深入研究和开拓能够基于听觉信息进行推理和推断的根本模型。
这对付音频决策系统、环境监测和音频场景理解等领域可能具有主要意义。

此外，多模态推理的运用还可以扩展到医学推理和诊断领域，特殊是在基因序列剖析的背景下。
这可以帮助识别基因疾病、个性化医学和探索潜在治疗方法。

总的来说，未来的事情可以集中于提升根本模型的多模态推理能力。
这些努力有助于在各个领域开拓更智能和具有情境意识的系统。

6.5 超级对齐 Super Alignment?

超级智能对齐，根据OpenAI§，是下一个极其主要的机器学习问题。
然而，确保对潜在的超级智能AI系统进行掌握和对齐面临着重大寻衅。
当前的技能，如基于人类反馈的强化学习（RLHF），严重依赖于人类监督和推理。
随着AI系统超越人类智能，人类监督变得不敷够，须要在对齐研究中取得新的科学和技能打破。
现有的对齐技能由于人类推理和监督的限定，无法扩展到超级智能。
掌握和勾引高智能AI系统以防止其失落控的前景仍旧是一个未办理的寻衅。
在没有可靠手段监督这些超越人类能力的推理系统的情形下，确保它们与人类意图的对齐变得越来越困难。

办理确保超越人类智能的推理系统遵守人类意图的寻衅的一种方法是开拓一个大致与人类水平相称的自动化对齐研究者。
通过创建这样一个别系，就可以利用大量的打算资源来扩大对齐事情的规模，并逐步对齐超级智能。

7 结论 Conclusion

该调查揭示了推理领域根本模型的蜕变路径，展示了其从初始阶段到当提高展的繁芜性和有效性的显著提升。
虽然我们承认数据驱动思维取得的显著进展，但我们必须客不雅观地认识到大模型的上风和局限性。
强调提高其可阐明性和安全性的主要性在这一背景下变得至关主要。
我们还把稳到，在本研究中调查的所有论文中，如何将根本模型的推理能力推向始终超人水平（例如得到IMO奖牌乃至办理开放数学问题）尚未达成共识。

总之，在推理任务中，虽然根本模型供应了令人愉快的可能性，但必须以批驳的视角来对待它们的发展和运用。
承认与基于大型措辞模型的推理干系的寻衅、局限性和风险至关主要。
通过这样做，我们可以促进负任务和寻思熟虑的该领域的进展，确保稳健可靠的推理系统的发展。