6月7日,阿里发布了最新、最强大Qwen2大模型。刚刚,Qwen2技能报告(英文)发布。本文是我用Kimi翻译的全文,在"大众年夜众号后台回答“Qwen2”可下载原文档。
以下是报告的核心内容概述:
1. 模型家族先容:Qwen2系列包括从0.5亿到72亿参数的根本和指令调度型措辞模型,包括密集型模型和专家稠浊模型(Mixture-of-Experts, MoE)。
2. 性能表现:Qwen2在多个基准测试中超越了以前的开放权重模型,包括其前身Qwen1.5,并在措辞理解、天生、多措辞能力、编程、数学和推理方面与专有模型展现出竞争力。
3. 旗舰模型Qwen2-72B:展示了卓越的性能,详细分数包括MMLU上的84.2分、GPQA上的37.9分、HumanEval上的64.6分、GSM8K上的89.5分和BBH上的82.4分。
4. 多措辞能力:Qwen2支持约30种措辞,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语等。
5. 模型权重公开可用:Qwen2模型权重在Hugging Face和ModelScope平台上公开可用,GitHub上还供应了补充材料,包括示例代码。
6. 模型架构:Qwen2基于Transformer架构,采取自把稳力和因果掩码,引入了分组查询把稳力(Grouped Query Attention, GQA)和双块把稳力(Dual Chunk Attention, DCA)等技能。
7. 预演习和后演习:Qwen2在超过7万亿个token的大规模数据集上进行预演习,并采取监督衰落调和直接偏好优化(Direct Preference Optimization, DPO)等技能进行后演习。
//
首先是论文作者:
择要
本报告先容了Qwen2系列,这是我们大型措辞模型和大型多模态模型的最新成员。我们发布了一套全面的根本和指令调度型措辞模型,参数范围从5亿到72亿,包括密集型模型和专家稠浊模型。Qwen2在大多数之前开放权重模型中超越了,包括其前身Qwen1.5,并在措辞理解、天生、多措辞能力、编程、数学和推理等多样化基准测试中展现出与专有模型相媲美的性能。
旗舰模型Qwen2-72B表现出色:在MMLU上得分84.2,在GPQA上得分37.9,在HumanEval上得分64.6,在GSM8K上得分89.5,在BBH上得分82.4,作为根本措辞模型。指令调度型变体Qwen2-72B-Instruct在MT-Bench上得分9.1,在Arena-Hard上得分48.1,在LiveCodeBench上得分35.7。此外,Qwen2展示了强大的多措辞能力,闇练节制约30种措辞,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,凸显了其多功能性和环球覆盖范围。
为了促进社区创新和可访问性,我们已经在Hugging Face和ModelScope上公开供应了Qwen2模型权重,以及包括示例代码在内的补充材料在GitHub上。这些平台还包括量化、微调和支配的资源,促进了广泛的运用和研究事情。
1 弁言
随着OpenAI在2022年推出ChatGPT之后,环球对大型措辞模型(LLMs)的激情亲切不断飞腾。2023年,Llama系列的发布进一步点燃了开源社区的兴趣,特殊是在本地LLMs达到GPT级别的情形。最近,Anthropic在2024年发布的Claude-3 Opus和OpenAI在2024年更新的ChatGPT模型GPT-4o,迅速攀升至谈天机器人领域的顶峰,这在由Chiang等人在2024年所推崇的谈天机器人竞技场(Chatbot Arena)中得到了表示,该平台以其对LLMs的人类评估而有名。此外,AI@Meta在2024年推出的Llama3已成为最前辈的开放权重模型系列,缩小了与领先专有模型的性能差距,并被广泛认为是GPT-4级别的模型。越来越多的竞争性LLMs正在追求与OpenAI的GPT系列相似的进步。包括Qwen(Bai等人,2023a)、Mistral(Jiang等人,2023a)、Gemma(Mesnard等人,2024)等在内的许多模型都以开放权重的办法发布。
在过去的几个月里,我们先后推出了Qwen系列(Bai等人,2023a)并发展到Qwen1.5(Qwen团队,2024a)。与此同时,我们公开了视觉-措辞模型Qwen-VL(Bai等人,2023b),并推出了音频-措辞模型Qwen-Audio(Chu等人,2023)。在这项事情中,我们先容了Qwen家族大型措辞模型和大型多模态模型的最新成员:Qwen2。Qwen2是一系列基于Transformer架构(Vaswani等人,2017)的LLMs,利用下一个token预测进行演习。该模型系列包括根本的,即预演习但未与人类偏好对齐的根本措辞模型,以及针对谈天和代理目的利用单轮和多轮指令遵照数据集进行微调的指令调度型模型。我们的发布包括四个密集型模型,参数计数分别为0.5亿、1.5亿、7亿和72亿,以及一个具有570亿参数的专家稠浊(MoE)模型,每个token激活140亿参数。特殊是小型模型Qwen2-0.5B和Qwen2-1.5B旨在轻松支配在便携式设备上,如智好手机、耳机和智能眼镜。相反,较大的模型适用于不同规模的GPU支配。
所有模型都在超过7万亿个token的高质量、大规模数据集上进行了预演习,涵盖了广泛的领域和措辞。与以前的Qwen版本相比,Qwen2包括更广泛的措辞数据,增强了代码和数学内容的数量和质量。这种丰富被假设为提高LLMs的推理能力。关于后演习,所有模型都经由了监督衰落调和直接偏好优化(DPO,Rafailov等人,2023),通过学习人类反馈使它们与人类偏好对齐。这个过程授予了模型有效遵照指令的能力。
我们已经对Qwen2进行了全面的评估,同时选择了一些基线模型进行评估,包括通过API可访问的开放权重和专有模型。Qwen2在根本措辞能力和指令调度型功能评估中超越了竞争模型。详细来说,我们的指令调度型变体Qwen2-72B-Instruct在MT-Bench(Zheng等人,2023)上得分9.1,在Arena-Hard(Chiang等人,2024)上得分48.1,在LiveCodeBench(Jain等人,2024)上得分35.7。与此同时,根本措辞模型Qwen2-72B在MMLU(Hendrycks等人,2021a)上达到84.2,在GPQA(Rein等人,2023)上达到37.9,在HumanEval(Chen等人,2021)上达到64.6,在GSM8K(Cobbe等人,2021)上达到89.5,在BBH(Suzgun等人,2023)上达到82.4。
2 词元器与模型
本节先容了Qwen2的词元器和模型设计。我们详细描述了不同模型大小的模型架构和配置。
2.1 词元器
遵照Qwen(Bai等人,2023a),我们采取了基于字节级字节对编码的相同词元器。值得把稳的是,该词元器由于其相对付其他选择更好的压缩率,表现出高效的编码效率,促进了Qwen2的多措辞能力。
所有大小的模型都采取一个共有词汇表,包括151,643个常规词元和3个掌握词元。有关更多信息,请参阅Bai等人(2023a)。须要把稳的是,由于分布式演习的考虑,嵌入的有效大小更大。
2.2 模型架构
Qwen2系列基本上是基于Transformer架构的大型措辞模型,具有自把稳力和因果掩码(Vaswani等人,2017)。详细来说,这一系列包括4个规模的密集型措辞模型和1个专家稠浊(MoE)模型。我们在深入磋商MoE模型的独特属性之前,先先容密集型模型的详细细节。
2.2.1 Qwen2 密集型模型
Qwen2密集型模型的架构包括多个Transformer层,每层都配备了因果把稳力机制和前馈神经网络(FFN)。与Qwen的紧张差异如下:
- 分组查询把稳力:我们采取了分组查询把稳力(GQA,Ainslie等人,2023)而不是传统的多头把稳力(MHA)。GQA在推理期间优化了KV缓存的利用,显著提高了吞吐量。第2.2.3节报告了不同模型大小的详细KV头配置。
- 双块把稳力与YARN:为了扩大Qwen2的高下文窗口,我们实现了双块把稳力(DCA,An等人,2024),它将长序列分割成可管理长度的块。如果输入可以在一个块中处理,DCA会产生与原始把稳力相同的结果。否则,DCA有助于在块内和跨块之间有效地捕获相对位置信息,从而提高长高下文性能。此外,我们还采取了YARN(Peng等人,2023)来重新调度把稳力权重,以更好地进行长度外推。
此外,我们沿用了Qwen模型中利用的SwiGLU(Dauphin等人,2017)作为激活函数,旋转位置嵌入(RoPE,Su等人,2024)作为位置嵌入,QKV偏置(Su,2023)用于把稳力,RMSNorm(Jiang等人,2023b)和预归一化用于演习稳定性。
2.2.2 Qwen2 专家稠浊模型
Qwen2 MoE模型的架构与Qwen1.5-MoE-A2.7B(Qwen团队,2024c)非常相似。作为原始FFN的替代,MoE FFN由n个单独的FFN组成,每个FFN充当一个专家。每个token根据由门控网络G分配的概率被勾引到特定的专家Ei进行打算:
p=softmax(G(x))
y=∑i∈topk(p)Ei(x)
接下来,我们将先容Qwen2 MoE的关键设计考虑。
- 专家粒度:MoE模型与密集型模型的紧张构造差异在于MoE层包含多个FFN,每个FFN充当一个独立的专家。因此,从密集型架构过渡到MoE架构的一个直接策略是将每个专家的参数设置为原始密集型模型中单个FFN的参数。例如,从Mistral-7B(Jiang等人,2023a)过渡到Mixtral 8x7B(Jiang等人,2024),涉及一次激活八个专家中的一个。不同地,我们的模型采取了细粒度专家(Dai等人,2024),创建了规模更小的专家,同时激活了更多的专家。在总专家参数和激活参数相等的情形下,细粒度专家供应了更丰富的专家组合。通过利用这些细粒度专家,Qwen2 MoE促进了更多样化和动态的专家利用,从而提高了整体性能温柔应性。
- 专家路由:专家路由机制的设计对付提高MoE模型的性能至关主要。最近,将共享专家和特定路由专家整合到MoE层内的趋势日益明显(Rajbhandari等人,2022;Dai等人,2024)。我们采取了这种方法,由于它既促进了共享专家在各种任务中的运用,又保留了其他专家在特定路由场景中的选择性利用。引入共享和专门的专家为开拓MoE路由机制供应了一种更适应性和有效的方法。
表1列出了Qwen2密集型和MoE模型的架构。对付MoE模型,57B-A14B表示该模型统共有570亿参数,每个token激活了140亿参数,中间尺寸指的是每个专家的尺寸,#激活专家不包括共享专家。
配置
0.5B
1.5B
7B
72B
57B-A14B
隐蔽尺寸
896
1,536
3,584
8,192
3,584
层数
24
28
28
80
28
查询头数
14
12
28
64
28
KV头数
2
2
4
8
4
头尺寸
64
128
128
128
128
中间尺寸
4,864
8,960
18,944
29,568
2,560
#路由专家
64
#激活专家
8
#共享专家
8
词嵌入大小
151,646
151,646
151,646
151,646
151,646
#演习token
12T
7T
7T
7T
4.5T
2.2.3 模型配置
接下来,我们供应了Qwen2系列的关键配置和信息。
Qwen2系列由5种尺寸的模型组成,分别是Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。表1列出了超参数和主要信息,例如预演习token的数量。特殊是,Qwen2-57B-A14B是从Qwen2-7B扩展而来。值得把稳的是,与Qwen1.5模型比较,Qwen2模型展示了每个token的显著降落的键值(KV)大小。这一特性转化为内存占用的减少,特殊是在长高下文推理任务中特殊有利。
3 预演习
在Qwen2的预演习中,我们专注于改进数据集,并探索有效处理扩展高下文长度的方法。
3.1 预演习数据
Qwen2模型的预演习涉及开拓一种新的、大规模、高质量的多措辞数据集。该数据集在多个关键领域改进了之前Qwen和Qwen1.5模型利用的语料库(Bai等人,2023a;Qwen团队,2024a),在规模、质量和多样性方面增强了预演习数据:
- 质量提升:过滤算法通过额外的启示式和基于模型的方法进行了改进,包括利用Qwen模型过滤掉低质量数据。此外,这些模型被用来合成高质量的预演习数据。
- 数据扩展:与Qwen1.5(Qwen团队,2024a)比较,我们网络了更大容量的高质量代码、数学和多措辞数据,增强了模型在这些领域的能力。这个新数据集支持约30种措辞,如英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语等。
- 分布改进:为确保模型学习类似于人类学习的分布,我们在缩小规模的模型上进行实验,优化来自不同来源和领域的数据稠浊。
基于这些增强,预演习数据从Qwen1.5的3万亿token扩展到7万亿token。考试测验进一步放宽质量阈值导致了一个12万亿token的数据集。然而,在这个数据集上演习的模型并没有显示出比7万亿token模型有显著的性能提升。疑惑增加数据量并不一定有利于模型预演习。考虑到演习本钱,我们选择利用更高质量的7万亿token数据集来演习更大的模型,将进一步的探索留给未来的模型迭代。
所有Qwen2密集型模型,除了Qwen2-0.5B,都在这个超过7万亿token的大规模数据集上进行了预演习。Qwen2-0.5B是利用12万亿token数据集进行预演习的。MoE模型接管了额外的4.5万亿token的预演习,符合升级再利用的原则。与之前的Qwen模型类似,高质量的多任务指令数据被整合到Qwen2的预演习过程中,以增强高下文学习和指令跟随能力。
3.2 长高下文演习
为了增强Qwen2的长高下文能力,我们在预演习的末了阶段将高下文长度从4,096个token扩展到32,768个token。这一扩展得到了大量高质量、长数据的补充。结合这些增强,我们将RoPE的基本频率从10,000调度到1,000,000,以优化长高下文场景中的表现(Xiong等人,2023)。
为了充分利用模型的长度外推潜力,我们采取了YARN机制(Peng等人,2023)和双块把稳力机制(An等人,2024)。这些策略使模型能够处理长达131,072个token的序列,同时保持高性能,这在初步实验中的困惑度降落很小。
4 后演习
在经由大规模的预演习之后,我们对Qwen2进行了后演习阶段。这一过程对付提高其在包括编程、数学、逻辑推理、指令跟随和多措辞理解在内的广泛领域的闇练度至关主要。此外,它确保了模型的天生与人类代价不雅观同等,使其有帮助、老实且无害。与依赖大量人类监督的传统方法不同,我们的方法侧重于可扩展的对齐,最小化人类注释(Cao等人,2024)。详细来说,我们研究了获取高质量的演示和偏好数据的方法,用于监督衰落调(Supervised Fine-Tuning, SFT)和从人类反馈中进行强化学习(Reinforcement Learning from Human Feedback, RLHF),旨在最大限度地减少人类标记的需求,同时最大化数据的质量和可靠性。
4.1 后演习数据
后演习数据紧张由两部分组成:演示数据D = {(xi, yi)}和偏好数据P = {(xi, y+i, y−i)},个中xi代表指令,yi代表满意的相应,y+i和y−i是xi的两个相应,y+i是比y−i更受偏好的选择。凑集D用于SFT,而P用于RLHF。
构建演习数据涉及一个两步过程:协作数据注释和自动化数据合成。首先,我们从大规模指令语料库中提取数据本体,从而得到广泛和多样化的高质量指令。这些指令通过系统增强以融入更大的繁芜性。通过人工注释,我们得到了目标相应yi及其正面和负面对应物(y+i, y−i)。随后,采取多种自动化对齐策略,在代码、数学、指令跟随、创作、角色扮演和安全等领域合成了大量人工注释的数据。
4.1.1 协作数据注释
自动本体提取 该过程首先运用InsTag(Lu等人,2024c),一个开放集细粒度标注器,从大规模指令数据集中提取底层本体。随后的手动细化确保了提取本体的准确性。
指令选择 每个带有标注的指令都根据标签多样性、语义丰富度、繁芜性和意图完全性进行评估。基于这些标准,我们选择了一组代表性指令(Dong等人,2023)。
指令蜕变 为了丰富指令数据集,采取了自我蜕变策略(Zhao等人,2024),匆匆使Qwen模型向现有指令添加约束或哀求,从而增加其繁芜性,并确保数据集中不同难度级别的多样性。
人工注释 利用不同的天生策略和不同规模的Qwen模型得到指令的多个相应。注释者根据偏好对这些相应进行排名,确保最佳相应知足既定标准,从而产生演示数据和偏好数据。
4.1.2 自动化数据合成
在大规模上掩护指令相应注释的质量面临重大寻衅,特殊是那些须要专业知识、履历、细心或耐心的任务。为理解决这些寻衅,我们设计了各种自动化对齐策略,以大规模合成数据。
谢绝采样 对付数学或类似具有明确终极答案的任务,运用谢绝采样(Yuan等人,2023)来提高办理方案的质量。大型措辞模型(LLMs)被授予天生多个相应的任务,即推理路径,对付每个指令。那些得出准确结论并被模型认为是合理的路径被保留,作为演示数据。通过比拟精确和缺点的路径天生偏好数据。
实行反馈 对付编程任务,LLMs被用来天生办理方案和干系测试用例。通过编译和实行这些办理方案来评估其有效性,从而创建演示和偏好数据。这种方法也适用于评估指令跟随(Dong等人,2024)。对付每个具有约束的指令,例如长度限定,LLM被授予天生Python验证函数的任务,以确保相应符合指令哀求。
数据再利用 在文学写作任务中创建闇练的相应对付没有接管过专门培训的注释者来说是一个寻衅。为理解决这个问题,我们汇总了来自公共领域的高质量文学作品,并利用LLMs开拓具有不同详细程度的指令。这些指令与原始作品配对,作为演示数据。例如,为了编译具有生动有趣相应的角色扮演数据,我们从像维基百科这样的知识库中获取详细的人物档案,并辅导LLMs天生相应的指令和相应。这个过程类似于阅读理解任务,确保了人物档案的完全性。
宪法反馈 宪法AI指的是辅导LLMs根据预定义的原则集天生相应的过程(Bai等人,2022)。为确保遵守如安全和代价不雅观等准则,我们体例了一个宪法数据集。该数据集规定了要遵照和避免的原则。它被用来辅导LLMs天生符合或偏离这些准则的相应,作为演示和偏好数据的参考。
4.2 监督衰落调
我们网络了一个广泛的指令数据集,包含超过500,000个示例,涵盖指令跟随、编程、数学、逻辑推理、角色扮演、多措辞和安全等技能。我们的模型在32,768个token的序列长度上进行了两个期间的微调。为了优化学习,学习率从7×10^-6逐渐降落到7×10^-7。为理解决过拟合问题,我们运用了0.1的权重衰减,并将梯度限定在最大值为1.0。
4.3 从人类反馈中进行强化学习
我们的RLHF培训制度包括两个连续的阶段:离线和在线演习。在离线演习阶段,我们利用预先编译的偏好数据集P,通过直接偏好优化(DPO, Rafailov等人,2023)最大化y+i和y−i之间的似然差异。在在线演习阶段,模型利用即时反馈的褒奖模型不断改进其性能。详细来说,我们从当前策略模型中采样多个相应,褒奖模型选择最受欢迎和最不受欢迎的相应,形成用于每个情节中DPO的偏好对。此外,我们采取了在线合并优化器(Lu等人,2024a),以减轻对齐税,即与将模型天生与人类偏好对齐干系的性能低落。
5 评估
(翻译太麻烦,图表太多,这部分直接引用博客里的数据)
比较Qwen1.5,Qwen2在大规模模型实现了非常大幅度的效果提升。我们对Qwen2-72B进行了全方位的评测。
在针对预演习措辞模型的评估中,比拟当前最优的开源模型,Qwen2-72B在包括自然措辞理解、知识、代码、数学及多措辞等多项能力上均显著超越当前领先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。这得益于其预演习数据及演习方法的优化。
大规模预演习后,我们对模型进行风雅的微调,以提升其智能水平,让其表现更靠近人类。这个过程进一步提升了代码、数学、推理、指令遵照、多措辞理解等能力。此外,模型学会对齐人类代价不雅观,它也随之变得更加对人类有帮助、老实以及安全。我们的微调过程遵照的原则是使演习尽可能规模化的同时并且尽可能减少人工标注。我们探索了如何采取多种自动方法以获取高质量、可靠、有创造力的指令和偏好数据,个中包括针对数学的谢绝采样、针对代码和指令遵照的代码实行反馈、针对创意写作的回译、针对角色扮演的scalable oversight、等等。在演习方面,我们结合了有监督微调、反馈模型演习以及在线DPO等方法。我们还采取了在线模型合并的方法减少对齐税。这些做法都大幅提升了模型的根本能力以及模型的智能水平。
我们全面评估了Qwen2-72B-Instruct在16个基准测试中的表现。Qwen2-72B-Instruct在提升根本能力以及对齐人类代价不雅观这两方面取得了较好的平衡。比较Qwen1.5的72B模型,Qwen2-72B-Instruct在所有评测中均大幅超越,并且了取得了匹敌Llama-3-70B-Instruct的表现。
而在小模型方面,Qwen2系列模型基本能够超越同等规模的最优开源模型乃至更大规模的模型。比较近期推出的最好的模型,Qwen2-7B-Instruct依然能在多个评测上取得显著的上风,尤其是代码及中文理解上。
代码 & 数学我们持续投入提升Qwen的代码及数学能力。在代码方面,我们成功将CodeQwen1.5的成功履历融入Qwen2的研发中,实现了在多种编程措辞上的显著效果提升。而在数学方面,大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。
长文本处理
Qwen2系列中的所有Instruct模型,均在32k高下文长度上进行演习,并通过YARN或Dual Chunk Attention等技能扩展至更长的高下文长度。
下图展示了我们在Needle in a Haystack测试集上的结果。值得把稳的是,Qwen2-72B-Instruct能够完美处理128k高下文长度内的信息抽取任务。结合其本身强大的性能,只要有充足的算力,它一定能成为你处理长文本任务的首选!
此外,Qwen2系列中的其他模型的表现也十分突出:Qwen2-7B-Instruct险些完美地处理长达128k的高下文;Qwen2-57B-A14B-Instruct则能处理64k的高下文长度;而该系列中的两个较小模型则支持32k的高下文长度。
除了长高下文模型,我们还开源了一个智能体办理方案,用于高效处理100万tokens级别的高下文。
安全
下表展示了大型模型在四种多措辞不屈安查询种别(造孽活动、敲诈、色情、隐私暴力)中天生有害相应的比例。测试数据来源于Jailbreak,并被翻译成多种措辞进行评估。我们创造Llama-3在处理多措辞提示方面表现不佳,因此没有将其纳入比较。通过显著性考验(P值),我们创造Qwen2-72B-Instruct模型在安全性方面与GPT-4的表现相称,并且显著优于Mistral-8x22B模型。
6 结论
本技能报告先容了Qwen2系列,这是一套多功能的根本和指令调度型措辞模型,参数范围从0.5亿到72亿,包括密集型和专家稠浊(Mixture-of-Experts)架构模型。Qwen2在措辞理解、天生、多措辞能力、编程、数学和推理等多个广泛基准测试中,超越了以前的开放权重模型,特殊是其前身Qwen1.5,并与专有模型展现出竞争力。在这次更新中,我们特殊关注长高下文、多措辞、编程、数学能力以及安全性和任务性。为了促进社区内的创新和可访问性,我们已经公开供应了Qwen2模型权重,使研究职员和开拓职员能够在各种运用和研究项目中充分利用Qwen2的全部潜力。通过这些努力,我们旨在为人工智能技能的发展及其对社会的积极影响做出贡献。