Cuiphpjava技巧_通义千问Qwen2大年夜模型技能申报全文翻译解读

文章目录 [+]

我们翻译解读最新论文：Qwen2技能报告，文末有论文链接。

作者：张长旺，图源：旺知识

Cuiphpjava技巧_通义千问Qwen2大年夜模型技能申报全文翻译解读

旗舰模型 Qwen2-72B 展示了卓越的性能：在 MMLU 上得分 84.2，在 GPQA 上得分 37.9，在 HumanEval 上得分 64.6，在 GSM8K 上得分 89.5，在 BBH 上得分 82.4 作为根本措辞模型。
指令调优变体 Qwen2-72B-Instruct 在 MT-Bench 上得分 9.1，在 Arena-Hard 上得分 48.1，在 LiveCodeBench 上得分 35.7。
此外，Qwen2 展示了强大的多措辞能力，精通约 30 种措辞，涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等，凸显了其多功能性和环球覆盖范围。

（图片来自网络侵删）

为了促进社区创新和可访问性，我们已经在 Hugging Face 和 ModelScope 上公开供应了 Qwen2 模型权重，以及包括示例代码在内的补充材料在 GitHub 上。
这些平台还包括量化、微调和支配的资源，促进了广泛的运用和研究事情。

1 弁言 2 词元化器与模型 2.1 词元化器 2.2 模型架构 2.2.1 Qwen2 密集模型 2.2.2 Qwen2 专家稠浊模型 2.2.3 模型配置 3 预演习 3.1 预演习数据 3.2 长高下文演习 4 后演习 4.1 后演习数据 4.1.1 协作数据注释 4.1.2 自动数据合成 4.2 监督微调 4.3 从人类反馈中学习强化学习 5 评估 5.1 根本措辞模型 5.1.1 核心能力 5.2 指令调优模型 5.2.1 开放基准评估 5.2.2 内部自动评估 5.2.3 长高下文能力 5.2.4 多措辞评估 5.2.5 安全与任务 6 结论

1 弁言

随着 ChatGPT（OpenAI, 2022）的涌现，环球对大型措辞模型（LLMs）的激情亲切不断升温。
Llama 系列（Touvron et al., 2023）的发布进一步引发了开源社区的兴趣，特殊是关于 GPT 级别的本地 LLMs。
最近，Claude-3 Opus（Anthropic, 2024）和 GPT-4o（omni）（OpenAI, 2024），即 ChatGPT 的更新模型，迅速登上了 Chatbot Arena（Chiang et al., 2024）的顶峰。
该平台以其对 LLMs 的人类评估而有名。
此外，Llama3（AI@Meta, 2024）已成为最前辈的开放权重模型系列，缩小了与领先专有模型的性能差距，并被广泛认为是 GPT-4 级别的。
越来越多的竞争性 LLMs 正在追求与 OpenAI 的 GPT 系列相似的进步。
包括 Qwen（Bai et al., 2023a）、Mistral（Jiang et al., 2023a）、Gemma（Mesnard et al., 2024）等在内的许多模型，都以开放权重的办法发布。

在过去的几个月里，我们陆续推出了 Qwen 系列（Bai et al., 2023a）并发展到 Qwen1.5（Qwen Team, 2024a）。
同时，我们推出了视觉措辞模型 Qwen-VL（Bai et al., 2023b），并启动了音频措辞模型 Qwen-Audio（Chu et al., 2023）。
在这项事情中，我们先容了 Qwen 家族大型措辞模型和大型多模态模型的最新成员：Qwen2。
Qwen2 是一系列基于 Transformer 架构（Vaswani et al., 2017）的 LLMs，利用下一个词预测进行演习。
该模型系列包括根本的，即预演习但未与人类偏好对齐的根本措辞模型，以及通过单轮和多轮指令遵照数据集进行微调的指令调优模型，适用于谈天和智能体目的。
我们的发布包括四个密集模型，参数计数分别为 0.5 亿、1.5 亿、7 亿和 72 亿，以及一个参数为 570 亿的专家稠浊（MoE）模型，每个 token 激活 140 亿参数。
较小的模型，特殊是 Qwen2-0.5B 和 Qwen2-1.5B，旨在易于在便携设备如智好手机、耳机和智能眼镜上支配。
相反，较大的模型适用于不同规模的 GPU 支配。

所有模型都在超过 7 万亿个 token 的高质量、大规模数据集上进行了预演习，涵盖了广泛的领域和措辞。
与以前的 Qwen 版本相比，Qwen2 包括更广泛的措辞数据，增强了代码和数学内容的数量和质量。
这种丰富被假设为提高 LLMs 的推理能力。
关于后演习，所有模型都经由了监督微调和直接偏好优化（DPO, Rafailov et al., 2023），通过学习人类反馈使它们与人类偏好对齐。
这个过程授予了模型有效遵照指令的能力。

我们对 Qwen2 进行了全面评估，同时选择了包括通过 API 可访问的开放权重和专有模型在内的基线模型。
Qwen2 在评估基本措辞能力和指令调优功能方面超越了竞争模型。
详细来说，我们的指令调优变体 Qwen2-72B-Instruct 在 MT-Bench（Zheng et al., 2023）上得分 9.1，在 Arena-Hard（Chiang et al., 2024）上得分 48.1，在 LiveCodeBench（Jain et al., 2024）上得分 35.7。
同时，根本措辞模型 Qwen2-72B 在 MMLU（Hendrycks et al., 2021a）上得分 84.2，在 GPQA（Rein et al., 2023）上得分 37.9，在 HumanEval（Chen et al., 2021）上得分 64.6，在 GSM8K（Cobbe et al., 2021）上得分 89.5，在 BBH（Suzgun et al., 2023）上得分 82.4。

2 词元化器与模型

本节先容 Qwen2 的词元化器和模型设计。
我们详细解释了不同模型大小的模型架构和配置。

2.1 词元化器

遵照 Qwen（Bai et al., 2023a），我们采取了基于字节级字节对编码的相同词元化器。
值得把稳的是，该词元化器展示了高编码效率，其相对付替代方案的更好压缩率证明了其对 Qwen2 的多措辞能力。

所有大小的模型都采取一个包含 151,643 个常规词元和 3 个掌握词元的通用词汇表。
有关更多信息，请参阅 Bai et al. (2023a)。
须要把稳的是，由于分布式演习的考虑，嵌入的有效大小更大。

2.2 模型架构

Qwen2 系列基本上由基于 Transformer 架构的大型措辞模型组成，具有因果掩码的自把稳力（Vaswani et al., 2017）。
详细来说，该系列包括 4 个规模的密集措辞模型和专家稠浊（MoE）模型。
我们在深入磋商 MoE 模型的独特属性之前，先先容密集模型的细节。

2.2.1 QWEN2 密集模型

Qwen2 密集模型的架构由多个 Transformer 层组成，每层都配备了因果把稳机制和前馈神经网络（FFN）。
与 Qwen 的关键差异如下：

分组查询把稳力：我们采取了分组查询把稳力（GQA, Ainslie et al., 2023）而不是传统的多头把稳力（MHA）。
GQA 在推理期间优化了 KV 缓存的利用，显著提高了吞吐量。
不同模型大小的详细 KV 头配置在第 2.2.3 节中报告。
带有 YARN 的双块把稳力：为了扩大 Qwen2 的高下文窗口，我们实现了双块把稳力（DCA, An et al., 2024），它将长序列分割成可管理的长度块。
如果输入可以在一个块中处理，DCA 会产生与原始把稳力相同的结果。
否则，DCA 有助于在块内和跨块之间有效地捕获 token 之间的相对位置信息，从而提高长高下文性能。
此外，我们还采取了 YARN（Peng et al., 2023）来重新调度把稳力权重，以实现更好的长度外推。

此外，我们沿用了 Qwen 的 SwiGLU（Dauphin et al., 2017）用于激活，旋转位置嵌入（RoPE, Su et al., 2024）用于位置嵌入，QKV 偏置（Su, 2023）用于把稳力，RMSNorm（Jiang et al., 2023b）和预归一化用于演习稳定性。

2.2.2 QWEN2 专家稠浊模型

Qwen2 MoE 模型的架构与 Qwen1.5-MoE-A2.7B（Qwen Team, 2024c）非常相似。
作为原始 FFN 的替代，MoE FFN 由 n 个单独的 FFN 组成，每个 FFN 充当一个专家。
每个 token 根据由门控网络 G 分配的概率被勾引到特定的专家 Ei 进行打算：

接下来，我们先容 Qwen2 MoE 的关键设计考虑。

专家粒度：MoE 模型与密集模型的关键构造差异在于 MoE 层包含多个 FFN，每个 FFN 充当一个独立专家。
因此，从密集架构过渡到 MoE 架构的一个直接策略是将每个专家的参数设置为原始密集模型中单个 FFN 的参数。
例如，从 Mistral-7B（Jiang et al., 2023a）过渡到 Mixtral 8x7B（Jiang et al., 2024），涉及同时激活八个专家中的两个。
不同地，我们的模型采取细粒度专家（Dai et al., 2024），创建更小规模的专家同时激活更多的专家。
在总专家参数和激活参数相等的情形下，细粒度专家供应了更丰富的专家组合。
通过利用这些细粒度专家，Qwen2 MoE 促进了更多样化和动态的专家利用，从而提高了整体性能温柔应性。
专家路由：专家路由机制的设计对付提高 MoE 模型的性能至关主要。
最近，将共享专家和特定路由专家整合到 MoE 层内的趋势日益明显（Rajbhandari et al., 2022; Dai et al., 2024）。
我们采取了这种方法，由于它既促进了共享专家在各种任务中的运用，又保留了其他专家在特定路由场景中的选择性利用。
引入共享和专门的专家为开拓 MoE 路由机制供应了一种更适应性和有效的方法。

表 1: Qwen2 密集和 MoE 模型的架构。
对付 MoE 模型，57B-A14B 表示模型统共有 570 亿参数，每个 token 激活 140 亿参数，中间大小表示每个专家的大小，# 激活专家不包括共享专家。

2.2.3 模型配置

接下来，我们供应了 Qwen2 系列的关键配置和信息。

Qwen2 系列由 5 种大小的模型组成，分别是 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。
表 1 列出了超参数和主要信息，例如预演习 token 的数量。
特殊是，Qwen2-57B-A14B 是从 Qwen2-7B 扩展而来。
值得把稳的是，与 Qwen1.5 模型比较，Qwen2 模型展示了每个 token 的显著降落的键值（KV）大小。
这一特性转化为长高下文推理任务中的内存占用减少。

3 预演习

在 Qwen2 的预演习中，我们专注于完善数据集并研究有效处理扩展高下文长度的方法。

3.1 预演习数据

Qwen2 模型的预演习涉及开拓一个新的、大规模、高质量的多措辞数据集。
该数据集在多个关键领域改进了以前 Qwen 和 Qwen1.5 模型（Bai et al., 2023a; Qwen Team, 2024a）利用的语料库，增强了预演习数据的规模、质量和多样性：

质量提升：过滤算法通过额外的启示式和基于模型的方法进行了改进，包括利用 Qwen 模型过滤出低质量数据。
此外，这些模型被用来合成高质量的预演习数据。
数据扩展：与 Qwen1.5（Qwen Team, 2024a）比较，我们网络了更大量的高质量代码、数学和多措辞数据，增强了模型在这些领域的能力。
这个新数据集支持约 30 种措辞，如英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语。
分布改进：为了确保模型学习到类似于人类学习的分布，我们在缩小规模的模型上进行实验，以优化来自各种来源和领域的数据的稠浊。

基于这些增强，预演习数据从 Qwen1.5 的 3 万亿 token 扩展到 7 万亿 token。
考试测验进一步放宽质量阈值导致了 12 万亿 token 数据集的创建。
然而，在这个数据集上演习的模型并没有显示出比 7 万亿 token 模型显著的性能提升。
疑惑增加数据量并不一定有益于模型预演习。
考虑到演习本钱，我们选择利用更高质量的 7 万亿 token 数据集来演习更大的模型，将进一步的探索留给未来的模型迭代。

所有 Qwen2 密集模型（不包括 Qwen2-0.5B）都是在超过 7 万亿 token 的大规模数据集上预演习的。
Qwen2-0.5B 是利用 12 万亿 token 数据集预演习的。
MoE 模型接管了额外的 4.5 万亿 token 预演习，符合升级再利用的原则。
与以前的 Qwen 模型类似，高质量的多任务指令数据被整合到 Qwen2 预演习过程中，以增强高下文学习和指令遵照能力。

3.2 长高下文演习

为了增强 Qwen2 的长高下文能力，我们在预演习的末了阶段将高下文长度从 4,096 个 token 增加到 32,768 个 token。
这一扩展通过引入大量高质量的长数据来补充。
结合这些增强，我们将 RoPE 的根本频率从 10,000 调度到 1,000,000，以优化长高下文场景中的表现（Xiong et al., 2023）。

为了充分利用模型的长度外推潜力，我们采取了 YARN 机制（Peng et al., 2023）和双块把稳力机制（An et al., 2024）。
这些策略使模型能够处理长达 131,072 个 token 的序列，同时保持高性能，初步实验中险些没有困惑度低落。

4 后演习

在广泛的大规模预演习之后，我们对 Qwen2 进行后演习。
这一过程对付增强其在包括编码、数学、逻辑推理、指令遵照和多措辞理解在内的广泛领域的闇练程度至关主要。
此外，它确保模型的天生与人类代价不雅观相同等，使其有帮助、老实且无害。
与依赖大量人类监督的传统方法不同，我们的方法侧重于可扩展的对齐，最小化人类注释（Cao et al., 2024）。
详细来说，我们研究了获取高质量演示和偏好数据的方法，用于监督微调（SFT）和从人类反馈中学习强化学习（RLHF），旨在最小化人类标记的需求，同时最大化数据的质量和可靠性。

4.1 后演习数据

后演习数据紧张由两个组成部分：演示数据 D = {(xi, yi)} 和偏好数据 P = {(xi, y+ i , y− i )}，个中 xi 表示指令，yi 表示满意的相应，y+ i 和 y− i 是 xi 的两个相应，y+ i 是比 y− i 更受偏好的选择。
凑集 D 用于 SFT，而 P 用于 RLHF。

构建演习数据涉及一个两步过程：协作数据注释和自动化数据合成。
首先，我们从大规模指令语料库中提取数据本体，导致得到广泛和多样化的高质量指令。
这些指令通过系统增强以纳入更大的繁芜性。
通过人工注释，我们得到目标相应 yi 及其正面和负面对应物（y+ i , y− i ）。
随后，采取各种自动化对齐策略来合成大量人工注释的数据，涵盖代码、数学、指令遵照、创作、角色扮演和安全等领域。

4.1.1 协作数据注释

自动本体提取：该过程首先运用 InsTag（Lu et al., 2024c），一个开放集细粒度标记器，从大规模指令数据集中提取底层本体。
随后的手动细化确保了提取本体的准确性。
指令选择：每个带有标签的指令都根据标签多样性、语义丰富性、繁芜性和意图完全性进行评估。
基于这些标准，我们选择了一组代表性指令（Dong et al., 2023）。
指令演化：为了丰富指令数据集，采取了自我演化策略（Zhao et al., 2024），匆匆使 Qwen 模型向现有指令添加约束或哀求，从而增加它们的繁芜性，并确保数据集中不同难度级别的多样性。
人工注释：利用不同的天生策略和不同规模的 Qwen 模型得到指令的多种相应。
注释者根据他们的偏好对这些相应进行排名，确保最佳相应知足既定标准，产生演示和偏好数据。

4.1.2 自动化数据合成

在大规模上掩护对指令相应的注释质量面临重大寻衅，特殊是那些须要专业知识、履历、细心或耐心的任务。
为理解决这些寻衅，我们设计了各种自动化对齐策略来大规模合成数据。

谢绝采样：对付数学或类似具有明确终极答案的任务，运用谢绝采样（Yuan et al., 2023）来提高办理方案的质量。
大型措辞模型（LLMs）被哀求为每个指令天生多个相应，即推理路径。
那些得出准确结论并被模型认为是合理的路径被保留，作为演示数据。
偏好数据通过比拟精确和缺点的路径天生。
实行反馈：对付编码任务，LLMs 被用来天生办理方案和干系的测试用例。
通过编译和实行这些办理方案来评估其有效性，从而创建演示和偏好数据。
这种方法也适用于评估指令遵照（Dong et al., 2024）。
对付每个带有约束的指令，例如长度限定，LLM 被哀求天生一个 Python 验证函数，以确保相应符合指令哀求。
数据再利用：在文学写作任务中创建闇练的相应对付没有专门培训的注释者来说是一个寻衅。
为理解决这个问题，我们从公共领域聚合高质量的文学作品，并利用 LLMs 开拓具有不同详细程度的指令。
这些指令与原始作品配对，作为演示数据。
例如，为了编译具有生动有趣相应的角色扮演数据，我们从像维基百科这样的知识库中获取详细的人物档案，并指示 LLMs 天生相应的指令和相应（Lu et al., 2024b）。
这个过程类似于阅读理解任务，确保了人物档案的完全性。
宪法反馈：宪法 AI 指的是勾引 LLMs 根据预定义的原则集天生相应的过程（Bai et al., 2022）。
为了确保遵守如安全和代价不雅观等辅导方针，体例了一个宪法数据集。
该数据集概述了要遵照的原则和要避免的原则。
它被用来辅导 LLMs 生产符合或偏离这些辅导方针的相应，作为演示和偏好数据的参考。

4.2 监督微调

我们搜集了一个广泛的指令数据集，包含超过 500,000 个示例，涵盖指令遵照、编码、数学、逻辑推理、角色扮演、多措辞和安全等技能。
我们的模型在 32,768 个 token 的序列长度上进行了两个周期的微调。
为了优化学习，学习率从 7 × 10^-6 逐渐降落到 7 × 10^-7。
为理解决过拟合问题，我们运用了 0.1 的权重衰减，并将梯度限定在最大值为 1.0。

4.3 从人类反馈中学习强化学习

我们的 RLHF 演习制度包括两个连续的阶段：离线和在线演习。
在离线演习阶段，我们利用预先编译的偏好数据集 P，通过直接偏好优化（DPO, Rafailov et al., 2023）最大化 y+ i 和 y− i 之间的似然差异。
在在线演习阶段，模型利用即时反馈的褒奖模型迭代地改进其性能。
详细来说，我们从当前策略模型中采样多个相应，褒奖模型选择最受欢迎和最不受欢迎的相应，形成用于每个情节 DPO 的偏好对。
此外，我们采取了在线合并优化器（Lu et al., 2024a）来减轻对齐税，即与人类偏好对齐模型天生时的性能低落。

5 评估

为了全面评估 Qwen2 模型，包括根本和指令调优模型，我们履行了一个综合评估协议。
该协议检讨了一系列能力，包括一样平常知识理解、措辞理解、天生、编码、数学、推理和其他专业领域。
详细来说，根本模型通过少量提示的基准数据集评估，除非另有解释。
对付指令调优模型，除了基准评估外，我们还优先考虑人类偏好评估。

5.1 根本措辞模型

本节先容了 Qwen2 系列根本措辞模型的评估。
详细来说，我们在知识基准数据集上评估模型，并通过少量提示的基本能力，并运用多措辞基准数据集来评估它们对措辞的支持。
由于有多个模型大小，我们将它们与类似或更大大小的 SOTA 模型进行比较。

5.1.1 核心能力

基准测试和评估协议评估根本措辞模型的核心能力常日通过履行基准数据集评估，并通过少量或零提示提示进行。
评估紧张关注模型在自然措辞理解、一样平常问题回答、编码、数学、科学知识、推理等方面的表现。
评估数据集包括 MMLU（Hendrycks et al., 2021a）（5-shot）、MMLU-Pro（Wang et al., 2024）（5-shot）、GPQA（Rein et al., 2023）（5-shot）、Theorem QA（Chen et al., 2023a）（5-shot）、BBH（Suzgun et al., 2023）（3-shot）、HellaSwag（Zellers et al., 2019）（10-shot）、Winogrande（Sakaguchi et al., 2021）（5-shot）、TruthfulQA（Lin et al., 2022a）（0-shot）、ARC-C（Clark et al., 2018）（25-shot）、HumanEval（Chen et al., 2021）（0-shot）、MBPP（Austin et al., 2021）（0-shot）、EvalPlus（Liu et al., 2023a）（0-shot）、MultiPL-E（Cassano et al., 2023）（在 Python、C++、Java、PHP、TypeScript、C#、Bash 和 JavaScript 上的 0-shot）、GSM8K（Cobbe et al., 2021）（5-shot）、MATH（Hendrycks et al., 2021b）（4-shot）、C-Eval（Huang et al., 2023）（5-shot）和 CMMLU（Li et al., 2023）（5-shot）。
多措辞数据集可以分为四类：(a) 考试：M3Exam（5-shot，我们只选择不须要图像的示例）、IndoMMLU（Koto et al., 2023）（3-shot）、ruMMLU（Fenogenova et al., 2024）（5-shot）和翻译的 MMLU（Chen et al., 2023b）（在阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、日语和韩语上的 5-shot）；(b) 理解：BELEBELE（Bandarkar et al., 2023）（5-shot）、XCOPA（Ponti et al., 2020）（5-shot）、XWinograd（Muennighoff et al., 2023）（5-shot）、XStoryCloze（Lin et al., 2022b）（0-shot）和 PAWS-X（Yang et al., 2019）（5-shot）；(c) 翻译：Flores-101（Goyal et al., 2022）（5-shot）。

表 2：70B+ 模型的性能。
我们将 Qwen2-72B 与基线模型进行比较，包括 Mixtral-8x22B、Llama-3-70B、Qwen1.5-72B 和 Qwen1.5-110B。
在大多数数据集上，Qwen2-72B 显示出比基线模型的上风。

表 3：30B+ 密集模型和 40B+ MoE 模型的性能。
Qwen2-57B-A14B，一个总参数为 570 亿，激活参数为 140 亿的 MoE 模型，旨在匹配 300 亿参数密集模型的性能。
此比较包括密集模型基线：Yi-1.5-34B 和 Qwen1.5-32B，以及 MoE 基线：Mixtral-8x7B 和 Jamba。
结果表明 Qwen2-57B-A14B 总体上取得了有竞争力的性能，特殊是在编码和数学任务中表现突出。

表 4：7B+ 模型的性能。
我们将 Qwen2-7B 与之前发布的 7B+ 模型进行比较，包括 Mixtral-7B、Gemma-7B、Llama-3-8B 和我们的前身 Qwen1.5-7B。
Qwen2-7B 在大多数评估数据集上显示出比基线模型的显著上风。

结果可以在表 4 中找到。
Qwen2-7B 在大多数数据集上表现出色，特殊是在编码任务、数学和中文措辞任务中。
它还在多措辞理解和考试中表现出强大的性能。
这表明 Qwen2-7B 已经优化，能够处理广泛的措辞和基于逻辑的任务，展示了其多功能性和前辈能力。

表 5：较小模型的性能。
我们将 Qwen2-0.5B 和 Qwen2-1.5B 与之前的 SOTA 小型模型进行比较，包括 Phi-2、Gemma-2B 和 Qwen1.5-1.8B。
Qwen2-0.5B 以更小的模型大小实现了竞争性性能，而 Qwen2-1.5B 显著优于 Qwen2-0.5B。

5.2 指令调优模型

为了严格评估指令调优模型，我们履行了一个多方面的方法。
利用开放数据集和基准测试对根本技能和人类偏好进行评估。
我们详细的内部考试进一步探究了模型在关键领域的能力。
特殊关注评估长高下文能力。
安全方法包括多措辞安全评估和红队练习。
以下各节详细先容了评估方法及其结果。

5.2.1 开放基准评估

为了全面评估指令调优模型的质量，我们体例了自动和人类评估，以评估能力和人类偏好。
对付根本能力的评估，我们运用了与预演习模型评估中类似的数据集，这些数据集针对自然措辞理解、编码、数学和推理。
详细来说，我们评估了 MMLU、MMLU-Pro、GPQA 和 Theorem QA 用于措辞理解和知识，HumanEval、MBPP、MultiPL-E 和 LiveCodeBench v1（Jain et al., 2024）用于编码，GSM8K 和 MATH 用于数学。
此外，我们通过评估基准测试，包括 MT-Bench（Zheng et al., 2023）、Arena-Hard（Li et al., 2024）、AlignBench（Liu et al., 2023b）、MixEval（Ni et al., 2024）其结果近似于 Chatbot Arena，以及 IFEval（Zhou et al., 2023）4 用于指令遵照，来评估人类偏好对齐和指令遵照的表现。

Qwen2-72B-Instruct 我们将 Qwen2-72B-Instruct 与包括 Mixtral-8x22B-Instruct、Llama-3-70B-Instruct 以及 Qwen1.5-72B-Chat 在内的指令调优模型进行比较。
结果显示在表 6 中。
可以创造，强大的根本措辞模型可以帮助提升指令调优模型的下贱性能。
详细来说，Qwen2-72B-Instruct 在措辞理解、编码和数学等领域超越了其同行，除了 GPQA 和 MBPP。
关于人类偏好对齐和指令遵照，Qwen2-72B 比基线模型有显著上风。
我们认为这一造诣是归因于高质量的预演习模型以及后演习数据和演习技能的改进。

表 6：70B+ 指令调优模型的性能。
我们将 Qwen2-72B-Instruct 与 Mixtral-8x22B-Instruct、Llama-3-70B-Instruct、Qwen1.5-72B-Chat 和 Qwen1.5-110B-Chat 进行比较。
“-Instruct” 或 “-Chat” 在表中省略。
Qwen2-72B-Instruct 在核心能力上展示上风，并在人类偏好对齐上表现卓越。

Qwen2-57B-A14B-Instruct 对付中等大小的模型，我们将 Qwen2-57B-A14B-Instruct 与 Mixtral-8x7B-Instruct 另一个 MoE 基线，以及超过 300 亿参数的密集 SOTA 模型，例如 Yi-1.5-34B-Chat 和 Qwen1.5-32B-Chat 进行比较。
结果供应在表 7 中。
与 Qwen1.5-32B-Chat 比较，Qwen2-57B-A14B-Instruct 在险些所有基准测试中都达到了优胜的性能，并且与 300 亿 SOTA 模型 Yi-1.5-34B-Chat 比较，Qwen2-57BA14B-Instruct 在大多数评估中都得到了上风，除了数学评估。
在对齐评估方面，Qwen2-57B-A14B-Instruct 的上风尤为明显。

Qwen2-7B-Instruct 在 7B 到 9B 模型的范围内，我们将 Qwen2-7B-Instruct 与 Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat 和 Qwen1.5-7B-Chat 进行比较。
结果可以在表 8 中找到。
Qwen2-7B-Instruct 与其前身 Qwen1.5-7B-Chat 比较，在全面评估中表现出显著的进步，特殊是在编码和数学干系任务中取得了更高的分数。
与最近的 SOTA 模型 Llama-38B-Instruct 比较，Qwen2-7B-Instruct 展示了竞争力的表现，特殊是在编码方面表现优胜。
然而，在指令遵照方面，Qwen2-7B-Instruct 大大掉队于竞争对手。
为理解决这个限定，我们操持通过提高后演习数据的质量来增强 7B 模型的指令遵照能力，确保更强大的理解和实行繁芜命令的能力。

Qwen2-1.5B-Instruct & Qwen2-0.5B-Instruct 在较小模型的背景下，我们将 Qwen2-0.5B-Instruct 与 Qwen1.5-0.5B-Chat 进行比较，并将 Qwen2-1.5B-Instruct 与 Qwen1.5-1.8B-Chat 进行比较。
值得把稳的是，某些为较大模型设计的基准数据集的繁芜性超出了这些较小模型的能力；因此，我们的剖析集中在选定的子集上。
如表 9 所示，Qwen2 模型在核心能力和指令遵照任务中明显优于其前身。
这一造诣紧张归因于预演习数据的扩展。
因此，我们的结果证明，数据扩展仍旧是提高模型性能的有效策略，纵然是在十亿参数以下的模型领域。

表 7：30B+ 密集和 40B+ MoE 指令调优模型的性能。
我们将 Qwen2-57B-A14B-Instruct 与类似大小的 MoE 模型 Mixtral-8x7B-Instruct、30B 密集模型如 Yi-1.5-34B-Chat 和 Qwen1.5-32B-Chat 进行比较。
“-Instruct” 或 “-Chat” 在表中省略。
Qwen2-57B-A14B-Instruct 与最近的 SOTA 30B 密集模型竞争力相称，并且显著优于 MoE 基线。

5.2.2 内部自动评估

只管有许多开放基准数据集用于评估，但我们认为这还远远不敷以完备理解 LLMs 的能力。
详细来说，我们制作了一系列内部数据集，评估模型的不同能力，例如知识理解、文本天生、编码等。
评估是中文和英文的。
结果分别网络在表 10 和表 11 中。

中文评估对付中文评估，我们专注于比较 Qwen2 模型与 Qwen1.5 对应模型的性能。
对付小型模型，Qwen2-1.5B-Instruct 纵然参数更少，也险些在所有评估中都优于 Qwen1.5-1.8B-Chat。
在比较 7B 模型时，Qwen2 的上风更加明显。
值得把稳的是，只管 Qwen1.5-110B-Chat 参数更多，但 Qwen2-72B 的性能更优胜。
MoE 模型在大多数领域相对付 Qwen1.5-32B-Chat 表现更好，除了知识理解。
这种差异可能归因于预演习 token 的不敷。
在不久的将来，我们将连续对 MoE 模型进行预演习，以创造其扩展行为。

英文评估对付英文，我们将 Qwen2 与 Qwen1.5 和 Llama-3 进行比较。
同样，Qwen2 的小型模型在显著优于 Qwen1.5 对应模型。
然而，与 Llama-3-70B 比较，Qwen2-72B-Instruct 在理解和编码方面略有掉队。
我们认为预演习的英文 token 数量以及后演习数据的数量和多样性导致了英文方面的性能差距。

表 8：7B+ 指令调优模型的性能。
我们将 Qwen2-7B-Instruct 与最近的 SOTA 模型进行比较，这些模型具有 7-9 亿参数，包括 Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat 和 Qwen1.5-7B-Chat。
“-Instruct” 或 “-Chat” 在表中省略。
Qwen2-7B-Instruct 与 Llama-3-8B-Instruct 表现竞争力。

表 9：较小指令调优模型的性能。
我们将 Qwen2-0.5B-Instruct 和 Qwen2-1.5B-Instruct 与 Qwen1.5-0.5B-Chat 和 Qwen2-1.8B-Chat 进行比较。
“-Instruct” 或 “-Chat” 在表中省略。
与类似大小的基线比较，Qwen2 的性能显著优于 Qwen1.5。

5.2.3 长高下文能力

我们采取了三种方法来评估长高下文能力：Needle in a Haystack (NIAH, Kamradt, 2023)、NeedleBench（OpenCompass Contributors, 2023）和 LV-Eval（Yuan et al., 2024）。

Needle in a Haystack 这个实验评估模型在大量文本中定位事实的能力。
制作了长度为 8K、16K、...、128K token 的文本，并将事实策略性地放置在不同的深度。
每个深度间隔，例如从 0% 到 10%，包含两个实例。
对付超过 32K 的高下文，在此评估中运用了 YARN（Peng et al., 2023）。
如图 1 所示，Qwen2-72B-Instruct 在检索全体 128K 高下文中的信息时表现出非常的准确性。
结合其固有的上风，该模型成为处理大量文本的最佳选择，假设有足够的资源可用。
此外，同一系列中的模型在不同高下文长度下也表现出显著的性能。
详细来说，Qwen2-7B-Instruct 在处理长达 128K token 的高下文时达到了高水平的准确性。
同时，Qwen2-57B-A14B-Instruct 能够有效地处理长达 64K token 的高下文，而 Qwen2 系列中的两个较小模型可以支持长达 32K token 的高下文。

表 10：Qwen2-Instruct 模型在我们内部中文自动评估基准上的表现。
Qwen2 模型的得分超过其可频年夜小的 Qwen1.5 对应模型的用粗体显示。
Qwen2-57B-A14B-Instruct 与 Qwen1.5-32B-Chat 进行比较。

表 11：Qwen2-Instruct 模型在我们内部英文自动评估基准上的表现。
Qwen2 模型的得分超过其可频年夜小的 Qwen1.5 和 Llama-3 对应模型的用粗体显示。
Qwen2-57B-A14B-Instruct 与 Qwen1.5-32B-Chat 进行比较。

图 1：Qwen2 指令调优模型在 Needle in A Haystack 测试中的表现。
所有支持超过 32k 个 token 高下文的模型都集成了 YARN 机制。

表 12：Qwen2-72B-Instruct 和 Qwen2-7B-Instruct 在 NeedleBench 和 LV-Eval 中的表现。
+YARN+DCA 在 32k 个 token 内不会改变模型行为。

表 13：Qwen2-72B-Instruct 与专有 LLMs 在多措辞人类评估中的表现。
我们将 Qwen2-72B-Instruct 与 GPT-3.5-Turbo-1106、GPT-4-Turbo-0409、GPT4o-0513、Claude-3-Opus-0229 进行比较。
分数范围从 1 到 5。
总体而言，Qwen2-72B-Instruct 显著优于 GPT-3.5-Turbo，但与最近六个月发布的专有模型比较还有进步空间。

NeedleBench NeedleBench 通过在段落中包含多个事实（两个到五个）来增加 NIAH 的寻衅，须要同时识别和多跳推理。
表 12 显示，集成 YARN 和 DCA（An et al., 2024）显著提高了 Qwen2 模型的长高下文能力。
Qwen2-7B-Instruct 超过了 ChatGLM4-9B-1M（Zeng et al., 2024），后者声称具有 1M 高下文长度。
此外，Qwen2-72B-Instruct 表现出色，与 ChatGLM4-9B-1M 比较，其准确性仅低落了 6 个百分点，而后者的低落更为明显，低落了 11 个百分点，特殊是考虑到其初始准确性较低。

LV-Eval LV-Eval 包括 11 个不同的 QA 数据集，哀求同时理解多个证据片段。
为了纠正原始指标过于严格并导致高误报率的问题，我们采取关键词召回作为报告的分数。
如表 12 所示，集成 YARN 和 DCA 大大加强了 Qwen2 模型在 LV-Eval 上的长高下文能力。
Qwen2-7B-Instruct 达到了与 ChatGLM4-9B-1M 相称的水平，只管在更长的高下文中有更明显的低落。
此外，Qwen2-72B-Instruct 在所有长度上都表现出色，证明了其处理长高下文任务的能力。

5.2.4 多措辞评估

对付多措辞评估，我们履行了全面的人类评估，以评估大型措辞模型的多措辞能力。
详细来说，我们设计了不同的测试案例，评估大型措辞模型的不同能力，并且我们有多种措辞的测试案例。
对付注释者，我们约请了每种措辞的专业注释者，他们主修该措辞进行评估。
对付每个测试案例，注释者根据模型的相应给出 1 到 5 分的评分。

我们报告了我们的模型和基线在不同措辞评估中的结果。
从表 13 中可以创造，均匀而言，Qwen2-72B-Instruct 显著优于 GPT-3.5Turbo，并且与 GPT-4-Turbo 竞争力相称，略逊于 Claude-3-Opus。
这表明我们的多措辞预演习和指令调优数据有助于 Qwen2-72B-Instruct 的多措辞能力，并且它与大多数最前辈的专有大型措辞模型竞争力相称。

5.2.5 安全与任务

具有公开可访问权重的大型措辞模型有效地加速了研究及其运用的发展。
此外，我们认为构建安全和负任务的大型措辞模型至关主要，以便显著减轻人工智能技能滥用的影响。

我们履行了多措辞安全评估，测试了不同措辞中的 LLMs。
详细来说，我们评估了模型在关于造孽行为、敲诈、色情内容和隐私等主题方面的安全性能。
我们网络了方向于越狱的提示，并用它们测试模型是否能够通过谢绝供应安全相应。

结果如表 14 所示，显示了模型天生的有害相应的比例，越低越好。
可以不雅观察到 Qwen2-72B-Instruct 比专有模型 GPT-4 表现更好，并且显著优于开放权重模型 Mixtral-8x22B-Instruct。
然而，我们认为我们的模型在成为更安全、更负任务的模型方面仍有改进空间，尤其是在色情内容方面，这是一个传统上难以区分的种别，纵然对人类也是如此。

表 14：模型在安全评估中的表现。
我们将 Qwen2-72B-Instruct 与 GPT-4 和 Mixtral-8x22B-Instruct 进行比较。
越低越好。

6 结论

本技能报告先容了 Qwen2 系列，这是一套多功能的根本和指令调优措辞模型，参数范围从 0.5 到 72 亿，包括密集和专家稠浊架构的模型。
Qwen2 超越了以前的开放权重模型，特殊是其前身 Qwen1.5，并在措辞理解、天生、多措辞能力、编码、数学和推理等多个基准测试中展现出与专有模型相媲美的性能。
在这次更新中，我们特殊关注长高下文、多措辞、编码、数学能力和安全与任务。
为了促进社区内的创新和可访问性，我们已经公开供应了 Qwen2 模型权重，使研究职员和开拓职员能够充分利用 Qwen2 在各种运用和研究项目中的全部潜力。
通过这些努力，我们旨在为人工智能技能的进步及其对社会的积极影响做出贡献。

作者：张长旺，图源：旺知识

参考资料

标题：Qwen2 技能报告作者：An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jianxin Yang, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Xuejing Liu, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhifang Guo, Zhihao Fan单位：Qwen Team, Alibaba Group标签：人工智能、大型措辞模型、多模态模型、Transformer、自把稳力机制、稠浊专家模型、多措辞能力、编码、数学、推理、安全性内容概要：Qwen2 技能报告先容了阿里巴巴集团 Qwen 团队开拓的新一代大型措辞模型和多模态模型，展示了其在多个领域的卓越性能和技能创新。
链接：https://arxiv.org/abs/2407.10671