此外,论文创造许多评估基准,包括GLUE和SuperGLUE中的几个,如WSC、WIC和RTE,由于涌如今如RedPajama等语料库中,而受到污染。除了剖析之外,WIMBD还供应了一个可扩展的平台,用于在其他语料库上复现论文的剖析、开拓新的剖析方法,并回答有关数据的研究问题。论文发布了所有WIMBD的代码和工具,以鼓励研究职员采取和扩展论文的框架,并剖析现有和新的语料库。
二、论文的大略先容2.1 论文的背景数据是机器学习(ML)建立的根本。新数据集的引入推动了进步,在促进研究和创建具有新功能的模型方面发挥了至关主要的浸染。随着韶光的推移,AI实验的打算本钱急剧增加,部分缘故原由是在越来越大的数据集上演习越来越大的模型;如今,一些最具影响力的数据集是通过从全体可公开获取的互联网上搜刮文本而创建的。这些是有史以来建立的一些最大的文本数据集,它们常日只有关于如何制作的描述,但没有内容文档。这是一个主要的差异,由于论文现在正在对海量文本语料库进行演习,而不知道它们包含哪些不雅观念、主题、有毒内容或个人信息。与此同时,措辞模型(LM)已经无处不在,并每天被天下各地的人利用。这些人工智能系统直接影响着人们的生活,因此理解它们的功能和毛病变得至关主要。
模型只能从被演习的数据中学习,但由于缺少公开拓布和海量数据的规模,对预演习语料库的剖析受到阻碍。剖析网络规模语料库内容的事情常日集中在一些主要维度上,而险些没有事情超过相同维度剖析多个数据集。这意味着ML从业者没有实用工具来描述数据集之间的差异,从而选择利用哪一个(些)。

论文建议利用WHAT'S IN MY BIG DATA?(WIMBD)来调查大型文本语料库的内容,这是一套工具,可以让从业者轻松探索和快速剖析大型措辞数据集。论文还利用这个工具供应了一些首批跨不同网络规模数据集的直接可比丈量结果。WIMBD有两个组成部分:
(1)一个搜索工具,可以通过Elasticsearch1(ES)索引以编程办法访问搜索包含查询的文档。ES是一个搜索引擎,许可从语料库中检索字符串、它们涌现的文档和涌现的次数。
(2)一个基于map-reduce(Dean和Ghemawat,2008)构建的计数功能,许可快速迭代全体数据集并提取干系信息,例如文档的字符长度分布、重复项、域名计数、查找个人身份信息(PII)等。
WIMBD是可扩展的,可用于大规模索引、计数和剖析其他语料库(论文在附录D中对运行韶光进行了基准测试)。
2.2 WIMBD平台WIMBD的一个核心目标是能够快速处理TB级别的数据。因此,论文专注于来自傲息检索和数据管理社区的大略、标准方法。WIMBD由两个基本组件组成:计数和搜索(检索)。快速计数和检索使论文能够回答关于数据的基本问题。论文在表1中总结了框架的能力和剖析类型。论文利用拥有224个CPU和882GB内存的打算节点机器以及用于索引语料库的Elasticsearch集群运行实验。
2.2.1 计数
由于措辞数据的稀疏性和所关注数据的规模,准确计数可能具有寻衅性。论文利用了map-reduce框架。论文供应了两种计数方法,如下所述。
精确计数:精确计数方法旨在应对可能值的数量可控且可以装入内存的情形。这适用于论文有兴趣打算有限数量感兴趣变量的情形。
压缩计数:压缩计数方法旨在应对可能值的数量无法计算的情形。例如,大型语料库中的总10-gram数量可能非常高,打算全部所需的内存利用量将是巨大的。同样,查找重复项须要在内存中保留和比较所有文档的字符串。对付C4来说,这将须要超过800GB的内存。相反,论文对这些值运用了压缩函数,降落了内存占用,但以捐躯一些精度为代价(由于哈希冲突)。例如,在找到最常见的10-gram时,论文存储了一个计数表,表中的键对应于10-gram的哈希值。哈希表的大小可根据可用内存量进行配置。哈希表越大,发生哈希冲突的概率就越小,因此计数的准确性就越高。例如,单字估计比10-gram估计更准确,由于可能值的数量要小得多。
2.2.2 搜索WIMBD的第二部分许可快速文本检索。例如,论文可以得到提及某个单词或序列的文档数量(文档频率)。它还许可进行更繁芜的布尔查询。虽然搜索和检索有许多实现,如反向索引、后缀数组、用于精确匹配搜索的后缀树和用于模糊搜索的密集检索,但在这项事情中,论文利用了ES倒排索引。论文在ES API之上构建了一个包装器,许可进行定制和自定义搜索以知足论文的剖析哀求。论文将探索其他搜索替代方案留给未来的事情。
2.3 WIMBD剖析2.3.1 语料库
论文涵盖了十种不同的大型语料库,超过纯文本(如C4)到图像字幕(LAION2B-en)和代码(The Stack)。这些语料库已被用于演习措辞模型(或类似的大规模模型,如稳定扩散)。利用WIMBD对这些数据集进行的高层次描述如表2所示。
2.3.2 数据统计紧张创造
在论文考虑的十个语料库中,有四个包含"空"文档(意味着它们只包含类似空格的字符),而The Pile和RedPajama包含同一本最长的百科全书文档(超过2800万个token)。虽然C4中最常见的网页来源是www.nytimes.com,但它仅占总网页的0.05%以下,mC4-en最常见的域名是google.com(超过5%的文档),而cdn.shopify.com则占LAION-2B-en总文档的近6%。2.3.2.1 择要统计论文首先打算一些择要统计数据,结果如表2所示。利用Exact Counts,论文打算语料库的以下高层次统计信息:(1)大小,(2)文档数,(3)token数,(4)最长文档的大小,和(5)最短文档的大小。在所有语料库中,mC4-en是最大的,占用14.7TB磁盘空间,27万亿个token。其次是The Stack,大小为7.8TB,超过1.5万亿个token。有趣的是,四个语料库包含空字符串文档:LAION-2B-en(共81个),常日包含一串空格。在The Stack(共1,350个)、RedPajama(3,877个)和The Pile(7,533个)中,文档常日包含表示空格的稠浊分外字符(例如'\n'或'\t')。在RedPajama中,所有空字符串都来自arXiv子集。The Stack中最长的文档是一个来自http://jquery.com/的json文件,有26,298,134个token。The Pile和RedPajama中最长的文档是同一本名为"INTERNATIONAL ENCYCLOPEDIA OF THE SOCIAL & BEHAVIORAL SCIENCES"的百科全书,来自Books3子集,有28,121,329个token。
2.3.2.2 互联网域名分布
一些语料库包含文档来源URL的元数据信息。因此,论文采取Exact Counts功能,解析全体语料库,并从URL中提取有关(1)模式(如http、https)、(2)域名(如www.google.com、en.wikipedia.org等)和(3)后缀(如com、org、de等)的信息。论文对包含此信息的语料库(即C4、mC4-en、OSCAR、RedPajama和LAION-2B-en)运用这些计数。
首先进行域名剖析,论文实行了两次计数:一次是按文档计数每个域名(得到每个域名的文档数),另一次是按token计数每个域名(得到每个域名的token数)。论文在图2中呈现了三个语料库的按token计数结果。首先,论文把稳到C4包含来自多个不同域名的文档,纵然最常见的一个patents.google.com的百分比也不到0.05%。另一方面,在LAION2B-en的情形下,cdn.shopify.com占文档的6%以上。同样,arxiv.org占RedPajama文档的12%以上。论文在附录B.1中展示了其他语料库的域名结果,以及模式和后缀。
2.3.3 数据质量紧张创造
最常见的n-gram常日对应于重复的标点符号和重复项。虽然The Pile中超过60%的文档是重复的(由于过采样而不足为奇),但RedPajama和LAION-2B-en也包含约50%的重复文档。文档长度分布揭示了有趣的(猜想之外的)文档非常值,常日源于重复文档和分外的数据决策。2.3.3.1 最常见和最不常见的n-gram丈量非常值可以揭示有关语料库的有趣见地。论文利用压缩计数探索了每个语料库中最常见和最不常见的token n-gram。论文打算了所有语料库中10000个最常见的n-gram,个中n∈{1、2、3、10}。论文在表3中报告了十个最常见的10-gram结果。表中用相同颜色突出显示了跨语料库的相同n-gram。
不同的语料库包含大量未清理的html或markdown格式(例如十个'?'或'amp'),或样板文本,如C4中的“. You can follow any responses to this entry through”,OSCAR中的“( Log Out / Change ) You are commenting using”,以及S2ORC和peS2o中表示引用的格式化((“[1][2][3][”)。
这一剖析的一个引人瞩目的创造是此类10-gram的大量重复。例如,在C4中,重复十次的'?'、'.'和'-'分别涌现了900万、720万和440万次。论文对C4中重复的问号进行了手动剖析,以更好地理解涌现连续十个问号符号的场景,并将每次涌现分类为写作、噪声和格式涌现。剖析100个随机文档后,论文创造68%的文档将此类n-gram用作其写作风格的一部分(例如... $6???????????? How is that possible?, or ... So what do u think?????????????????????????)。18%是由于噪声,论文无法理解写作的高下文或内容(例如... e ??????????????? kap chit-koa ??)。末了,14%的文档是由于不同的格式风格或问题(例如,一串问号后跟"正常"文本,或关键词之间的一串问号)。
2.3.3.2 重复项先前的事情创造,重复会影响预演习数据的质量,影响样本效率和影象。虽然最新的事情创造了关于较少网络抓取文本数据的抵牾证据,但丈量预演习数据中的重复是未来研究其影响所必需的。论文通过利用文本的MD5哈希值匹配文档(利用压缩计数)来打算重复项。如果超过一个文档具有相同的哈希值,论文就将它们视为重复项。论文检讨每个数据集中的文本和URL的重复情形。虽然一些数据集明确进行了重复数据删除,但另一些则没有,而有的乃至会过采样某些来源。
在图3中,论文显示了重复文档超过1%的数据集的重复计数和比率,所有数据集的情形都展示在附录的表13中。这些基于两种计数:(1)所有重复文本簇中文档的计数(用蓝色表示)和(2)重复文本簇的计数(用橙色表示)。如预期的那样,像C4这样进行重复数据删除的语料库没有完备相同的重复项(由于那些已从语料库中过滤掉)。比较之下,The Pile故意对某些数据源进行了过采样,因此有许多重复项(1.39亿文档属于6460万个重复文本簇)。LAION-2B-en拥有第二高的重复文档比率(12.5亿文档属于3.42亿个重复文本簇),可能是由于其图像"alt文本"来源中常见的短句子空间较小所致。附录中的图15展示了LAION-2B-en中最常见重复项的图像,最常见的图像紧张描述收据。
表4展示了四个语料库中涌现次数最多的重复项。这些重复项在长度和领域上存在显著差异。LAION-2B-en、OSCAR和RedPajama都有涌现次数最多的簇,达到几十万次及以上。LAION-2B-en的顶级重复项较短,描述产品和网站功能。OSCAR的顶级重复项全是网站的样板文件。RedPajama的顶级重复项来自相似的模板化引用信息。
2.3.3.3 文档长度分布论文利用Exact Counts打算文档长度分布。论文预期会有一个平滑的文档长度分布,偏离这种分布可能表明存在人工文档或近似重复文档。论文打算了字符长度分布,并在图4中呈现了三个语料库的结果(其他结果见附录B.2.3)。
只管C4不包含重复文档,但它包括了通过相同文档长度的非常值暴露出的模板天生的近似重复文档簇。除了用户界面的模板天生副本(例如,来自反向电话查询网站的模板天生文档,每个文档与一个唯一电话号码干系联)之外,论文还创造了模板天生JavaScript代码片段的簇,以及大量独特文档的凑集,包括相同关键词的许多排列,可能是为SEO目的而制作的。包含最长文档的The Pile有一个显著的非常值,近1%的文档长度精确为8194个字符。这些非常值来自DeepMind数学数据集,被截断以适应该长度。
The Pile还包含大量短的模板天生代码片段,例如,一些文档(长度为9、18和36个token)分别对应于各种医学期刊中的一个独特出版物,以及在Unity游戏引擎中利用的自动天生的元数据文件(长度为20个token)。虽然OSCAR过滤掉了长度小于100个字符的文档,但它包含许多近似重复文档,对应于网站的样板文件,例如关于如何利用论坛软件phpBB的模板天生的常见问题解答。
2.3.4 社区和社会干系丈量紧张创造
在各个语料库中(如C4和RedPajama)创造了盛行基准测试如GLUE和SuperGLUE的实例,这使它们无法用于公正的模型评估。利用自动分类器,创造1-16.5%的语料库文档包含有毒措辞;利用分类法,创造0.01-16.6%的文档包含有毒措辞。在每个token的最多PII污染语料库(mC4-en)中,估计有2亿个电子邮件地址、40亿个电话号码和9700万个IP地址。2.3.4.1 基准测试污染随着语料库的增长和新评估数据集的创建,污染的风险也在增加——即评估数据被包含在(预)演习语料库中。因此,跟踪污染是很主要的。利用搜索,论文对四个盛行语料库The Pile、C4、RedPajama和OSCAR进行了82个数据集的污染剖析。论文考虑了PromptSource中的所有数据集,这是一个包含279个不同数据集提示的资源库(截至2023年5月)。论文过滤掉无法自动下载的数据集,来自Huggingface数据集(Lhoest等人,2021年),以及没有测试分割的数据集。此外,论文只考虑至少包含两个输入的数据集(例如,自然措辞推理),留下82个数据集。
论文通过测试所有输入字段是否涌如今单个文档中来衡量污染,并报告测试集中受污染示例的百分比。论文的污染评估为精确匹配数据集污染供应了一个上限。论文在附录B.3.1中供应了剖析和设计选择的更多细节。
受污染的数据集:论文在图5中展示了却果,展示了在四个语料库中至少有一个语料库的污染百分比达到5%的所有基准测试。论文创造RedPajama是四个语料库中最受污染的,在15个语料库中有8个其污染率超过50%,在COPA的情形下则完备被污染。The Pile的污染率较低,但它也被一些数据集如aesic、WSC和WIC污染,这些数据集包含在SuperGLUE评估基准测试中。
大多数考虑的数据集都未在语料库中创造:须要把稳的是,虽然论文创造了一些污染,但大多数考虑的基准测试都未涌如今论文调查的语料库中(82个数据集中有67个)。例如,Winogrande(Sakaguchi等人,2021年),一个以维诺格拉模式风格编写的大型语料库,没有涌如今任何一个检讨过的语料库中。
2.3.4.2 个人身份信息(PII)PII是"可用于识别或追踪个人身份的信息,如姓名、社会安全号码、生物识别记录等"(Johnson III,2007)。近期研究试图从措辞模型中提取PII(Carlini等人,2021年)。这些攻击突出表明,措辞模型可以摄取并重现其演习数据中包含的PII,并展示了在包含此类信息的数据上进行演习的风险,纵然数据仍旧是私有的。
论文记录了预演习语料库中三种个人身份信息:电话号码、电子邮件地址和IP地址。论文利用Exact Counts并采取与每种PII类型对应的正则表达式。论文在附录B.3.2中供应了关于方法、正则表达式、其他结果和缺点剖析的更多详细信息。论文对所有语料库手动剖析,以估计这些方法的精确度。此剖析的结果以及这些匹配的外推频率如表5所示。论文的识别方法对付8个语料库中的电子邮件地址和5个语料库中的电话号码都具有高精度(>80%)。总的来说,大多数语料库都包含大量PII信息,但信息类型因语料库而异。例如,RedPajama紧张包含电话号码(7020万个)和少量IP地址(110万个),但S2ORC和peS2o紧张包含电子邮件地址(分别为63万个和41.8万个),并未识别到IP地址。跨语料库最常见的PII是电话号码,其次是电子邮件地址和IP地址(除了The Stack有更多IP地址(440万个)而非电子邮件地址(430万个),以及peS2o有更多电子邮件地址而非电话号码)。末了,论文不雅观察到mC4-en包含最多的PII,纵然掌握了token数量也是如此(附录表19)。
论文标题:WHAT’S IN MY BIG DATA?
论文链接:https://arxiv.org/pdf/2310.20707