新闻动态

yabo官网240万亿巨量数据被洗出足够训出18个GPT-4！全球23所机构联手清洗秘籍公开

时间：2024-06-24 15:44:53 作者：小编点击：次

　　www.yabo.com是时候把数据Scale Down了！Llama 3揭示了这个可怕的事实：数据量从2T增加到15T，就能大力出奇迹，所以要想要有GPT-3到GPT-4的提升，下一代模型至少还要150T的数据。好在，最近有团队从CommonCrawl里洗出了240T数据——现在数据已经不缺了，但你有卡吗？

　　清华博士秦禹嘉表示，Llama 3就揭示了一个严峻且悲观的现实：在不改变模型架构的情况下，将数据量从2万亿（2T）增加到15万亿（15T），就能大力出奇迹。

　　而考虑到Scalng Law的边际效应，如果我们希望在下一代模型身上看到从GPT-3到GPT-4级别的演进，就需要至少再清洗出至少10个数量级的数据（比如150T）。

　　显然，这给Scaling Law的支持者们带来了福音——数据是不缺的，然而，你有卡吗？

　　诚然，扩大数据规模非常重要，但如何缩减规模并提高每单位数据的质量，也同样关键。

　　（1）PbP使用小模型的困惑度来过滤数据，从而获得了可以显著提高大模型性能和收敛速度的数据；

　　（2）DeepSeek使用fastText清理高质量数据，在数学和代码场景中取得了出色的成果；

　　（3）DCLM进行了更详细的消融研究，发现与BGE嵌入、困惑度等相比，fastText表现最佳。

　　这些研究无一例外有着相似的发现：「干净数据+小模型」，可以极大地接近「脏数据+大模型」的效果。

　　从这个角度来看，增加模型规模，本质上就是让我们看到在脏数据上训练的模型能力的上限。

　　也即是说，大模型在训练过程中通过使用更多冗余参数自动完成了去噪过程，但如果提前进行数据去噪，实际上需要的模型参数量并不大。

　　同样可以得出结论，通过数据微调把大模型打磨得很好，并不意味着训练大模型效果就会更好。

　　原因在于：「干净数据+大模型」和「脏数据+大模型」的效果，不会有太大差异。

　　总而言之，在前Scaling Law时代，我们强调的是Scale Up，即在数据压缩后争取模型智能的上限；在后Scaling Law时代，需要比拼的则是Scale Down，即谁能训出更具「性价比」的模型。

　　最近，也有一些研究开始使用训好的模型来改写预训练数据。这个过程就需要注意，避免模型在改写过程中生成虚假信息，同时还要有效地去除数据中的固有噪声。

　　Phi-2/Phi-3的成功也验证了这一点：如果预训练级别的数据可以被机器处理，用小模型击败大模型是很容易的。

　　不过，目前的方法仍然专注于单个数据点的质量提升，但是在未来，更重要的研究方向就是如何对多个数据点进行语义级别的去重和合并。

　　为了应对训练数据各种挑战，研究人员引入了DataComp-LM（DCLM），是语言模型训练数据管理的「第一个基准」。

　　在DCLM中，他们提出了全新的训练集和数据管理算法，然后通过使用固定的方法，训练模型以评估数据集。

　　通过测量由此产生的模型在下游任务上的表现，研究人员可以量化相应训练集的优势和劣势。

　　接下来，为了实现DCLM，研究人员开发了一个全面的实验测试平台，包含了多个重要的组件。

　　这是从未经过滤的爬虫网站Common Crawl上，扒下来来足足有240T的数据集，涵盖了2023年之前所有的数据。

　　据介绍，获取如此庞大的数据，是通过resiliparse架构从HTML中重新提取文本，与Common Crawl原本预处理的方法并不相同。

　　此外，在训练AI语言模型时，有时候用来测试模型的数据会不小心混入训练数据中。这就像LLM在考试前偷看了试卷，这可能会导致测试结果不准确。

　　为了让人们更好地理解这一问题，研究人员并没有去清理数据，而是发布了「去数据污染」的工具。

　　这一工具，可以让参与者检查自己的测试集和训练集，是否有重叠的情况，并提交相关的报告。

　　同样，论文的研究人员也将这一工具，应用在了DCLM-POOL，以评估数据污染是否影响模型。

　　为了确保DCLM对拥有不同计算资源的研究人员能够访问，并推动对Scaling Law趋势的研究，研究人员创建了跨越三个数量级计算规模的不同竞赛级别（表1）。

　　每个级别训练token数量=20×参数数量×Chinchilla乘数。其中，1x乘数对应的计算资源分配接近Hoffmann等人研究中发现的最优水平。

　　这样多种参数规模竞赛的设计，存在一个问题——当增加计算规模时，数据整理方法的排名可能会发生变化。

　　由此，研究人员比较了10种方法在不同参数规模（400M-1x、1B-1x和7B-1x）下的表现。

　　结果发现，小参数（400M-1x、1B-1x）和大参数（7B-1x）结果之间存在高度相关性。

　　1）在过滤赛道中，参与者提出算法从候选池中选择训练数据。有五个不同规模的数据池，对应（表1）不同的计算规模，这些池是DCLM-POOL的随机文档子集。研究人员根据参数规模限制初始池的大小，以模拟现实世界的约束。

　　2）在混合赛道中，允许参与者从多个来源自由组合数据，创造出最好的「配方」。比如，他们可以从DCLM-POOL、自定义爬取的数据、Stack Overflow和合成数据文档。

　　为了单独研究数据集干预的效果，研究人员还在每种参数规模上固定一个训练方案。

　　基于之前对模型架构和训练的消融实验，他们采用了一个仅有解码器的Transformer模型（例如，GPT-2，Llama），该模型在OpenLM中实现。

　　研究的完整评估套件基于LLM-Foundry，包含53个适合基础模型评估的下游任务（即无需微调）。

　　接下来，一起看看研究人员是如何使用DCLM构建高质量训练数据集，整个流程如下图4所示。

　　首先，研究人员对表2中几个著名的数据集进行了评价，发现RefinedWeb在7B-1x规模的核心和扩展指标上表现最好。

　　RefinedWeb采用了以下过滤管线：Common Crawl文本提取、启发式数据选择、重复数据内容删除。

　　为了理解这一步骤的影响，研究人员比较了三种文本提取方法：resiliparse、trafilatura（RefinedWeb使用）和Common Crawl提供的包含预先提取文本的WET文件。

　　这很重要，因为大多数开源数据集，包括C4、RedPajama和Dolma-V1，都使用WET提取，这可能部分解释了它们在表2中表现较差的原因。

　　而从训练集中删除这些重复项有着双重目的，既可以减轻LLM记忆来提高性能，又可以增加数据多样性。

　　为了去重，研究人员探索了算法MinHash（作为后缀数组管线一部分），以及近似重复的Bloom过滤器（对精确文档和段落重复数据删除修改后的方案）。

　　在7B-2x参数规模下，差异在0.2个CORE百分点以内。不过，修改后的Bloom过滤器更容易扩展到10TB的数据集。

　　1. 使用PageRank得分进行过滤，根据文档与其他文档链接的可能性来保留文档；

　　6. Top-k平均对数：对文档中所有单词的top-k模型对数进行平均，以评定模型对k个合理选择范围内的正确单词有多大信心；

　　比较表4中的各个方法后研究人员发现，基于fastText的过滤优于所有其他方法。

　　为了更好地理解fastText的局限性，研究人员训练了几个变体，探索参考数据、特征空间和过滤阈值的不同选择，如表5所示。

　　研究人员发现，在控制其他超参数时，与传统选择相比，fastText OH-2.5+ELI5方法的 CORE提升了3.5个百分点。

　　那么，使用OH-2.5数据进行过滤，是否会妨碍指令调整带来的额外增益呢？

　　将高质量源添加到仅源自Common Crawl的训练集，有哪些潜在好处？

　　研究人员将100%过滤的CC数据训练的模型，与使用Llama1和RedPajama的混合比例训练的模型进行了比较。

　　表6中的结果表明，混合可提高性能较低的CC子集；然而，在高性能过滤的情况下，混合可能会适得其反。

　　随后，研究人员进行了分析，以检查未经评估的预训练数据污染，是否会影响到结果。他们将重点放在MMLU上。

　　作为实验，研究人员还尝试检测并删除MMLU中存在于DCLM-BASELINE中的问题。

　　在Dolma-V1.7和FineWeb-Edu上应用上述去除策略可知，DLCM-BASELINE的污染统计数据，和其他高性能数据集大致相似。

　　最后，研究人员测试了DCLM基准上，数据集在更大参数规模（万亿token）下的表现。

　　为此，确保训练模型广泛适用，他们还构建了一个4.1T token的数据集，将3.8T的DCLM-BASELINE与StarCoder、ProofPile2数据相结合，包含了数学和编码任务。

　　得到数据集之后，研究人员在其之上训练了一个7B参数的模型，使用了2.5T token，以及与最大竞赛参数规模相同的超参数。

　　其中，还采取了特殊的训练策略，包括两个冷却阶段（在200B和270B token时），以及「模型汤」（model soup）。

　　之后，研究人员采用了持续预训练方法，在在相同分布上再训练100B个token，将上下文长度从2048增加到8192。

　　在表9中，展示了新模型优于所有在公开训练集上训练的7B模型，并接近于训练token更多的闭源模型，如Llama-8B、Mistral-7B和Gemma-7B。

　　由于计算资源的限制，研究人员只能单独消融设计维度，无法在更大参数规模上测试所有方法。

　　例如，更详细地理解分片去重的影响很重要，而且在训练过滤模型方面，无论是架构还是训练数据，都还有很多其他方法。

　　研究中大多数实验也仅使用了一种分词器（GPT-NeoX），其他分词器可能在多语言任务或数学方面表现更好。

　　尽管在DCLM-BASELINE上训练的7B模型在常见的语言理解评估中具有竞争力，但它们目前在代码和数学方面的表现还不够理想。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　老外涌入中国大街：ChinaTravel火爆外网，免签政策提升10倍入境

　　伊朗对以色列发“最严厉表态” 联合国秘书长警告：不能让黎巴嫩成为第二个加沙

　　欧洲杯-哈弗茨中框菲尔克鲁格绝平德国1-1瑞士第1出线绝平自讨苦吃！坑惨西班牙，葡萄牙受影响，英格兰笑翻了

　　业内首部，联想moto S50 Neo手机提供4年质保：6月25日发布

上一篇：yabo官网6月21日富国清洁能源产业混合C净值10347元
下一篇：暴雨袭长沙：地铁多条线路停运部www.yabo.com(中国