航津科技

ChatGPT数据集之谜

2023-03-16

此前，OneFlow发布了《ChatGPT背后的经济账》，其作者从经济学视角推导了训练大型语言模型的成本。本文作者则整理分析了2018年到2022年初从GPT-1到Gopher的相关大型语言模型的所有数据集相关信息，希望帮助有志于开发“类ChatGPT”模型的团队少走一步弯路。

一些研究人员的报告称，通用人工智能（AGI）可能是从我们当前的语言模型技术进行演进[1]，预训练Transformer语言模型为AGI的发展铺平了道路。虽然模型训练数据集日渐增大，但缺乏基本指标文档，包括数据集大小、数据集token数量和具体的内容细节。

尽管业内提出了数据集组成和整理文档的标准[2]，但几乎所有重点研究实验室在揭示模型训练数据集细节这方面都做得不够。这里整合的研究涵盖了2018年到2022年初从GPT-1到Gopher的精选语言模型的所有数据集（包括主要数据集：Wikipedia和Common Crawl）的综合视图。

2018年以来，大语言模型的开发和生产使用呈现出爆炸式增长。一些重点研究实验室报告称，公众对大语言模型的使用率达到了惊人高度。2021年3月，OpenAI宣布[3]其GPT-3语言模型被“超过300个应用程序使用，平均每天能够生成45亿个词”，也就是说仅单个模型每分钟就能生成310万词的新内容。

值得注意的是，这些语言模型甚至还没有被完全理解，斯坦福大学的研究人员[4]最近坦言，“目前我们对这些模型还缺乏认知，还不太了解这些模型的运转模式、不知道模型何时会失效，更不知道这些模型的突现性（emergent properties）能产生什么效果”。

随着新型AI技术的快速发展，模型训练数据集的相关文档质量有所下降。模型内部到底有什么秘密？它们又是如何组建的？本文综合整理并分析了现代大型语言模型的训练数据集。

因为这方面的原始文献并不对外公开，所以本文搜集整合了二、三级研究资料，在必要的时候本文会采用假设的方式来推算最终结果。

在本文中，我们会将原始论文中已经明确的特定细节（例如token数量或数据集大小）归类为“公开的（disclosed）”数据，并作加粗处理。

多数情况下，适当地参考二、三级文献，并采用假设的方式来确定最终结果是很有必要的。在这些情况下，token数量和数据集大小等细节是“确定的（determined）”，并以斜体标记。

模型数据集可分为六类，分别是：维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。

GPT-1数据集

2018年，OpenAI发布了1.17亿参数的GPT-1。在论文中，OpenAI并没有公布模型训练数据集的来源和内容[10]，另外，论文误将‘BookCorpus’拼写成了‘BooksCorpus’。BookCorpus以作家未出版的免费书籍为基础，这些书籍来自于Smashwords，这是一个自称为“世界上最大的独立电子书分销商” 的电子书网站。这个数据集也被称为Toronto BookCorpus。经过几次重构之后，BookCorpus数据集的最终大小确定为4.6GB[11]。