ChatGPT 的训练数据集来源分为六类
- 维基百科:英文版维基百科中有超过 640 万篇文章,包含超 40 亿个词
- 书籍:故事型书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反 应能力
- 期刊:预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础
- Reddit 链接: WebText 是一个大型数据集,它的数据是从社交媒体平台 Reddit 所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标
- Common Crawl :一个网站抓取的大型数据集,数据包含原始网页、元数据和文本提 取,它的文本来自不同语言、不同领域
- 其他数据集:由 GitHub 等代码数据集、 StackExchange 等对话论坛和视频字幕数据 集组成
… …