AI2發布大語言模型開源數據集Dolma 包含3萬億個token
文章概要:
1. AI2推出開源數據集Dolma,包含3萬億個token,來自各類網絡內容、學術出版物等。
2. Dolma主要以英文文本為主,遵循開放許可,免費向研究人員開放。
3. Dolma作為開放語言模型OLMo的基礎,OLMo計劃2024年初發布。
微新創想(idea2003.com)8月24日 消息:美國艾倫人工智能研究所(AI2)最近發布了一個名為Dolma的開源數據集,其包含了3萬億個token,這些詞匯來自包括網絡內容、學術出版物、代碼和書籍等廣泛的來源。Dolma是目前公開可用的同類數據集中最大的一個。
Dolma的數據將為AI2正在開發中的開放語言模型OLMo提供基礎。OLMo的目標是成為“最好的開放語言模型”,計劃于2024年初發布。為了開發OLMo,AI2構建了龐大的Dolma數據集。
Dolma第一個版本主要以英文文本為主。研究人員使用語言識別模型對數據進行篩選。為彌補少數語言方言的偏差,團隊將模型判斷為英文置信度50%以上的所有文本都包括在內。未來版本將會包括其他語言。
Dolma以開放許可的形式免費向研究人員開放。研究人員需要提供聯系信息并同意Dolma的預期用途。同時建立機制允許根據要求刪除個人數據。
Dolma的數據大部分來自非營利的Common Crawl項目收集的網絡數據。此外還包含其他網絡頁面、學術文本、代碼示例、書籍等。
在AI2看來,理想的數據集應該滿足幾個標準:開放性、代表性、規模和再現性。它還應該最大限度地減少風險,尤其是那些可能影響個人的風險。
項目網址:https://huggingface.co/datasets/allenai/dolma