AI2發布大語言模型開源數據集Dolma 包含3萬億個token

由微新創想 · 2023年 8月 25日

文章概要:

1. AI2推出開源數據集Dolma，包含3萬億個token，來自各類網絡內容、學術出版物等。

2. Dolma主要以英文文本為主，遵循開放許可，免費向研究人員開放。

3. Dolma作為開放語言模型OLMo的基礎，OLMo計劃2024年初發布。

微新創想（idea2003.com）8月24日消息:美國艾倫人工智能研究所（AI2）最近發布了一個名為Dolma的開源數據集，其包含了3萬億個token，這些詞匯來自包括網絡內容、學術出版物、代碼和書籍等廣泛的來源。Dolma是目前公開可用的同類數據集中最大的一個。

Dolma的數據將為AI2正在開發中的開放語言模型OLMo提供基礎。OLMo的目標是成為“最好的開放語言模型”，計劃于2024年初發布。為了開發OLMo，AI2構建了龐大的Dolma數據集。

Dolma第一個版本主要以英文文本為主。研究人員使用語言識別模型對數據進行篩選。為彌補少數語言方言的偏差，團隊將模型判斷為英文置信度50%以上的所有文本都包括在內。未來版本將會包括其他語言。

Dolma以開放許可的形式免費向研究人員開放。研究人員需要提供聯系信息并同意Dolma的預期用途。同時建立機制允許根據要求刪除個人數據。

Dolma的數據大部分來自非營利的Common Crawl項目收集的網絡數據。此外還包含其他網絡頁面、學術文本、代碼示例、書籍等。

在AI2看來，理想的數據集應該滿足幾個標準:開放性、代表性、規模和再現性。它還應該最大限度地減少風險，尤其是那些可能影響個人的風險。

項目網址:https://huggingface.co/datasets/allenai/dolma

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区