人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

AI2發布大語言模型開源數據集Dolma 包含3萬億個token

文章概要:

1. AI2推出開源數據集Dolma,包含3萬億個token,來自各類網絡內容、學術出版物等。

2. Dolma主要以英文文本為主,遵循開放許可,免費向研究人員開放。

3. Dolma作為開放語言模型OLMo的基礎,OLMo計劃2024年初發布。

微新創想(idea2003.com)8月24日 消息:美國艾倫人工智能研究所(AI2)最近發布了一個名為Dolma的開源數據集,其包含了3萬億個token,這些詞匯來自包括網絡內容、學術出版物、代碼和書籍等廣泛的來源。Dolma是目前公開可用的同類數據集中最大的一個。

Dolma的數據將為AI2正在開發中的開放語言模型OLMo提供基礎。OLMo的目標是成為“最好的開放語言模型”,計劃于2024年初發布。為了開發OLMo,AI2構建了龐大的Dolma數據集。

Dolma第一個版本主要以英文文本為主。研究人員使用語言識別模型對數據進行篩選。為彌補少數語言方言的偏差,團隊將模型判斷為英文置信度50%以上的所有文本都包括在內。未來版本將會包括其他語言。

Dolma以開放許可的形式免費向研究人員開放。研究人員需要提供聯系信息并同意Dolma的預期用途。同時建立機制允許根據要求刪除個人數據。

Dolma的數據大部分來自非營利的Common Crawl項目收集的網絡數據。此外還包含其他網絡頁面、學術文本、代碼示例、書籍等。

在AI2看來,理想的數據集應該滿足幾個標準:開放性、代表性、規模和再現性。它還應該最大限度地減少風險,尤其是那些可能影響個人的風險。

項目網址:https://huggingface.co/datasets/allenai/dolma

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注