Salesforce新AI模型可改善數據分析 XGen-7B基準測試超越Meta的LLaMA-7B
站長之家(ChinaZ.com)7月4日 消息:隨著對AI工具的需求增加,對能夠完成更多任務的系統的需求也越來越大。
企業可以通過擁有像ChatGPT或Bard這樣的聊天界面來受益,這些界面能夠對冗長的文件進行摘要或篩選客戶數據以獲取見解。但要執行這些任務,模型需要經過大量數據的訓練。而企業通常選擇了更小、更具成本效益的模型,問題在于這些模型無法很好地處理這些任務。
像Meta的LLaMA、Falcon-7B和MPT-7B等開源模型,其最大序列長度約為2,000個token,使得它們難以處理像文件這樣的冗長非結構化數據。
這也是Salesforce推出的一系列大型語言模型XGen-7B的原因,XGen-7B在長達8,000個token的序列上進行訓練,因此更容易處理冗長的文檔輸入,總共可處理1.5萬億個token。
Salesforce的研究人員使用Salesforce內部的庫JaxFormer以及公共領域的教學數據對這一系列70億參數的模型進行訓練。
與LLaMA、Falcon和Redpajama等開源模型相比,所得到的模型在性能上達到或超過了它們。
Salesforce的AI研究人員表示,使用Google Cloud的TPU-v4云計算平臺,在1萬億個token上訓練這個模型只需花費15萬美元。
XGen-7B基準測試亮眼
Salesforce的模型在一系列基準測試中取得了令人印象深刻的成績,在許多方面都超過了受歡迎的開源大型語言模型。
在對“Measuring Massive Multitask Language Understanding(MMLU)”基準測試進行測試時,XGen在四個測試類別中有三個類別取得了最高分,而且在加權平均分中也是最高的。只有Meta的LLaMA在人文學科方面的MMLU測試中比XGen得分更高。
在同一基準測試的零樣本測試中,XGen取得了類似的結果,但在人文學科方面仍然不及LLaMA。
就整體零樣本測試而言,XGen只在“TruthfulQA”基準測試中超過了其他模型。在包括ARC_ch、Hella Swag和Winogrande在內的基準測試中,Meta的LLaMA取得了更好的結果。
然而,在代碼生成任務上,XGen在評估基準測試的pass@1指標上超過了LLaMA和其他模型,得分為14.20,而LLaMA只有10.38。
在長序列任務中,Salesforce的這個新AI模型表現最出色,在SCROLLS基準測試的QMSum和GovReport數據集上得分非常高。
不過,Salesforce的研究人員指出,由于XGen模型沒有在相同的教學數據上進行訓練,“它們不是嚴格可比較的”。
XGen-7B系列
Salesforce的研究人員創建了三個模型——XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。
XGen-7B-4K-base能夠處理8000億個上下文token,它是在2,000個token,后來又是4,000個token上進行訓練的。它以Apache-2.0許可發布,這意味著可以根據不同的許可協議分發派生作品,但所有未修改的組件必須使用Apache2.0許可。
XGen-7B-8K-base在之前提到的模型的基礎上增加了3000億個token,使其總的上下文理解能力達到了1.5萬億個token。這個模型也以Apache2.0許可發布。
XGen-7B-inst在公共領域的教學數據上進行了微調,包括databricks-dolly-15k、oasst1、Baize和與GPT相關的數據集。該模型在4,000個和8,000個token上進行了訓練,僅用于研究目的。
為了訓練這些模型,Salesforce的研究人員采用了兩階段的訓練策略,每個階段使用不同的數據混合。
團隊解釋說:“對于C4,我們使用C4流程處理了6個Common Crawl轉儲,并通過僅保留具有相同URL的文檔中的最新時間戳,跨不同的轉儲去重了文檔。我們訓練了一個線性模型,將C4數據分類為類似于維基百科的文檔和隨機文檔。然后,我們選擇了前20%的類似于維基百科的文檔。”
然后,將Salesforce和Hugging Face創建的代碼生成模型Starcoder添加到支持代碼生成任務。然后將Starcoder的核心數據與前一階段的數據混合。
然后使用OpenAI的tiktoken對模型的數據進行token化,隨后添加了連續空白和制表符的額外token。
雖然XGen的訓練過程得到了一系列功能強大的AI模型,但也存在一些缺陷。Salesforce指出,該模型仍然存在幻覺問題。
有關XGen-7B的更多信息,Salesforce在其博客上發布了一篇詳細的文章。模型的代碼庫可以在GitHub上找到,模型的檢查點可以在Hugging Face上找到。
上下文至關重要
能夠理解更長輸入的模型對企業來說可能是一個巨大的優勢。
Salesforce的研究人員表示,大量的上下文“使得預訓練的語言模型能夠查看客戶數據并對有用的信息查詢做出回應”。
對于聊天機器人應用來說,更多的上下文意味著更多的對話。Salesforce并不是唯一一個研究這一概念的組織。Anthropic是由OpenAI的前員工創辦的新興AI初創公司,最近擴大了其旗艦應用Claude的上下文長度。
Claude現在可以用于從多個冗長的商業文件或書籍中獲取信息,用戶可以詢問有關數據的問題。
目前的模型在增加上下文長度方面存在困難。當ChatGPT和Bing的AI聊天等應用開始出現時,用戶發現他們在單個對話中使用模型的時間越長,模型的回應變得越來越不穩定。這是由于模型無法處理較長的上下文長度,導致混淆和產生幻覺。
XGen-7B項目網址:https://blog.salesforceairesearch.com/xgen/