數據標注員什么時候會被AI替代?谷歌:現在就行
聲明:本文來自于微信公眾號 未來科技力(ID:smartechworld),作者:李禾子,授權微新創想轉載發布。
似乎自ChatGPT進入大眾視野起,需要依靠人工進行數據標注,就成為人們對大語言模型(LLM)根深蒂固的印象之一。
從兩個以上大模型針對同一個問題給出的不同回答里,找到當中的語病、邏輯和事實錯誤,標記不同的錯誤類型,再對這些回答按照質量分別進行打分等,這些都是大模型數據標注員要干的事情。
這個過程被叫做RLHF(Reinforcement Learning from Human Feedback),即基于人類反饋的強化學習。RLHF也是被ChatGPT、Bard和LLaMA等新興大模型帶火的模型訓練方法,它最大的好處就在于能夠將模型和人類的偏好對齊,讓大模型給出更符合人類表達習慣的回答。
不過最近發布在arXiv的一份論文表明,這份看起來只有人類能做的工作,也能被AI取代!
AI也取代了RLHF中的“H”,誕生了一種叫做“RLAIF”的訓練方法。
這份由谷歌研究團隊發布的論文顯示,RLAIF能夠在不依賴數據標注員的情況下,表現出能夠與RLHF相媲美的訓練結果——
如果拿傳統的監督微調(SFT)訓練方法作為基線比較,比起SFT, 1200 個真人“評委”對RLHF和RLAIF給出答案的滿意度都超過了70%(兩者差距只有2%);另外,如果只比較RLHF和RLAIF給出的答案,真人評委們對兩者的滿意度也是對半分。
這里的“勝率”體現了文中的“滿意度”
需要說明的是,谷歌的這篇論文也是第一個證明了RLAIF在某些任務上能夠產生與RLHF相當的訓練效果的研究。
最早提出讓AI反饋代替人類反饋用于強化學習訓練的研究,是來自 2022 年Bai et al. 發布的一篇論文。這篇論文也首次提出了RLAIF的概念,并發現了AI標注的“天賦”,不過研究者在當時還并沒有將人類反饋和AI反饋結果進行直接比較。
總之谷歌的這一研究成果一旦被更多人接受,將意味著不用人類指點,AI也能訓練自己的同類了。
下面可以來看看RLAIF具體是怎么做的。
我們知道,RLHF的方法大致可以分為三個步驟:預訓練一個監督微調LLM,收集數據訓練一個獎勵模型(RM),以及用強化學習(RL)方式微調模型。
從論文給出的圖示看,AI和人類標注員發揮作用的環節,主要是在訓練獎勵模型(RM)并生成反饋內容這里。你可以把“獎勵”理解為,讓人/AI來告訴模型哪種回答更好,答得更好就能有更多獎勵(所以也能理解人工標注存在的必要)。
接著研究人員主要就“根據一段文字生成摘要”這一任務,展示了RLAIF的標記方法。
下面的表格比較完整地展示了RLAIF方法的輸入結構:
首先是序言(Preamble),用來介紹和描述手頭任務的說明。比如描述說,好的摘要是一段較短的文字,具有原文的精髓…給定一段文本和兩個可能的摘要,輸出 1 或 2 來指示哪個摘要最符合上述定義的連貫性、準確性、覆蓋范圍和整體質量。
其次是樣本示例(1-Shot Exemplar)。比如給到一段“我們曾是超過四年的好朋友……”的文本,接著給到兩個摘要,以及“摘要 1 更好”的偏好判斷,讓AI學著這個示例對接下來的樣本做標注。
再者就是給出所要標注的樣本(Sample to Annotate),包括一段文本和一對需要標記的摘要。
最后是結尾,用于提示模型的結束字符串。
論文介紹到,為了讓RLAIF方法中AI標注更準確,研究者也加入了其他方法以獲取更好的回答。譬如為了避免隨機性問題,會進行多次選擇,其間還會對選項的順序進行交換;此外還用到了思維鏈(CoT)推理,來進一步提升與人類偏好的對齊程度。
從原始prompt到輸出的完整流程如下圖所示:
能看到,就像人類標注員會給不同的回答打分一樣(比如滿分 5 分),AI也會依據偏好給每個摘要打分,相加起來是 1 分。所以這個分數就可以理解為上文提到的獎勵。
以上就是RLAIF方法大致會經歷的過程。
而在評價RLAIF方法的訓練結果到底好不好時,研究人員使用了三個評估指標,分別是AI標簽對齊度(AI Labeler Alignment)、配對準確度(Pairwise Accuracy)和勝率(Win Rate)。
簡單理解三個指標,AI標簽對齊度指的就是AI偏好相對于人類偏好的精確程度,配對準確度指訓練好的獎勵模型與人類偏好數據集的匹配程度,勝率則是人類在RLAIF和RLHF生成結果之間的傾向性。
研究人員在依據評估指標進行了繁雜的計算之后,最終得出了RLAIF和RLHF“打平手”的結論。
當然也有一些非量化的定性分析。譬如研究發現,RLAIF似乎比RLHF更不容易出現“幻覺”,下表所示幾個例子中標紅部分便是RLHF的幻覺,盡管看上去是合理的:
而在另一些例子里,RLAIF的語法表現似乎又比RLHF差不少(標紅為RLAIF的語法問題):
盡管如此,RLAIF和RLHF整體來說生成高質量摘要的能力還是旗鼓相當的。
該論文的發布很快收獲了不少關注。比如有從業者評論道,等到GPT- 5 可能就不需要人類數據標注員了。
也有網友貼圖打趣,用AI來訓練同類的做法就好比是這張梗圖。
不過針對谷歌這篇論文中用到的研究方法,身為著名軟件工程師、AI專家的Evan Saravia也認為,研究人員只在論文中分析了RLAIF和RLHF在“生成摘要”這一任務上的表現,其他更加泛化的任務表現如何還有待觀察。
此外,研究人員也沒有將人工標注和使用AI成本的因素考慮在內。
其實以上網友預測未來的大模型將不再需要人類標注員,也側面體現出目前RLHF方法因為過于依賴人工而遇到的瓶頸:大規模高質量的人類標注數據可能會非常難以獲取——
大模型數據標注員往往是流動性非常高的工種,并且由于數據標注很多時候非常依賴標注員的主觀偏好,也就更加考驗標注員的自身素質。
短期內也許會像這位從業者說的,“我不會說這(RLAIF)降低了人工標注的重要性,但有一點可以肯定,人工智能反饋的RL可以降低成本。人工標注對于泛化仍然極其重要,而RLHF+RLAIF混合方法比任何單一方法都要好。”