實測騰訊AI文生圖!榮耀畫風一鍵直出,小程序就能玩
聲明:本文來自于微信公眾號 量子位(ID:QbitAI),作者:QbitAI,授權微新創想轉載發布。
鵝廠大模型,又有新玩法!
發布不到兩個月,騰訊混元大模型就速通了一個新版本,除了語言模型升級以外,還悄悄上線了AIGC最火熱?的功能——
文生圖。
和語言模型一樣,文生圖同樣可以通過微信小程序直接體驗。
不過與Midjourney獨立出圖不同,混元的文生圖和對話功能“互不耽誤”,可以邊聊邊畫,與DALL·E3體驗相似。
之前已經申請測試通過的,可以立刻沖了~
還在排隊中的也別急,我們已經快速實測了一波熱圖,這就先放出來給大伙兒看看。
混元文生圖上手實測
根據騰訊介紹,混元大模型文生圖最大的優勢在三處:真實感、中文理解、風格多樣。
接下來就挨個試試它做到了什么程度。
先來畫人,復刻一波之前爆火過的Midjourney“寫實90年代北京情侶”看看。
請輸出一張攝影風的照片,在20世紀90年代的北京,一個男性和一個女性,面帶微笑,坐在屋頂,穿著夾克和牛仔褲,有很多的建筑物,真實感
可以看出,寫實風格的人像還是很拿手的,人物姿態合理,畫亞洲人臉與國外AI相也比較自然。
注意這里有個小技巧,想要寫實風格的話最好用“生成一張……”來觸發,如果用“畫一張……”大概率會得到插畫風格。
寫實風格的人像可以,再看看畫風景如何。
除了一般的風景描述,混元大模型支持指定一個真實存在的景點,比如“桂林山水”或“長城”。
畢竟是AI生成,和真實景觀不會完全一樣,但感覺還是到位了。
接下來要上難度了,把這兩個場景“組合”起來:
生成一張桂林山水,但是岸上有長城,攝影風格,真實感,高度細節。
這么離譜的需求都畫出來了,甚至水面還有水波,看來不是簡單地重現訓練數據,而是對概念有一些自己的理解。
那么更復雜的概念如何?
曾經,AI因不理解中文菜名鬧過一波笑話。
經過這半年的發展,“紅燒獅子頭”里不會出現獅子的頭,“夫妻肺片”里也不會變成恐怖片了,甚至看著還挺香。
要說比菜名更有挑戰的,就到了古詩詞,正好寫實風格也看膩了也可以換換口味。
生成一張圖片:孤舟蓑笠翁,獨釣寒江雪,水墨畫風格。
總得來說還不錯,美中不足之處在于一張圖沒有“舟”,還有一張舟上坐了兩個“翁”,就沒有孤獨的意境了。
看來詩詞這種過于凝練的還是有難度。
But,別忘了混元助手同時擁有聊天對話能力,還支持多輪對話。
借助強大的語言模型部分,我們也找出解決辦法。
接下來只需用“這些要求”、“上述要求”來指代上面的回答,就可以讓兩個功能聯動起來了。
再畫就會更穩定,而且增加了雪花飄落的細節。
記住這個小技巧,接下來還會用到。
其實在騰訊混元助手中,專門準備了這樣一個存為指令的功能。
存好后就可以從對話框右邊的魔法棒圖標處快速調用了,只需要更改要描述的內容即可。
還可以方便地一鍵分享到微信,4張圖一次分享讓好友幫忙選,不用來回截圖了。
直接打開分享鏈接,就可以放大查看四張圖,還可以開始新對話!
了解過混元大模型的中文理解能力,再來試試最后一個特點風格多樣性。
既然是騰訊出品,游戲插畫肯定少不了,比如正火的賽博朋克風。
有點感覺了,但總覺得還差點意思。
可以用上面的技巧來,聯動語言模型來明確賽博朋克風格的特點。
再手動加億點點料,就更對味了。
不同游戲的畫風差距極大,測試下來混元助手確實能hold住不少,從3D到2D甚至像素都沒問題。
即使是同一話題和風格限定,也能展現出不同的畫風,Furry控狂喜(doge)
其實騰訊透露,內部多個場景已經用上了混元大模型文生圖能力。
雖然還不知道具體怎么使用,但是我們測試了一下用《王者榮耀》來當風格限定詞,混元也能理解。
除了游戲之外還有廣告場景,前面提到的混元大模型文生圖真實感的優勢就能發揮出來。
也別忘了騰訊還有一大塊內容業務,來個玄幻小說插圖也沒問題。
這樣的文生圖效果,背后究竟是通過什么原理實現的?
在此之前,業界其實已經有不少文生圖的開源模型。
騰訊是基于其中某種方案打造,還是重新進行的自研?
帶著種種問題,我們和騰訊混元大模型文生圖技術負責人蘆清林聊了聊,了解了一下背后的技術細節。
模型全自研,用20億+圖文對煉成
“從算法、數據系統到工程平臺,都是從0到1自研。”
蘆清林表示,這也算是騰訊混元大模型文生圖功能的優勢,這樣從生成自由度到數據安全性,就都能完全把控,也讓生成的圖像“更符合用戶需求”。
首先是在算法這一塊。
當前文生圖模型普遍存在三個難點,語義理解差、構圖不合理、畫面細節無質感。
語義理解差,就是模型聽不懂人話,尤其是中英文夾雜的人話。
當前業界普遍采用的是開源的CLIP算法,然而它一來沒有建模中文語言,輸入中文只能靠翻譯,會出現紅燒獅子頭真的生成獅子的問題(doge);另一個是訓練時圖文對齊能力不行。
構圖不合理,指的是生成的人體結構、畫面結構有問題,直接“生異形”。
如果直接基于業界已有的開源擴散模型生成圖像,就容易出現這個問題,像是出現“三只手”或者各種奇怪的畫面結構。
畫面細節無質感,就是生成圖像清晰度差。當前不少數據集圖像分辨率和質量不高,容易導致訓練出來的開源模型質量也不高。
為了解決這三個難點,騰訊混元團隊在算法階段,特意用了三類模型組合來“逐個擊破”。
語義理解上,騰訊自研了跨模態預訓練大模型,不僅讓它同時學會建模中英文,而且強化文本和圖像細粒度特征的聯系,簡單來說就是中文、英文、圖像三者的“跨模態對齊”。
生成構圖上,騰訊自研了一種擴散模型和Transformer混合的架構,尤其是將Transformer當前大火的旋轉位置編碼研究給用上了。
旋轉位置編碼通常被用于增加大模型的上下文長度,不過在這里被騰訊巧妙地用于刻畫人體結構,讓模型既能掌握全局信息(人體骨架)又能理解局部信息(臉部細節)。
最后是在畫面細節上,騰訊自研了超分辨率模型,與此同時還結合了多種算法,針對圖像不同的細節進行優化,讓最后生成的圖像進一步“耐看”。
這樣做出來的模型架構,不僅能生成質量更高的圖片(分辨率1024×1024),而且只需要微調一下架構,就能變成圖生圖、甚至是文生視頻模型。
接下來,就是關鍵的數據部分了。
對于文生圖而言,生成圖像的質量,很大程度上取決于數據的質量,OpenAI在DALL·E3論文中,通篇都在強調數據對于指令跟隨的重要性。
騰訊也非常重視數據對模型的重要性,并同樣自研了三方面的技術。
在數據質量上,由于互聯網上扒下來的數據集,往往存在文字描述簡潔、和生成內容不完全匹配的問題,因此團隊通過改善圖-文對數據集中的“文”部分,也就是細化中文的文本描述,來提升圖文數據的相關性;
在數據效果上,團隊針對訓練數據進行了“金銀銅”分層分級,等級越高,意味著數據清洗程度越精細。
其中,20+億未清洗的“青銅數據”,用來對所有模型進行“粗加工”,也就是預訓練;
6億+“白銀數據”,用來對生成模型進一步加工,提升生成質量;
1.12億+精心清洗的“黃金數據”,則用來對模型進行“精加工”,也就是精調突擊訓練,確保訓練出來的模型質量更優秀。
在數據效率上,為了加快訓練速度,尤其是針對用戶反饋對模型進行優化的速度,騰訊也建立了數據飛輪,自動化構建訓練數據并加快模型迭代,讓模型生成準確率進一步提升。
據蘆清林透露,數據飛輪這個技術,也正是解決數據長尾場景難題的關鍵。
由于我們的生活中總是在出現一些潮流新詞,例如“玲娜貝兒”等,這種名詞往往在數據集中不常見,而用戶又會在輸入時使用,因此往往需要第一時間更新進訓練數據中。
有了數據飛輪,就能將這個過程效率進一步提升,避免模型在見識到新詞后,依舊長時間無法生成對應的圖像。
最后,有了算法和數據,還得有個工程平臺,來把它們組合起來快速訓練。
為此,騰訊自研了Angel機器學習平臺,包括訓練框架AngelPTM和推理框架AngelHCF。
訓練上,大模型最重要的就是并行能力。為此,騰訊基于4D并行+ZeROCache機制,實現了千億參數混元大模型的快速訓練。
直觀來看,AngelPTM訓練框架相比業界主流框架DeepSpeed-Chat速度提升了1倍以上。
推理上,AngelHCF則實現了支持多種并行能力、支持服務部署及管理、以及自研模型無損量化三大功能,相比業界主流框架提升了1.3倍以上。
值得一提的是,在Angel機器學習框架和平臺的支持下,騰訊混元的語言模型也進行了一輪升級,尤其是代碼能力有不小的提升。
我們也簡單測了測騰訊混元大模型更新后的代碼能力。
首先試試寫代碼,以幫老師寫一個“隨機點名程序”為例(手動狗頭)。
混元大模型很快生成了一段帶注釋的完整代碼:
importrandom#假設班級里有50個學生,這里是他們的學號student_ids=['001','002','003','004','005','006','007','008','009','010','011','012','013','014','015','016','017','018','019','020','021','022','023','024','025','026','027','028','029','030','031','032','033','034','035','036','037','038','039','040','041','042','043','044','045','046','047','048','049','050']#使用random.choice()函數從學生學號列表中隨機選擇一個學生random_student_id=random.choice(student_ids)#打印隨機選中的學生學號print("隨機抽取的學生學號是:",random_student_id)
實測可以絲滑運行,每次都能抽到不同的幸(dao)運(mei)兒(dan)起來回答問題:
然后我們還發現,混元大模型竟然還能幫忙查代碼bug,屬實是程序員省心利器了。
當然,無論是文生圖還是代碼能力,現在都已經可以在騰訊混元助手中體驗。