實測騰訊AI文生圖！榮耀畫風一鍵直出，小程序就能玩

由微新創想 · 2023年 10月 30日

聲明:本文來自于微信公眾號量子位（ID:QbitAI），作者:QbitAI，授權微新創想轉載發布。

鵝廠大模型，又有新玩法!

發布不到兩個月，騰訊混元大模型就速通了一個新版本，除了語言模型升級以外，還悄悄上線了AIGC最火熱?的功能——

文生圖。

和語言模型一樣，文生圖同樣可以通過微信小程序直接體驗。

不過與Midjourney獨立出圖不同，混元的文生圖和對話功能“互不耽誤”，可以邊聊邊畫，與DALL·E3體驗相似。

之前已經申請測試通過的，可以立刻沖了~

還在排隊中的也別急，我們已經快速實測了一波熱圖，這就先放出來給大伙兒看看。

混元文生圖上手實測

根據騰訊介紹，混元大模型文生圖最大的優勢在三處:真實感、中文理解、風格多樣。

接下來就挨個試試它做到了什么程度。

先來畫人，復刻一波之前爆火過的Midjourney“寫實90年代北京情侶”看看。

請輸出一張攝影風的照片，在20世紀90年代的北京，一個男性和一個女性，面帶微笑，坐在屋頂，穿著夾克和牛仔褲，有很多的建筑物，真實感

可以看出，寫實風格的人像還是很拿手的，人物姿態合理，畫亞洲人臉與國外AI相也比較自然。

注意這里有個小技巧，想要寫實風格的話最好用“生成一張……”來觸發，如果用“畫一張……”大概率會得到插畫風格。

寫實風格的人像可以，再看看畫風景如何。

除了一般的風景描述，混元大模型支持指定一個真實存在的景點，比如“桂林山水”或“長城”。

畢竟是AI生成，和真實景觀不會完全一樣，但感覺還是到位了。

接下來要上難度了，把這兩個場景“組合”起來:

生成一張桂林山水，但是岸上有長城，攝影風格，真實感，高度細節。

這么離譜的需求都畫出來了，甚至水面還有水波，看來不是簡單地重現訓練數據，而是對概念有一些自己的理解。

那么更復雜的概念如何?

曾經，AI因不理解中文菜名鬧過一波笑話。

經過這半年的發展，“紅燒獅子頭”里不會出現獅子的頭，“夫妻肺片”里也不會變成恐怖片了，甚至看著還挺香。

要說比菜名更有挑戰的，就到了古詩詞，正好寫實風格也看膩了也可以換換口味。

生成一張圖片:孤舟蓑笠翁，獨釣寒江雪，水墨畫風格。

總得來說還不錯，美中不足之處在于一張圖沒有“舟”，還有一張舟上坐了兩個“翁”，就沒有孤獨的意境了。

看來詩詞這種過于凝練的還是有難度。

But，別忘了混元助手同時擁有聊天對話能力，還支持多輪對話。

借助強大的語言模型部分，我們也找出解決辦法。

接下來只需用“這些要求”、“上述要求”來指代上面的回答，就可以讓兩個功能聯動起來了。

再畫就會更穩定，而且增加了雪花飄落的細節。

記住這個小技巧，接下來還會用到。

其實在騰訊混元助手中，專門準備了這樣一個存為指令的功能。

存好后就可以從對話框右邊的魔法棒圖標處快速調用了，只需要更改要描述的內容即可。

還可以方便地一鍵分享到微信，4張圖一次分享讓好友幫忙選，不用來回截圖了。

直接打開分享鏈接，就可以放大查看四張圖，還可以開始新對話!

了解過混元大模型的中文理解能力，再來試試最后一個特點風格多樣性。

既然是騰訊出品，游戲插畫肯定少不了，比如正火的賽博朋克風。

有點感覺了，但總覺得還差點意思。

可以用上面的技巧來，聯動語言模型來明確賽博朋克風格的特點。

再手動加億點點料，就更對味了。

不同游戲的畫風差距極大，測試下來混元助手確實能hold住不少，從3D到2D甚至像素都沒問題。

即使是同一話題和風格限定，也能展現出不同的畫風，Furry控狂喜（doge）

其實騰訊透露，內部多個場景已經用上了混元大模型文生圖能力。

雖然還不知道具體怎么使用，但是我們測試了一下用《王者榮耀》來當風格限定詞，混元也能理解。

除了游戲之外還有廣告場景，前面提到的混元大模型文生圖真實感的優勢就能發揮出來。

也別忘了騰訊還有一大塊內容業務，來個玄幻小說插圖也沒問題。

這樣的文生圖效果，背后究竟是通過什么原理實現的?

在此之前，業界其實已經有不少文生圖的開源模型。

騰訊是基于其中某種方案打造，還是重新進行的自研?

帶著種種問題，我們和騰訊混元大模型文生圖技術負責人蘆清林聊了聊，了解了一下背后的技術細節。

模型全自研，用20億+圖文對煉成

“從算法、數據系統到工程平臺，都是從0到1自研。”

蘆清林表示，這也算是騰訊混元大模型文生圖功能的優勢，這樣從生成自由度到數據安全性，就都能完全把控，也讓生成的圖像“更符合用戶需求”。

首先是在算法這一塊。

當前文生圖模型普遍存在三個難點，語義理解差、構圖不合理、畫面細節無質感。

語義理解差，就是模型聽不懂人話，尤其是中英文夾雜的人話。

當前業界普遍采用的是開源的CLIP算法，然而它一來沒有建模中文語言，輸入中文只能靠翻譯，會出現紅燒獅子頭真的生成獅子的問題（doge）;另一個是訓練時圖文對齊能力不行。

構圖不合理，指的是生成的人體結構、畫面結構有問題，直接“生異形”。

如果直接基于業界已有的開源擴散模型生成圖像，就容易出現這個問題，像是出現“三只手”或者各種奇怪的畫面結構。

畫面細節無質感，就是生成圖像清晰度差。當前不少數據集圖像分辨率和質量不高，容易導致訓練出來的開源模型質量也不高。

為了解決這三個難點，騰訊混元團隊在算法階段，特意用了三類模型組合來“逐個擊破”。

語義理解上，騰訊自研了跨模態預訓練大模型，不僅讓它同時學會建模中英文，而且強化文本和圖像細粒度特征的聯系，簡單來說就是中文、英文、圖像三者的“跨模態對齊”。

生成構圖上，騰訊自研了一種擴散模型和Transformer混合的架構，尤其是將Transformer當前大火的旋轉位置編碼研究給用上了。

旋轉位置編碼通常被用于增加大模型的上下文長度，不過在這里被騰訊巧妙地用于刻畫人體結構，讓模型既能掌握全局信息（人體骨架）又能理解局部信息(臉部細節)。

最后是在畫面細節上，騰訊自研了超分辨率模型，與此同時還結合了多種算法，針對圖像不同的細節進行優化，讓最后生成的圖像進一步“耐看”。

這樣做出來的模型架構，不僅能生成質量更高的圖片（分辨率1024×1024），而且只需要微調一下架構，就能變成圖生圖、甚至是文生視頻模型。

接下來，就是關鍵的數據部分了。

對于文生圖而言，生成圖像的質量，很大程度上取決于數據的質量，OpenAI在DALL·E3論文中，通篇都在強調數據對于指令跟隨的重要性。

騰訊也非常重視數據對模型的重要性，并同樣自研了三方面的技術。

在數據質量上，由于互聯網上扒下來的數據集，往往存在文字描述簡潔、和生成內容不完全匹配的問題，因此團隊通過改善圖-文對數據集中的“文”部分，也就是細化中文的文本描述，來提升圖文數據的相關性;

在數據效果上，團隊針對訓練數據進行了“金銀銅”分層分級，等級越高，意味著數據清洗程度越精細。

其中，20+億未清洗的“青銅數據”，用來對所有模型進行“粗加工”，也就是預訓練;

6億+“白銀數據”，用來對生成模型進一步加工，提升生成質量;

1.12億+精心清洗的“黃金數據”，則用來對模型進行“精加工”，也就是精調突擊訓練，確保訓練出來的模型質量更優秀。

在數據效率上，為了加快訓練速度，尤其是針對用戶反饋對模型進行優化的速度，騰訊也建立了數據飛輪，自動化構建訓練數據并加快模型迭代，讓模型生成準確率進一步提升。

據蘆清林透露，數據飛輪這個技術，也正是解決數據長尾場景難題的關鍵。

由于我們的生活中總是在出現一些潮流新詞，例如“玲娜貝兒”等，這種名詞往往在數據集中不常見，而用戶又會在輸入時使用，因此往往需要第一時間更新進訓練數據中。

有了數據飛輪，就能將這個過程效率進一步提升，避免模型在見識到新詞后，依舊長時間無法生成對應的圖像。

最后，有了算法和數據，還得有個工程平臺，來把它們組合起來快速訓練。

為此，騰訊自研了Angel機器學習平臺，包括訓練框架AngelPTM和推理框架AngelHCF。

訓練上，大模型最重要的就是并行能力。為此，騰訊基于4D并行+ZeROCache機制，實現了千億參數混元大模型的快速訓練。

直觀來看，AngelPTM訓練框架相比業界主流框架DeepSpeed-Chat速度提升了1倍以上。

推理上，AngelHCF則實現了支持多種并行能力、支持服務部署及管理、以及自研模型無損量化三大功能，相比業界主流框架提升了1.3倍以上。

值得一提的是，在Angel機器學習框架和平臺的支持下，騰訊混元的語言模型也進行了一輪升級，尤其是代碼能力有不小的提升。

我們也簡單測了測騰訊混元大模型更新后的代碼能力。

首先試試寫代碼，以幫老師寫一個“隨機點名程序”為例（手動狗頭）。

混元大模型很快生成了一段帶注釋的完整代碼:

importrandom#假設班級里有50個學生，這里是他們的學號student_ids=['001'，'002'，'003'，'004'，'005'，'006'，'007'，'008'，'009'，'010'，'011'，'012'，'013'，'014'，'015'，'016'，'017'，'018'，'019'，'020'，'021'，'022'，'023'，'024'，'025'，'026'，'027'，'028'，'029'，'030'，'031'，'032'，'033'，'034'，'035'，'036'，'037'，'038'，'039'，'040'，'041'，'042'，'043'，'044'，'045'，'046'，'047'，'048'，'049'，'050']#使用random.choice（）函數從學生學號列表中隨機選擇一個學生random_student_id=random.choice（student_ids）#打印隨機選中的學生學號print（"隨機抽取的學生學號是:"，random_student_id）

實測可以絲滑運行，每次都能抽到不同的幸（dao）運(mei)兒(dan)起來回答問題:

然后我們還發現，混元大模型竟然還能幫忙查代碼bug，屬實是程序員省心利器了。

當然，無論是文生圖還是代碼能力，現在都已經可以在騰訊混元助手中體驗。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

實測騰訊AI文生圖！榮耀畫風一鍵直出，小程序就能玩

混元文生圖上手實測

模型全自研，用20億+圖文對煉成

您可能還喜歡...

發表回復取消回復

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

實測騰訊AI文生圖！榮耀畫風一鍵直出，小程序就能玩

混元文生圖上手實測

模型全自研，用20億+圖文對煉成

您可能還喜歡...

外媒：英國計劃斥資1.3億美元購買數千顆高性能人工智能芯片

潤建股份與百度智能云合作 推出“曲尺”人工智能開放平臺

Gushwork.ai融資200萬美元 幫企業將繁瑣業務外包擅長AI員工

發表回復 取消回復

熱門文章

熱門文章

潤建股份與百度智能云合作推出“曲尺”人工智能開放平臺

Gushwork.ai融資200萬美元幫企業將繁瑣業務外包擅長AI員工

發表回復取消回復