人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

實測騰訊AI文生圖!榮耀畫風一鍵直出,小程序就能玩

聲明:本文來自于微信公眾號 量子位(ID:QbitAI),作者:QbitAI,授權微新創想轉載發布。

鵝廠大模型,又有新玩法!

發布不到兩個月,騰訊混元大模型就速通了一個新版本,除了語言模型升級以外,還悄悄上線了AIGC最火熱?的功能——

文生圖

和語言模型一樣,文生圖同樣可以通過微信小程序直接體驗

不過與Midjourney獨立出圖不同,混元的文生圖和對話功能“互不耽誤”,可以邊聊邊畫,與DALL·E3體驗相似。

之前已經申請測試通過的,可以立刻沖了~

還在排隊中的也別急,我們已經快速實測了一波熱圖,這就先放出來給大伙兒看看。

混元文生圖上手實測

根據騰訊介紹,混元大模型文生圖最大的優勢在三處:真實感中文理解風格多樣

接下來就挨個試試它做到了什么程度。

先來畫人,復刻一波之前爆火過的Midjourney“寫實90年代北京情侶”看看。

請輸出一張攝影風的照片,在20世紀90年代的北京,一個男性和一個女性,面帶微笑,坐在屋頂,穿著夾克和牛仔褲,有很多的建筑物,真實感

可以看出,寫實風格的人像還是很拿手的,人物姿態合理,畫亞洲人臉與國外AI相也比較自然。

注意這里有個小技巧,想要寫實風格的話最好用“生成一張……”來觸發,如果用“畫一張……”大概率會得到插畫風格。

寫實風格的人像可以,再看看畫風景如何。

除了一般的風景描述,混元大模型支持指定一個真實存在的景點,比如“桂林山水”或“長城”。

畢竟是AI生成,和真實景觀不會完全一樣,但感覺還是到位了。

接下來要上難度了,把這兩個場景“組合”起來:

生成一張桂林山水,但是岸上有長城,攝影風格,真實感,高度細節。

這么離譜的需求都畫出來了,甚至水面還有水波,看來不是簡單地重現訓練數據,而是對概念有一些自己的理解。

那么更復雜的概念如何?

曾經,AI因不理解中文菜名鬧過一波笑話。

經過這半年的發展,“紅燒獅子頭”里不會出現獅子的頭,“夫妻肺片”里也不會變成恐怖片了,甚至看著還挺香。

要說比菜名更有挑戰的,就到了古詩詞,正好寫實風格也看膩了也可以換換口味。

生成一張圖片:孤舟蓑笠翁,獨釣寒江雪,水墨畫風格。

總得來說還不錯,美中不足之處在于一張圖沒有“舟”,還有一張舟上坐了兩個“翁”,就沒有孤獨的意境了。

看來詩詞這種過于凝練的還是有難度。

But,別忘了混元助手同時擁有聊天對話能力,還支持多輪對話。

借助強大的語言模型部分,我們也找出解決辦法。

接下來只需用“這些要求”“上述要求”來指代上面的回答,就可以讓兩個功能聯動起來了。

再畫就會更穩定,而且增加了雪花飄落的細節。

記住這個小技巧,接下來還會用到。

其實在騰訊混元助手中,專門準備了這樣一個存為指令的功能。

存好后就可以從對話框右邊的魔法棒圖標處快速調用了,只需要更改要描述的內容即可。

還可以方便地一鍵分享到微信,4張圖一次分享讓好友幫忙選,不用來回截圖了。

直接打開分享鏈接,就可以放大查看四張圖,還可以開始新對話!

了解過混元大模型的中文理解能力,再來試試最后一個特點風格多樣性

既然是騰訊出品,游戲插畫肯定少不了,比如正火的賽博朋克風。

有點感覺了,但總覺得還差點意思。

可以用上面的技巧來,聯動語言模型來明確賽博朋克風格的特點。

再手動加億點點料,就更對味了。

不同游戲的畫風差距極大,測試下來混元助手確實能hold住不少,從3D到2D甚至像素都沒問題。

即使是同一話題和風格限定,也能展現出不同的畫風,Furry控狂喜(doge)

其實騰訊透露,內部多個場景已經用上了混元大模型文生圖能力。

雖然還不知道具體怎么使用,但是我們測試了一下用《王者榮耀》來當風格限定詞,混元也能理解。

除了游戲之外還有廣告場景,前面提到的混元大模型文生圖真實感的優勢就能發揮出來。

也別忘了騰訊還有一大塊內容業務,來個玄幻小說插圖也沒問題。

這樣的文生圖效果,背后究竟是通過什么原理實現的?

在此之前,業界其實已經有不少文生圖的開源模型。

騰訊是基于其中某種方案打造,還是重新進行的自研?

帶著種種問題,我們和騰訊混元大模型文生圖技術負責人蘆清林聊了聊,了解了一下背后的技術細節。

模型全自研,用20億+圖文對煉成

“從算法、數據系統到工程平臺,都是從0到1自研。”

蘆清林表示,這也算是騰訊混元大模型文生圖功能的優勢,這樣從生成自由度到數據安全性,就都能完全把控,也讓生成的圖像“更符合用戶需求”。

首先是在算法這一塊。

當前文生圖模型普遍存在三個難點,語義理解差、構圖不合理、畫面細節無質感

語義理解差,就是模型聽不懂人話,尤其是中英文夾雜的人話。

當前業界普遍采用的是開源的CLIP算法,然而它一來沒有建模中文語言,輸入中文只能靠翻譯,會出現紅燒獅子頭真的生成獅子的問題(doge);另一個是訓練時圖文對齊能力不行。

構圖不合理,指的是生成的人體結構、畫面結構有問題,直接“生異形”。

如果直接基于業界已有的開源擴散模型生成圖像,就容易出現這個問題,像是出現“三只手”或者各種奇怪的畫面結構。

畫面細節無質感,就是生成圖像清晰度差。當前不少數據集圖像分辨率和質量不高,容易導致訓練出來的開源模型質量也不高。

為了解決這三個難點,騰訊混元團隊在算法階段,特意用了三類模型組合來“逐個擊破”。

語義理解上,騰訊自研了跨模態預訓練大模型,不僅讓它同時學會建模中英文,而且強化文本和圖像細粒度特征的聯系,簡單來說就是中文、英文、圖像三者的“跨模態對齊”。

生成構圖上,騰訊自研了一種擴散模型和Transformer混合的架構,尤其是將Transformer當前大火的旋轉位置編碼研究給用上了。

旋轉位置編碼通常被用于增加大模型的上下文長度,不過在這里被騰訊巧妙地用于刻畫人體結構,讓模型既能掌握全局信息(人體骨架)又能理解局部信息(臉部細節)。

最后是在畫面細節上,騰訊自研了超分辨率模型,與此同時還結合了多種算法,針對圖像不同的細節進行優化,讓最后生成的圖像進一步“耐看”。

這樣做出來的模型架構,不僅能生成質量更高的圖片(分辨率1024×1024),而且只需要微調一下架構,就能變成圖生圖、甚至是文生視頻模型。

接下來,就是關鍵的數據部分了。

對于文生圖而言,生成圖像的質量,很大程度上取決于數據的質量,OpenAI在DALL·E3論文中,通篇都在強調數據對于指令跟隨的重要性。

騰訊也非常重視數據對模型的重要性,并同樣自研了三方面的技術。

在數據質量上,由于互聯網上扒下來的數據集,往往存在文字描述簡潔、和生成內容不完全匹配的問題,因此團隊通過改善圖-文對數據集中的“文”部分,也就是細化中文的文本描述,來提升圖文數據的相關性;

在數據效果上,團隊針對訓練數據進行了“金銀銅”分層分級,等級越高,意味著數據清洗程度越精細。

其中,20+億未清洗的“青銅數據”,用來對所有模型進行“粗加工”,也就是預訓練;

6億+“白銀數據”,用來對生成模型進一步加工,提升生成質量;

1.12億+精心清洗的“黃金數據”,則用來對模型進行“精加工”,也就是精調突擊訓練,確保訓練出來的模型質量更優秀。

在數據效率上,為了加快訓練速度,尤其是針對用戶反饋對模型進行優化的速度,騰訊也建立了數據飛輪,自動化構建訓練數據并加快模型迭代,讓模型生成準確率進一步提升。

據蘆清林透露,數據飛輪這個技術,也正是解決數據長尾場景難題的關鍵。

由于我們的生活中總是在出現一些潮流新詞,例如“玲娜貝兒”等,這種名詞往往在數據集中不常見,而用戶又會在輸入時使用,因此往往需要第一時間更新進訓練數據中。

有了數據飛輪,就能將這個過程效率進一步提升,避免模型在見識到新詞后,依舊長時間無法生成對應的圖像。

最后,有了算法和數據,還得有個工程平臺,來把它們組合起來快速訓練。

為此,騰訊自研了Angel機器學習平臺,包括訓練框架AngelPTM和推理框架AngelHCF。

訓練上,大模型最重要的就是并行能力。為此,騰訊基于4D并行+ZeROCache機制,實現了千億參數混元大模型的快速訓練。

直觀來看,AngelPTM訓練框架相比業界主流框架DeepSpeed-Chat速度提升了1倍以上。

推理上,AngelHCF則實現了支持多種并行能力、支持服務部署及管理、以及自研模型無損量化三大功能,相比業界主流框架提升了1.3倍以上。

值得一提的是,在Angel機器學習框架和平臺的支持下,騰訊混元的語言模型也進行了一輪升級,尤其是代碼能力有不小的提升。

我們也簡單測了測騰訊混元大模型更新后的代碼能力。

首先試試寫代碼,以幫老師寫一個“隨機點名程序”為例(手動狗頭)。

混元大模型很快生成了一段帶注釋的完整代碼:

importrandom#假設班級里有50個學生,這里是他們的學號student_ids=['001','002','003','004','005','006','007','008','009','010','011','012','013','014','015','016','017','018','019','020','021','022','023','024','025','026','027','028','029','030','031','032','033','034','035','036','037','038','039','040','041','042','043','044','045','046','047','048','049','050']#使用random.choice()函數從學生學號列表中隨機選擇一個學生random_student_id=random.choice(student_ids)#打印隨機選中的學生學號print("隨機抽取的學生學號是:",random_student_id)

實測可以絲滑運行,每次都能抽到不同的幸(dao)運(mei)兒(dan)起來回答問題:

然后我們還發現,混元大模型竟然還能幫忙查代碼bug,屬實是程序員省心利器了。

當然,無論是文生圖還是代碼能力,現在都已經可以在騰訊混元助手中體驗。

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注