人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

基于兔靈大模型的AIGC內(nèi)容引擎,讓人類敘事更生動(dòng)高效

8月30日,由微新創(chuàng)想主辦的2023AIGC技術(shù)應(yīng)用大會(huì)在深圳舉行。本屆大會(huì)以“元載萬物·智啟新界”為主題,旨在聚焦AIGC技術(shù)的創(chuàng)新應(yīng)用,打造深入探索AIGC產(chǎn)業(yè)落地的交流平臺(tái)。

會(huì)上,兔展智能創(chuàng)始人、董事長兼CEO董少靈在《基于兔靈大模型的AIGC內(nèi)容引擎,讓人類敘事更生動(dòng)高效》演講中的精彩觀點(diǎn)如下:

1.生圖和語言表達(dá)只是人類敘事里的一部分,我們把人類敘事拆分成三個(gè)關(guān)鍵環(huán)節(jié),分別為:交互體驗(yàn)、感官視覺、知識(shí)理解;

2.圖形交互和語言交互的結(jié)合使用,才是真正創(chuàng)造內(nèi)容時(shí)更高效的一種手段;

3.我們?cè)谧龃竽P偷耐瑫r(shí)會(huì)兼顧重點(diǎn)推出落地的應(yīng)用,因?yàn)闆]有應(yīng)用就沒有最終的社會(huì)價(jià)值。

以下為演講內(nèi)容,由微新創(chuàng)想整理:

今天是我們第一次系統(tǒng)地把兔展以視覺為核心的多模態(tài)大模型的全貌對(duì)外進(jìn)行分享,同時(shí)還包括在探索道路上的一些思考。

十年前,我還在北大讀書時(shí),移動(dòng)互聯(lián)網(wǎng)的浪潮撲面而來。當(dāng)時(shí),我抓到了一個(gè)根本的機(jī)遇是移動(dòng)端吸引了大部分人的注意力,但是卻沒有任何的表達(dá)工具,無論是WPS、Adobe都是for PC的。

所以,在十年之前,我們正式進(jìn)入了讓人類敘事更加高效、生動(dòng)的鏈路中去,研發(fā)了最初的移動(dòng)互聯(lián)網(wǎng)時(shí)代的富媒體表達(dá)工具。

過了十年,從去年11月到今年,我相信這是一段令人沸騰的時(shí)期,美國人終于把我們夢(mèng)想多年的自動(dòng)生產(chǎn)內(nèi)容的道路、一個(gè)更加智能體的可能性走通了。

那么,到底這一波底層顆粒度更細(xì)的原理是什么?這一波為什么會(huì)發(fā)生?我和很多該領(lǐng)域的科學(xué)家和從業(yè)伙伴一起交流過,但大家其實(shí)并沒有一個(gè)對(duì)原理層完整、準(zhǔn)確的解釋,但是我認(rèn)為有兩位哲學(xué)家從哲學(xué)的方向性上已經(jīng)給了我們一些答案。

實(shí)際上,現(xiàn)今人類知識(shí)的教授是以康德的純粹批判理性為基礎(chǔ)的,認(rèn)為人類的知識(shí)可以橫平豎直地被分成很多學(xué)科,然后在每一個(gè)學(xué)科里有它最底層的公理、定理,在此基礎(chǔ)上可以再做很多推演,得到更多細(xì)分應(yīng)用型的知識(shí)。

而維特根斯坦很早就提出,他不認(rèn)為人類的知識(shí)可以被橫平豎直的有效劃分,而更認(rèn)為其實(shí)很多重要的知識(shí)和發(fā)現(xiàn)都會(huì)在混沌和交叉之處,他也是最早提出語言是通向智慧的核心道路這一命題的哲學(xué)家。

所以,今天我認(rèn)為從哲學(xué)角度可以說,在傳統(tǒng)一代的哲學(xué)家中,維特根斯坦得到了勝利,而當(dāng)代比較重要的一位哲學(xué)家,也是對(duì)這一次生成式人工智能的突破有比較大貢獻(xiàn)的是數(shù)學(xué)家沃爾弗拉姆。OpenAI DP插件中就有一個(gè)名為沃爾弗拉姆的插件。沃爾弗拉姆是一位數(shù)學(xué)家,包括大家曾經(jīng)學(xué)習(xí)數(shù)學(xué)時(shí)用過的Mathematica,就是他公司的作品。

我認(rèn)為這是從哲學(xué)上給予我們引導(dǎo)和方向性指引的兩位智者,也是我們前行中重要的心理得以安寧的基石,也是我們做很多重要探索的哲學(xué)基石。

關(guān)于人類的敘事表達(dá),比爾蓋茨和圖靈都有自己的論述,他們都認(rèn)為人工智能和新技術(shù)是人類能夠更好地表達(dá)自己、傳遞信息、接收信息的前提。

人類的表達(dá)到底有哪些環(huán)節(jié)?現(xiàn)如今,無論是西方還是中國,Midjourney、Stable Diffusion、ChatGPT都是非常火的應(yīng)用或者說底層模型。

但實(shí)際上,生圖和語言表達(dá)只是人類敘事里的一部分。我們可以把人類敘事整個(gè)拆分成三個(gè)關(guān)鍵的環(huán)節(jié),分別為:交互體驗(yàn)、感官視覺、知識(shí)理解。

例如,前些日子由于要加速我們股東的工商變更,我直接去到深圳的公務(wù)辦事大廳。當(dāng)時(shí),我所在的17號(hào)窗口,兩邊各有一位女士,對(duì)面是一位工作人員。左邊女士在和工作人員仔細(xì)論證說:一個(gè)藝人有限公司能否變成另一個(gè)藝人有限公司的股東。然后這個(gè)工作人員也無法解釋“公司法”第58條的內(nèi)核,這位女士也不懂“公司法”第58條是什么。我在旁觀的過程中,聽著他倆聊了10分鐘。

實(shí)際上,雙方既見面了,也發(fā)生動(dòng)作了,但互相理解不了說話的內(nèi)容,這就是一個(gè)知識(shí)理解的問題。很多復(fù)雜的知識(shí)在這一波生成式人工智能到來之前,其實(shí)是無法傳遞的。

這樣的情況還會(huì)發(fā)生在金融、法律、醫(yī)藥等服務(wù)領(lǐng)域,這些原來需要經(jīng)過重度學(xué)習(xí)才能掌握的復(fù)雜知識(shí)領(lǐng)域,都存在著這樣的困境。

我再講一個(gè)例子,這與理解和交互都有關(guān)。例如你在銀行APP里查詢“如何在附近的支行網(wǎng)點(diǎn)取到泰銖”,會(huì)得到怎樣的體驗(yàn)?原來的GUI交互設(shè)計(jì)并沒有用,去鄰近的網(wǎng)點(diǎn)詢問也沒有用(若是該網(wǎng)點(diǎn)沒有就是沒有),那么你打電話問客服有用嗎?可能有用。客服會(huì)告訴你一個(gè)肯定正確的答案,也就是會(huì)讓你去深圳分行營業(yè)部兌換,但是什么時(shí)候能去、要不要排隊(duì)、能拿多少一概不知。

這就是整個(gè)人類敘事和交互過程中的典型問題,而這些問題我認(rèn)為在這一波生成式人工智能時(shí)代是可以得以解決的,但是它絕不是單獨(dú)生成一張圖、單獨(dú)對(duì)話一次那么簡單的。

由此,我們?cè)谶@個(gè)問題上也在糾結(jié),我認(rèn)為生成式人工智能比較核心的兩大模態(tài),分別是自然式語言、自然式視覺,這兩者又不完全是一個(gè)領(lǐng)域。

我相信很多從業(yè)者也會(huì)有這樣的問題,若是做語言模型從何做起?做語言應(yīng)用從何做起?若是做圖像、做CV從哪做起?我們自己的起步其實(shí)是離CV更近的。

但是在這一波生成性人工智能浪潮中,語言模態(tài)的突破又是核心,它是讓上述核心問題得以發(fā)生根本性變化的一個(gè)非常核心的、牽引性的環(huán)節(jié),所以在這一波浪潮到來之前,我們核心解決的是這三大問題中的交互體驗(yàn)與部分的視覺感官問題。

這也是9年獲得9輪融資、擁有29個(gè)外部股東、在頭部行業(yè)覆蓋率超過70%的兔展所在做的事情:從一個(gè)簡單的H5工具進(jìn)化成一個(gè)讓所有交互控制的前端代碼都能自動(dòng)生產(chǎn)的第四代前端三劍客工具,并且能夠?qū)D像、視頻進(jìn)行基本的處理,但是高端的坦率來講還是要基于Adobe。

我們也把這其中一部分成果發(fā)表了論文,一部分技術(shù)環(huán)節(jié)也進(jìn)行了開源。我們也和北大聯(lián)合開發(fā)ChatLaw大模型,是目前為止在垂直領(lǐng)域跑分第一的大模型。這也是出于我們?cè)谡Z言模態(tài)為了讓法律知識(shí)變得更觸手可得、更簡單而研發(fā)的。

針對(duì)前面我遇到的真實(shí)場(chǎng)景,我最終的解決方案就是打開了ChatLaw,讓他倆都在里面聊了一下,然后我就迅速排上了隊(duì),得以解決了自己的問題。

另外,前段時(shí)間一些媒體報(bào)道稱DragonDiffusion、Language User Interface是這一次浪潮中特別重要的人機(jī)交互手段,但實(shí)際上它并不是唯一。

你若是和AI試圖表達(dá)說,“我要把這個(gè)凳子往那邊移15度、5米”,你不如用手把它拖過去。所以,圖形交互和語言交互的結(jié)合使用,才會(huì)是真正創(chuàng)造內(nèi)容時(shí)更高效的一種手段。

DragonDiffusion是我們和北大原創(chuàng)的一個(gè)大模型,能夠?qū)崿F(xiàn)圖形和語義雙模態(tài)交互下的內(nèi)容生產(chǎn),目前已經(jīng)發(fā)布并且有了早期的開源版。我們9月將發(fā)布DragonDiffusion的一個(gè)分支,這是國內(nèi)第一款能直接用模型生成各種各樣中文字體的大模型。

到目前為止,沒有一款能夠直接生產(chǎn)一套完整中文字體的公開的工具。如果你可以生產(chǎn)出類似于英文和韓文之間的一種字符,那么這必然是用stable diffusion套殼的。

Dragon CN Encoder則是解決CV領(lǐng)域的幻覺問題的一個(gè)重要的科研工具。前期,我們團(tuán)隊(duì)和騰訊發(fā)布了AI繪圖工具T2I-adapter,比ControlNet晚一周,但實(shí)際上在部分領(lǐng)域,T2I-adapter的性能比ControlNet還要好。

開發(fā)了Stable diffusion的Stability AI公司最近推出的Stable Doodle其實(shí)就是基于T2I-adapter做的。我們?cè)?月也會(huì)推出DragonAdapter,會(huì)在T2I-adapter的基礎(chǔ)之上再做升級(jí)。

在兔展AIGC內(nèi)容云的整體框架中,上層會(huì)產(chǎn)生一些應(yīng)用,包括:

1、在交互領(lǐng)域,對(duì)我們耕耘9年的領(lǐng)域進(jìn)一步升級(jí),Dragon Code(智碼)產(chǎn)品可以自動(dòng)生產(chǎn)代碼,尤其是在前端代碼上,可以減少95%以上的人力;

2、在理解領(lǐng)域已經(jīng)發(fā)布的ChatLaw;

3、我們最近會(huì)發(fā)布ChatDocument(暫定名),大家每天在微信里會(huì)收到大量信息,你可以通過這個(gè)工具自動(dòng)幫你摘要完,并且你可以多輪問詢獲得更進(jìn)一步的信息抽取,包括圖表的交叉分析;

4、我們未來也會(huì)發(fā)布ChatFinance,輔助用戶進(jìn)行股票研究,提升金融數(shù)據(jù)分析效率

5、最后是我們的老本行,也就是圖形和語義雙料交互的中國版的、超越Stable Diffusion的工具——Chat&Drag-Image(智圖)。

講回模型領(lǐng)域,我們公司本身不做客服,也不做NLP,北大傳統(tǒng)的優(yōu)勢(shì)項(xiàng)目其實(shí)也是CV,所以我們沒有在語言模態(tài)上糾結(jié)太多的底層科研問題,我們就只重點(diǎn)攻關(guān)了一件事——防幻覺。

在這一波浪潮里的一個(gè)基礎(chǔ)機(jī)理,就是對(duì)下一個(gè)詞的預(yù)測(cè)以及概率可行。這其實(shí)與我們?cè)谝曈X模態(tài)里核心糾結(jié)精準(zhǔn)控制生產(chǎn)其實(shí)最終是一脈相承的。

ChatGPT在具體的垂直領(lǐng)域應(yīng)用中,會(huì)把這個(gè)世界上本來不存在的法律和案例進(jìn)行胡編亂造,這也是很多專業(yè)人士最核心的苦惱。

我們預(yù)計(jì)在9月28日會(huì)發(fā)表一篇題為《在生成式人工智能時(shí)代,如何解決精準(zhǔn)與防幻覺的問題?》的論文。我們首個(gè)法律大模型產(chǎn)品ChatLaw在垂直領(lǐng)域的跑分至今未被超越,這也是我們很遺憾的一件事情。

以下是我們重點(diǎn)打造的場(chǎng)景:

1、多場(chǎng)景復(fù)用:普惠法律服務(wù)

實(shí)際上,在很多復(fù)雜的知識(shí)領(lǐng)域,中國有十幾億人沒有任何的法律手段,沒有任何對(duì)金融知識(shí)理解的辦法,沒有任何有效健康管理的方法,這是我們重要的使命之一。

所以,ChatLaw雖然獲得了1萬多家大型企業(yè)、律師事務(wù)所和政府相關(guān)部門的詢問,但我們現(xiàn)在第一批落地的全部是在公共法律服務(wù)領(lǐng)域。我們的初心就是讓更多人有機(jī)會(huì)理解復(fù)雜事物,避免耽誤自己人生里最重大的事情,希望在這個(gè)領(lǐng)域能做出一點(diǎn)貢獻(xiàn)。

我們的思路就是如何讓多模態(tài)化為可行。比如,以前我們撥打法律援助電話12348,并不支持上傳錄像、錄音和做法律意見總結(jié)。所以,我們認(rèn)為在讓十幾億人有法律幫助這件事情上,必須要把它做成多模態(tài),實(shí)際我們也是這么做的。

2、微信文件摘要場(chǎng)景應(yīng)用:ChatDocument(暫定名)

我們近期會(huì)推出微信文件摘要場(chǎng)景應(yīng)用ChatDocument,目前已經(jīng)基本研發(fā)完畢,正在走各種備案和審核流程。其實(shí),Chatknowledge就是我們防幻覺語言模型里的一個(gè)通用性的應(yīng)用。

例如,每天有很多人發(fā)各種各樣的材料問你,這家AI公司靠不靠譜?那家AI底層是不是吹牛?這家公司到底是不是套殼Stable diffusion?未來,我會(huì)先用這款工具簡單分析下這些人的問題和發(fā)來的材料,然后在此基礎(chǔ)上我再進(jìn)行回答。

3、金融研究應(yīng)用場(chǎng)景:ChatFinance(暫定名)

金融其實(shí)是我們過去9年最核心的付費(fèi)領(lǐng)域。我們想借助語言模態(tài)讓金融知識(shí)更加的普惠。

4、AI圖像引擎:DragonDiffusion

我們前段時(shí)間發(fā)布了DragonDiffusion的公開版,用戶只需要進(jìn)行框選和拖拽,就可以輕松實(shí)現(xiàn)AI圖像編輯和再生成,而這是Stable diffusion所無法做到的。

5、AI圖像引擎:DragonAdapter

DragonAdapter是用于文本到圖像擴(kuò)散模型的控制器,是在T2I-Adapter模型的基礎(chǔ)上升級(jí)迭代而來。讓我們也很高興的一點(diǎn)是,開發(fā)了Stable diffusion的Stability AI公司近日發(fā)布的最新涂鴉生圖工具Stable Doodle其工具底層也是用了T2I-Adapter作為核心控制技術(shù),這可能是國內(nèi)唯一一個(gè)有效的控制模型了。

6、AIGC內(nèi)容云應(yīng)用:智圖

我們已經(jīng)有一部分頭部客戶在使用。目前,智圖這款產(chǎn)品在底層、上層應(yīng)用體驗(yàn)還有待完善,會(huì)稍后時(shí)間發(fā)布,但目前我們已經(jīng)有一些頭部客戶在每天的工作流里真實(shí)在使用。

最后,我們之所以做大模型的底層邏輯就是會(huì)重點(diǎn)推出一些應(yīng)用,因?yàn)?strong>沒有應(yīng)用就沒有最終的社會(huì)價(jià)值,但是我們也非常重視一定要有底層突破,把真正的要素控得更牢一點(diǎn)。

我們擁有900+TB的全網(wǎng)營銷存量數(shù)據(jù)的積累,又有1500萬政企的存量用戶以及在金融、醫(yī)藥、政務(wù)服務(wù)等場(chǎng)景里有我們一定的理解。基于此,我們進(jìn)一步把另外的要素進(jìn)行加強(qiáng)。

我們長期要做的一件事就是幫助人類敘事更加科學(xué)、更加高效。在科學(xué)策略里,我們也有一些獨(dú)到的產(chǎn)品,包括視頻號(hào)里最有效的數(shù)據(jù)工具——視頻號(hào)精靈、全網(wǎng)廣告的洞察投放ROI工具——EDX,以及我們?cè)诖怪鳖I(lǐng)域與產(chǎn)業(yè)做重度結(jié)合的一方數(shù)據(jù)的策略產(chǎn)生——金融醫(yī)藥營銷云。

以上是我們過去9年所做的努力,希望能夠在今天這個(gè)節(jié)點(diǎn)帶給大家一些思考。

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會(huì)被公開。 必填項(xiàng)已用 * 標(biāo)注