人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

100萬懸賞AI界喜劇之王!北郵、南洋理工等發布「沙雕視頻」數據集FunQA:用算法學習人類幽默

聲明:本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元,授權微新創想轉載發布。

【新智元導讀】4千個沙雕視頻+31萬條鑒賞文本,讓AI模型學習更準確的視頻理解,反常識推理,幽默感,和準確的自由文本生成。

人們很容易就能在反直覺視頻(幽默的、創意的、充滿視覺效果的視頻)中獲得愉悅感,這吸引力不僅來自于視頻對人類的視覺感官刺激,更來自于人類與生俱來的理解和發現快樂的能力,即能夠理解并在出乎意料和反直覺的時刻找到樂趣。

然而,盡管今天的計算機視覺模型取得了重大進步,但問題仍然存在:視頻模型能夠「理解」視頻中的幽默或創造力嗎?

目前的視頻問答(VideoQA)數據集仍集中于常見的、不太令人驚訝的視頻和簡單的任務(如Multi-choice, Open-end)。

僅僅回答出視頻中簡單的人事物(What, Who, How many, etc.)顯然是不足以為理解視頻提供幫助的。常用的視頻問答數據集包括YouCook2(其中包含2K烹飪視頻)及Howto100m(其中僅包含教學視頻)。

部分數據集(如UR-FUNNY等)引入了電視節目中的幽默片段,并設置了預測笑聲軌跡等任務,但這些任務往往嚴重依賴音頻和敘事線索,視覺線索無法起到太大的作用。

為了解決這一差距并評估計算機視覺模型理解反直覺視頻的能力,來自北京郵電大學、新加坡南洋理工大學及艾倫人工智能研究所的學者們提出了FunQA——一個全面的高質量視頻問答數據集,由4.3K個有趣的視頻和312K個人工注釋的自由文本問答對組成。

論文地址:https://arxiv.org/abs/2306.14899

FunQA數據集包括三個子集:HumorQA、CreativeQA和MagicQA。每個子集涵蓋不同的來源和視頻內容,但共性在于視頻令人驚訝的特性,例如,幽默視頻中出人意料的對比,創意視頻中耐人尋味的偽裝,以及魔術視頻中看似不可能的表演。

在FunQA中,研究者還制定了三個嚴格的任務以衡量模型對反直覺視頻的理解。

這些任務使視頻推理超越了膚淺的描述,要求模型具有更深入的理解和洞察能力。具體任務包括:

1)反直覺的時間戳定位:此任務要求模型確定視頻中意外事件發生的具體時間段;

2)詳細的視頻描述:模型必須生成連貫、客觀的視頻內容描述,以展示其基本視頻理解能力;

3)反直覺推理:模型必須對視頻令人驚訝的原因做出具體解釋。這需要對視頻中的反直覺事件進行深度推理。

這些任務逐步評估模型對視頻中出現的反直覺元素的感知、表達和推理能力。

此外,研究者還提出了更具挑戰性的輔助任務,包括為視頻起一個合適而生動的標題等。

下圖為FunQA三個子集的Demo,展示了FunQA針對不同視頻類型設計的問答對。

FUNQA數據集

在構建數據集時,研究者堅持三個原則來解決視頻理解能力的挑戰,即以視覺為中心,強調反直覺推理能力,及強調時空推理能力。

基于這些原則,FunQA包括來自3種不同藝術流派的4,365個視頻和311,950個問答對。這些視頻的總長度為23.9小時,視頻段的平均長度為19秒。

FunQA數據集包括三個子集:HumorQACreativeQAMagicQA。數據集具體統計數據見圖2。

從統計數據圖2(h)中可以看到三種不同類型視頻的時間戳熱圖,它顯示了答案的高頻時間跨度。

從圖2(h)中可以發現,對于描述和推理任務,其自由文本答案的平均長度達到了34.24,很大程度超越現有的VideoQA數據集(如Activity-QA中的8.7及NExT-QA中的11.6)。

FunQA標注一致性評估結果如圖2(i)所示,對于每個視頻類別,超過90%的注釋表現出高度的一致性,只有1%的內容表現出低一致性。大約8%的數據顯示了共識的變化,顯示了FunQA數據集的客觀性。

FunQA與其他現有基準的比較

與其他基準相比,FunQA關注有趣和反直覺視頻領域。FunQA中的任務專為挑戰模型的視覺能力而設計,需要深入描述、解釋和時空推理能力。下表詳細展示了FunQA與其他基準的對比。

通常,一個基準上的性能趨勢可能與另一個基準上的性能趨勢相似,例如VQA和MSCOCO之間值得注意的相關性。

然而相比于其他數據集,FunQA數據集不僅提供了新領域的評估,而且以其他數據集可能沒有的方式為模型提出挑戰,其特點包括:

1)深度時空推理:FunQA側重于反直覺的內容,要求模型先理解典型場景(常識),再辨別幽默偏差。這種類型的深度推理仍然是一個具有挑戰性但尚未開發的領域。

2)豐富的注釋:與許多依賴于多選題或開放式簡短答案的數據集不同,FunQA擁有平均長度為34個單詞的自由文本注釋(在此之前,視頻問答領域中注釋最豐富的數據集是NExT-QA,平均單詞長度為11.6)。這種詳細的注釋方法允許更豐富的模型響應,并測試它們生成更細微的答案的能力。

3)探索幽默感:對幽默原則的細致理解可能對模型真正掌握一些視頻的內容至關重要。(之前沒有視頻問答數據集關注這方面,僅有VisualQA領域出現了相關的新數據集如The New Yorker Caption Contest)。決定如何使用這些幽默信息裝備模型,以及哪些其他類型的知識可能是「有價值的」,是令人興奮的研究方向。

實驗結果與結論

研究者在7個視頻問答模型(分為基于caption的模型和基于instruction的模型)上進行測試,下表展示了主要實驗結果。

在FunQA基準中,H1、C1、M1分別代表三個子集上反直覺的時間戳定位任務,其中衡量指標為IOU。H2、C2、M2代表詳細視頻描述任務,H3、C3、M3代表反直覺推理任務。

對于更高層次的任務,H4、C4代表為視頻起一個恰當而生動的標題。

所有這些任務的答案都是自由文本格式,由此研究者使用以下指標進行衡量:BLEU-4,ROUGE-L,CIDEr,BLEURT和GPT-4。

C5代表給創意視頻的創造性打分,其評估方式是預測分數和官方分數之差。

此外,研究者展示了不同模型對于FunQA的響應實例。

圖3展示的是VideoChat、Video-ChatGPT和Otter在圖中的幽默視頻上給出的回復。在任務H2、H3上,VideoChat的表現最好

在任務H4上,Video-ChatGPT和Otter回答得更好,這與表2中的實驗結果一致。

然而,所有模型的答案仍然與正確答案有較大差距,尤其在細節的描述和反直覺的解釋上有許多缺點。

總結

總體而言,模型在FunQA數據集上的性能普遍不令人滿意。幾個關鍵的發現包括:

1)時間戳定位任務是最具挑戰性的。

基于caption的模型通常忽略時序信息,而基于instruction的模型,如Otter,只從特定的幀中獲取視覺信息而不引入時序內容。因此,目前沒有一個VLM可以解決H1、C1和M1的任務。

2)所有任務都沒有明確的贏家。

基于caption的模型在提供詳細描述方面表現出色,但在需要推理的任務中表現不佳,導致描述任務(如H2)和推理任務(如H3)之間存在顯著的性能差距。

另一方面,基于instruction的模型表現出更強的推理能力,但在描述任務中表現不佳。一種可能的解釋是:基于instruction的模型可能在它們的答案中包含過多冗余的信息,導致描述任務性能下降。

3)不同視頻類型的性能差異很大。

大多數模型在幽默和魔術視頻中可以得到相對準確的答案,但對于創意視頻卻很難回答問題。這可能是因為幽默和魔術視頻通常描述模型以前遇到過的日常生活,而創意視頻包含模型從未見過的內容,因此模型難以產生新的想法,導致不相關和錯誤的答案。

4)自由文本任務的評估指標不足。

傳統的衡量標準在自由文本問題上的得分幾乎為零,因為它們只關注基礎的的文本相似性。研究者發現GPT-4在評估自由文本的深度理解方面顯示出一定的能力。然而,仍然存在不穩定的問題,即相同的內容可以得到不同的分數。

5)微調后的Otter在傳統指標上表現良好,但在GPT-4評分上落后。

研究者在Dense Caption和FunQA上對Otter進行了微調,Otter(FunQA)相對于Otter(D.C.)表現出了明顯的性能優勢。雖然與其他基于instruction的模型相比,Otter在ROUGE-L等傳統指標上表現更好,但Otter的GPT-4分數表現不佳。

一個可能的原因是,Otter的輸入只是從視頻中采樣的128幀,不足以進行綜合推理。Otter在傳統指標和GPT-4上的得分之間的差異與前文缺乏評估指標的發現相匹配。

討論

前文提到,相比現有視頻問答數據集,FunQA具有深度時空推理及探索幽默感等特點,由此也對模型提出了新的挑戰:

1)準確理解信息和長視頻:通過對失敗案例的分析,研究者發現許多模型都難以準確地描述視頻。雖然他們可能擅長檢測視頻中的物體,但他們在理解連續事件之間的上下文關系時往往會猶豫不決。這表明該領域有必要進一步探索,FunQA可以作為深入探索視頻描述的寶貴數據集。

2)邏輯推理:FunQA數據集中視頻的主要性質是包含違反直覺和與常識相矛盾的內容。為了讓模型理解這些,它們必須掌握“常識”的概念,推斷出在正常情況下通常會發生什么,然后用這種視角幽默地解讀視頻。這就要求模型具有較強的推理能力。如何在模型中注入常識性仍然是一個重要的研究點。

3)額外知識——幽默感:要想解讀視頻中的幽默,理解幽默的基本原理是至關重要的。這類知識以及其他常識和附加信息可能會增強模型的性能。因此,決定如何整合有價值的知識和辨別什么是“有價值的”是值得進一步探索的主題。

針對模型面臨的挑戰,研究者提出了一些可能的解決方案:

1)模型大小:增加參數的數量是提高模型性能的自然方法。然而,這種方法有其自身的工程挑戰,需要在模型優化和部署方面進行改進。模型參數數量與其在FunQA基準上性能之間的關系值得進一步探索,FunQA數據集可以作為優秀測試平臺。

2)數據質量:研究者認為這項任務的重點應該放在數據收集上。目前大型動態模型的趨勢表明,擁有大量低質量數據遠不如擁有少量高質量數據有效。因此,研究者希望社區能夠發現真正有助于理解反直覺視頻的數據類型。這是一個至關重要的研究方向。

3)訓練策略:研究訓練策略也很重要。例如,確定從哪種類型的數據開始學習,以及理解課程學習的意義等等。

4)模型協作:研究者認為,也許多個模型以一種優雅的方式協作處理示例可能是提高性能的一種方法。然而,這種方法可能需要更多地關注模型實現的整體效率。

目前工作的局限性:

1)當前FunQA數據集主要包括視頻級別的數據和注釋,但可以引入更深入的注釋來探索視頻推理的可能性,例如詳細的空間和時間注釋,即對應于特定時間軸的字幕和對象級別的注釋。

2)原始注釋由中文完成。在翻譯成英文的過程中,研究者首先使用GPT對中文注釋進行潤色和補充,使文本盡可能完整。然而,由于兩種語言之間的文化差異,注釋間可能仍然存在分歧。

未來的工作

研究者希望用更深度、更多樣的注釋來擴展FunQA數據集。

此外,將探索新的指標以更好地評估模型的性能,特別是在缺乏深度指標的開放式問題中。

最后,研究者希望為模型向更深層次的視頻推理發展提供方向。

基于FunQA的算法大賽

2023年7月,獎金100萬美元的算法大賽FunQA Challenge正式開啟報名。

具體詳情地址:

https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50154a0ed647faca623a&award=1,000,000

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注