pg電子娛樂(lè)平臺(tái) 50億圖文中提取中文跨模態(tài)基準(zhǔn),奇虎360預(yù)訓(xùn)練框架超越多項(xiàng)SOTA
對(duì)于中文社區(qū)來(lái)說(shuō),本文提出的大規(guī)??缒B(tài)基準(zhǔn)數(shù)據(jù)集無(wú)疑是有價(jià)值的
視覺(jué)語(yǔ)言預(yù)訓(xùn)練(VLP)主要學(xué)習(xí)視覺(jué)與自然語(yǔ)言之間的語(yǔ)義對(duì)應(yīng)關(guān)系。得益于海量數(shù)據(jù)、Transformer等優(yōu)秀架構(gòu)、CLIP等跨模態(tài)模型以及硬件設(shè)備的支持,一系列開(kāi)創(chuàng)性的工作對(duì)VLP模型進(jìn)行了探索,并在各種視覺(jué)語(yǔ)言任務(wù)上取得了重大進(jìn)展。
通過(guò)大規(guī)模訓(xùn)練語(yǔ)料庫(kù)(主要是英語(yǔ)),眾多 VLP 模型已被證明對(duì)下游任務(wù)有益。然而,中文視覺(jué)語(yǔ)言數(shù)據(jù)集非常少,并且存在各種局限性。對(duì)于大規(guī)模預(yù)訓(xùn)練模型和下游任務(wù)微調(diào)的經(jīng)典模型,中國(guó)跨模態(tài)領(lǐng)域缺乏包含大量高質(zhì)量數(shù)據(jù)并完整定義預(yù)訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)基準(zhǔn),多個(gè)下游任務(wù)訓(xùn)練集,以及下游任務(wù)測(cè)試集。
如何構(gòu)建完整、公正、高質(zhì)量的文本描述中文跨模態(tài)基準(zhǔn)已成為迫切需要解決的問(wèn)題。
近日,奇虎360人工智能研究院和清華大學(xué)的研究人員在最新論文中重點(diǎn)關(guān)注了大規(guī)模視覺(jué)語(yǔ)言數(shù)據(jù)集和跨模態(tài)表示學(xué)習(xí)模型。研究人員提出了大規(guī)模中文跨模態(tài)基準(zhǔn)數(shù)據(jù)集 Zero,其中包含兩個(gè)稱為 Zero-Corpus 的預(yù)訓(xùn)練數(shù)據(jù)集和五個(gè)下游任務(wù)數(shù)據(jù)集,在一定程度上填補(bǔ)了中文圖文跨模態(tài)的空白。模態(tài)數(shù)據(jù)集。州域數(shù)據(jù)集中的差距。此外,研究人員還提出了一種用于大規(guī)??缒B(tài)學(xué)習(xí)的視覺(jué)語(yǔ)言預(yù)訓(xùn)練框架R2D2。它基于所提出的零語(yǔ)料庫(kù)數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練,并在多個(gè)下游任務(wù)上進(jìn)行了測(cè)試。 R2D2取得了多項(xiàng)超越SOTA的成果。以上數(shù)據(jù)集和模型均開(kāi)源。
研究人員還嘗試使用 2.5 億個(gè)更大的內(nèi)部數(shù)據(jù)集來(lái)訓(xùn)練 R2D2 模型。與2300萬(wàn)數(shù)據(jù)相比,模型效果還是有明顯提升。尤其是在零樣本任務(wù)上,與之前的SOTA相比,在Flickr30k-CN數(shù)據(jù)集上,R@M提升到了85.6%(提升了4.7%),在COCO-CN數(shù)據(jù)集上,R@M提升了至 80.5%。 (增長(zhǎng)了5.4%),而在MUGE數(shù)據(jù)集上,R@M增長(zhǎng)到了69.5%(增長(zhǎng)了6.3%)。
論文地址:
零語(yǔ)料庫(kù)預(yù)訓(xùn)練數(shù)據(jù)集由包含 2300 萬(wàn)個(gè)圖像文本對(duì)的完整版本和包含 230 萬(wàn)個(gè)圖像文本對(duì)的較小子集版本組成。其中,完整的預(yù)訓(xùn)練數(shù)據(jù)集是從搜索引擎收集的,包含圖像和相應(yīng)的文本描述,并根據(jù)用戶點(diǎn)擊率(CTR)從50億張圖像和文本中過(guò)濾出來(lái)。在完整版本上訓(xùn)練VLP模型可能需要大量的GPU資源,因此為了方便學(xué)術(shù)研究,研究人員還提供了230萬(wàn)個(gè)版本的子集,其中包含完整版本的10%的圖文對(duì)。
除了兩個(gè)預(yù)訓(xùn)練數(shù)據(jù)集之外,研究人員還提供了五個(gè)高質(zhì)量的下游數(shù)據(jù)集,用于長(zhǎng)短文本的圖文檢索和圖文匹配任務(wù)。特別值得一提的是Flickr30k-CNA,這是一個(gè)手動(dòng)翻譯的數(shù)據(jù)集,比Flickr30k-CN更準(zhǔn)確。可以用來(lái)比較中英文跨模態(tài)模型的效果,也可以用來(lái)研究翻譯語(yǔ)料質(zhì)量對(duì)結(jié)果的影響。
對(duì)于VLP模型,研究人員提出了一種新的跨模態(tài)學(xué)習(xí)預(yù)訓(xùn)練框架R2D2。該框架結(jié)合了雙塔模型和單塔模型。它基于圖像模態(tài)表示和文本模態(tài)表示,采用交叉注意力機(jī)制來(lái)融合圖像和文本信息,受到推薦系統(tǒng)和在線廣告等技術(shù)的啟發(fā)。使用全局對(duì)比預(yù)排序(GCPR)來(lái)獲得跨模態(tài)表示,最后使用細(xì)粒度排序(FGR)來(lái)進(jìn)一步提高模型性能。
此外,研究人員還介紹了一種雙向蒸餾方法,包括目標(biāo)引導(dǎo)蒸餾(TgD)和特征引導(dǎo)蒸餾(Feature-guided Distillation,F(xiàn)gD)。其中,面向目標(biāo)的蒸餾提高了從噪聲標(biāo)簽中學(xué)習(xí)的魯棒性,面向特征的蒸餾旨在提高R2D2的泛化能力。
數(shù)據(jù)集概述
預(yù)訓(xùn)練數(shù)據(jù)集零語(yǔ)料庫(kù)
現(xiàn)有的數(shù)據(jù)收集方法有兩個(gè)主要限制。首先,僅通過(guò)爬行采集到的圖像與文本的對(duì)應(yīng)關(guān)系較弱,噪聲較多;其次,圖像往往只包含一個(gè)對(duì)應(yīng)的文本,文本數(shù)據(jù)缺乏多樣性。
為了克服上述限制,研究人員創(chuàng)建了一個(gè)新的中文圖像和文本預(yù)訓(xùn)練數(shù)據(jù)集——零語(yǔ)料庫(kù)。他們根據(jù)用戶點(diǎn)擊對(duì)圖像搜索引擎中的 50 億張圖像進(jìn)行排序。排名靠前的圖像表示用戶在查詢時(shí)點(diǎn)擊次數(shù)最多,表明該圖像與搜索查詢文本最相關(guān)。此外,研究人員還刪除了不恰當(dāng)和有害的文字描述,并過(guò)濾掉了有害的圖像。上述過(guò)程最大化了圖像和文本數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,并過(guò)濾出高質(zhì)量的圖像。研究人員按照上述方法總共處理了約 2.5 億個(gè)最相關(guān)、高質(zhì)量的圖文對(duì),最終隨機(jī)選擇其中 2300 萬(wàn)個(gè)構(gòu)建公共預(yù)訓(xùn)練數(shù)據(jù)集。
研究人員還為每張圖像提供了多樣化的文本描述,包括標(biāo)題(Title)、內(nèi)容(Content)和圖像查詢術(shù)語(yǔ)(ImageQuery)。這些信息(包括多個(gè)文本)可用于構(gòu)建不同的跨模態(tài)任務(wù),以促進(jìn)對(duì)圖像和文本之間的跨模態(tài)關(guān)系進(jìn)行更全面的建模和研究。下圖顯示了一些具體示例。
零語(yǔ)料庫(kù)圖像文本對(duì)示例。
下游數(shù)據(jù)集
為了評(píng)估預(yù)訓(xùn)練模型的性能,大多數(shù)工作都會(huì)在各種下游數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。與現(xiàn)有的英文描述的下游數(shù)據(jù)集相比,帶有中文文本的下游數(shù)據(jù)集很少。
為此,研究人員構(gòu)建了四個(gè)中文圖文數(shù)據(jù)集,分別是ICM、IQM、ICR和IQR。在預(yù)訓(xùn)練數(shù)據(jù)處理的基礎(chǔ)上(按點(diǎn)擊排序并過(guò)濾優(yōu)質(zhì)內(nèi)容后),我們進(jìn)一步手動(dòng)標(biāo)記這些下游任務(wù)的標(biāo)簽pg電子娛樂(lè)平臺(tái),以保證數(shù)據(jù)的準(zhǔn)確性。對(duì)于每個(gè)下游任務(wù)數(shù)據(jù)集,將訓(xùn)練集、驗(yàn)證集、測(cè)試集按照8:1:1的比例劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。與預(yù)訓(xùn)練數(shù)據(jù)不同,這些下游任務(wù)的數(shù)據(jù)集只為每張圖像保留一個(gè)對(duì)應(yīng)的文本。
圖像標(biāo)題匹配數(shù)據(jù)集(ICM)用于長(zhǎng)文本圖像文本匹配和分類任務(wù)。每個(gè)圖像都有相應(yīng)的標(biāo)題文本,詳細(xì)描述該圖像。研究人員首先使用 CTR 選擇最相關(guān)的對(duì),然后通過(guò)手動(dòng)注釋對(duì)其進(jìn)行校準(zhǔn)??偣搏@得了40萬(wàn)個(gè)圖文對(duì),其中正樣本20萬(wàn)個(gè),負(fù)樣本20萬(wàn)個(gè)。
圖像查詢匹配數(shù)據(jù)集(IQM)用于短文本圖像文本匹配和分類任務(wù)。數(shù)據(jù)收集的方法與ICM類似,只不過(guò)使用搜索查詢而不是詳細(xì)描述文本。 IQM還包含20萬(wàn)個(gè)正樣本和20萬(wàn)個(gè)負(fù)樣本
圖像字幕檢索數(shù)據(jù)集(ICR)用于長(zhǎng)文本圖像-文本互檢任務(wù)。研究人員使用與 ICM 相同的規(guī)則收集了 200,000 個(gè)圖像文本對(duì)。
圖像查詢檢索數(shù)據(jù)集(IQR)用于短文本圖像-文本互檢任務(wù)。研究人員使用與 IQM 相同的規(guī)則收集了 200,000 個(gè)圖像文本對(duì)。
從左到右是來(lái)自 ICM、IQM、ICR 和 IQR 數(shù)據(jù)集的圖形和文本示例。
之前的Flickr30k-CN使用機(jī)器翻譯來(lái)翻譯Flickr30k的訓(xùn)練集和驗(yàn)證集,但是機(jī)器翻譯的結(jié)果有兩類常見(jiàn)的問(wèn)題。一方面,部分句子存在一定的翻譯錯(cuò)誤;另一方面,有些句子的中文語(yǔ)義不順暢。
因此,研究人員邀請(qǐng)了六名中英文語(yǔ)言學(xué)專業(yè)人士對(duì)所有 Flickr30k 數(shù)據(jù)進(jìn)行了重新翻譯,并對(duì)每個(gè)句子進(jìn)行了仔細(xì)檢查,最終生成了新的數(shù)據(jù)集 Flickr30k-Chinese All(Flickr30k-CNA),用于進(jìn)行圖文交叉評(píng)價(jià)。模態(tài)任務(wù)。
本文提出的 Flickr30k、Flickr30k-CN 和 Flickr30k-CNA 的示例比較。
方法概述
模型架構(gòu)
下圖1是R2D2預(yù)訓(xùn)練框架的架構(gòu)概述,其中包含一個(gè)文本編碼器、一個(gè)圖像編碼器和兩個(gè)交叉編碼器。其中,文本編碼器和圖像編碼器分別將文本和圖像轉(zhuǎn)換為隱藏狀態(tài)序列。然后,文本和圖像隱藏狀態(tài)通過(guò)交叉注意力在兩個(gè)交叉編碼器中進(jìn)行交互。
研究人員使用 RoBERTa 作為文本編碼器。給定一個(gè)文本序列,首先使用 RoBERTa-wwm-ext 的分詞器對(duì)它們進(jìn)行分詞。在這里,一個(gè)特殊的 [CLS] 標(biāo)記被附加到標(biāo)記化文本的頭部,而 [SEP] 標(biāo)記被附加到尾部。然后將標(biāo)記化的文本輸入文本編碼器。
研究人員使用 ViT 作為圖像編碼器。他們首先將輸入圖像縮放到標(biāo)準(zhǔn)尺寸,并將圖像劃分為多個(gè)塊。然后對(duì)每個(gè)補(bǔ)丁進(jìn)行線性映射并添加位置嵌入。此外pg麻將胡了試玩平臺(tái),可學(xué)習(xí)的 [CLS] 標(biāo)記與補(bǔ)丁向量連接起來(lái)。最后將序列向量輸入到標(biāo)準(zhǔn)Transformer模型中,得到圖像隱藏狀態(tài)向量。
研究人員融合了圖像和文本潛在向量,并將它們輸入交叉編碼器。具體來(lái)說(shuō),他們使用線性映射層來(lái)改變每個(gè)文本特征和圖像特征的尺寸,使它們保持一致。多層Transformer使用交叉注意力來(lái)融合兩種模態(tài)的特征信息并生成最終的跨模態(tài)輸出。
預(yù)訓(xùn)練方法
為了探索圖像和文本對(duì)之間的匹配關(guān)系,研究人員設(shè)計(jì)了預(yù)排序+排序機(jī)制,即全局比較預(yù)排序(GCPR)和細(xì)粒度排序(FGR)。他們還采用掩碼語(yǔ)言建模(MLM)來(lái)有效學(xué)習(xí)跨模態(tài)模型的表示。
首先是全局比較預(yù)排序。傳統(tǒng)的對(duì)比學(xué)習(xí)旨在對(duì)齊多模態(tài)數(shù)據(jù)的表示(例如圖像和文本對(duì)),從而最大化正對(duì)的相似度分?jǐn)?shù)并最小化負(fù)對(duì)的分?jǐn)?shù)。研究人員使用全局對(duì)比學(xué)習(xí)來(lái)完成預(yù)排序任務(wù),他們?cè)?k 個(gè) GPU 上執(zhí)行完整的反向傳播。對(duì)于每個(gè)圖像 I_i 和對(duì)應(yīng)的文本 T_i,圖像和文本的 softmax 歸一化相似度分?jǐn)?shù)可以定義如下:
全局對(duì)比預(yù)排序損失由交叉熵?fù)p失L_c(·)計(jì)算,如下式(2)所示:
然后是細(xì)粒度排序。如上所述,我們使用全局對(duì)比預(yù)排序來(lái)獲得圖像和文本的單一表示?;谶@些表示,進(jìn)一步利用細(xì)粒度排名損失來(lái)執(zhí)行細(xì)粒度排名任務(wù)。這是一個(gè)二元分類任務(wù),旨在預(yù)測(cè)圖像和文本是否匹配。
研究人員將h_I_[CLS]和h_T_[CLS]作為兩個(gè)交錯(cuò)編碼器的輸出表示。給定圖像表示 h_I_[CLS] 和文本表示 h_T_[CLS],研究人員將它們輸入全連接層 g(·) 以獲得它們各自的預(yù)測(cè)概率。令 y 代表二元分類的真實(shí)標(biāo)簽,研究人員計(jì)算細(xì)粒度排名損失如下。
研究人員將屏蔽語(yǔ)言建模損失應(yīng)用于文本-圖像交叉編碼器,以提高在標(biāo)記級(jí)別對(duì)文本和圖像之間的關(guān)系進(jìn)行建模的能力。 15% 的文本標(biāo)記在輸入中被屏蔽,并且所有這些標(biāo)記都被替換為 [MASK] 標(biāo)記。
在研究人員的模型中,屏蔽語(yǔ)言建模任務(wù)使用屏蔽文本和相應(yīng)的圖像一起去噪,從而增強(qiáng)文本和圖像之間的交互。由于細(xì)粒度排序嚴(yán)重依賴這種交互能力,因此研究人員提出了增強(qiáng)訓(xùn)練(ET),將屏蔽語(yǔ)言建模任務(wù)集成到前向圖像文本對(duì)的細(xì)粒度排序的前向操作中。
雙向蒸餾
大多數(shù)圖像和文本預(yù)訓(xùn)練數(shù)據(jù)都是由半自動(dòng)化程序收集的,導(dǎo)致數(shù)據(jù)充滿噪聲。不準(zhǔn)確的標(biāo)簽可能會(huì)誤導(dǎo)模型訓(xùn)練。為此,研究人員提出了目標(biāo)導(dǎo)向蒸餾(TgD),一種基于師生的軟目標(biāo)蒸餾。為了進(jìn)一步提高預(yù)訓(xùn)練模型的泛化性能,研究人員引入了特征引導(dǎo)蒸餾(FgD)。為了方便起見(jiàn),他們將這兩種蒸餾的組合稱為雙向蒸餾(TwD)。
目標(biāo)導(dǎo)向蒸餾:為了降低從噪聲標(biāo)簽中學(xué)習(xí)的風(fēng)險(xiǎn),研究人員建議使用動(dòng)量更新編碼器生成的軟目標(biāo)。這里,動(dòng)量更新編碼器充當(dāng)通過(guò)指數(shù)移動(dòng)平均權(quán)重獲得的蒸餾教師模型。
研究人員通過(guò)系數(shù)α將相似度得分s(·,·)與one-hot標(biāo)簽y(·,·)結(jié)合起來(lái)生成最終的軟標(biāo)簽。將要
表示為最終的軟標(biāo)簽。經(jīng)過(guò)
例如,它可以定義為:
考慮到隊(duì)列中特征的有效性隨著時(shí)間步長(zhǎng)的增加而降低,研究人員還維護(hù)了一個(gè)加權(quán)隊(duì)列w來(lái)標(biāo)記相應(yīng)位置特征的可靠性。具體來(lái)說(shuō),該研究每次迭代都會(huì)將隊(duì)列中的每個(gè)元素衰減 0.99,新傳入的項(xiàng)目除外。因此,研究人員將
替換為等式 2 中的加權(quán)交叉熵?fù)p失
。使用目標(biāo)導(dǎo)向蒸餾,
定義為:
面向特征的蒸餾:與TgD類似,研究人員使用師生范式進(jìn)行面向特征的蒸餾。以文本編碼器為例,學(xué)生模型是文本編碼器,教師模型是通過(guò)動(dòng)量更新的編碼器。
為了進(jìn)一步提高模型性能,研究人員對(duì)輸入采用了掩蔽策略。在具體實(shí)現(xiàn)中,將完整的輸入提供給教師模型,并將屏蔽的輸入提供給學(xué)生。依托動(dòng)力機(jī)制,目標(biāo)是讓學(xué)生的特點(diǎn)更加接近老師的特點(diǎn)。形式上pg電子麻將胡了,教師模型和學(xué)生模型的預(yù)測(cè)分布分別定義如下:
研究人員利用交叉熵?fù)p失進(jìn)行面向特征的蒸餾,損失L_FgD定義為:
最后用總體預(yù)訓(xùn)練目標(biāo)進(jìn)行模型訓(xùn)練:
實(shí)驗(yàn)結(jié)果
從下面的表2可以看出,研究人員提出的模型在大多數(shù)任務(wù)中都超越了之前的SOTA,即使只使用2.3M樣本(約占悟空數(shù)據(jù)量的2.3%)進(jìn)行訓(xùn)練。在 23M 個(gè)樣本上進(jìn)行預(yù)訓(xùn)練時(shí),結(jié)果更好。在模型層面,R2D2ViT-L在所有數(shù)據(jù)集上也優(yōu)于R2D2ViT-B,表明隨著預(yù)訓(xùn)練模型變大,算法效果會(huì)變得更好。
研究人員還在提議的下游數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),這些實(shí)驗(yàn)的結(jié)果成為了提議數(shù)據(jù)集的基線。特別是,在Flickr30k-CNA上進(jìn)行實(shí)驗(yàn)時(shí),研究人員使用Flickr30k-CNA的訓(xùn)練集對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),并在Flickr30k-CN的測(cè)試集上進(jìn)行測(cè)試,以進(jìn)行公平比較。從表2可以看出,在Flickr30k-CNA上微調(diào)的R2D2優(yōu)于在Flickr30k-CN上微調(diào)的R2D2,因?yàn)槿斯しg的Flickr30k-CNA的質(zhì)量遠(yuǎn)高于機(jī)器翻譯的Flickr30k-CN。
與圖文檢索不同,中文圖文匹配(ITM)任務(wù)的數(shù)據(jù)集很少。研究人員針對(duì)中文ITM任務(wù)提出了圖像標(biāo)題匹配數(shù)據(jù)集(ICM)和圖像查詢匹配數(shù)據(jù)集(IQM),并給出了相應(yīng)的結(jié)果。
研究人員使用AUC作為評(píng)價(jià)指標(biāo)。從下表1可以看出,R2D2ViT-L取得了比R2D2ViT-B更好的結(jié)果。此外,R2D2ViT-L(23M)在ICM和IQM上的性能分別比R2D2ViT-L(2.3M)高出約4.97%和5.68%。這意味著更多高質(zhì)量的中文數(shù)據(jù)可以提高R2D2的泛化能力。
為了進(jìn)一步提高性能,研究人員使用了從 50 億個(gè)樣本中提取的 2.5 億個(gè)圖文對(duì)進(jìn)行預(yù)訓(xùn)練。從表2可以看出,以最綜合評(píng)價(jià)指標(biāo)R@M衡量,該模型在Flickr30k-CN、COCO-CN、AIC-ICC、MUGE、Flickr30k-CNA、ICR、IQR等所有結(jié)果中均表現(xiàn)良好數(shù)據(jù)集。均超過(guò)了用23M數(shù)據(jù)訓(xùn)練的模型,這意味著增加數(shù)據(jù)量可以增強(qiáng)預(yù)訓(xùn)練模型的能力。同時(shí),這些成績(jī)也大幅超越了已公開(kāi)披露成績(jī)的文瀾2.0和悟空的成績(jī),成為最新的SOTA。下面表1的數(shù)據(jù)表明,在圖文匹配任務(wù)ICM和IQM中,用更大數(shù)據(jù)量訓(xùn)練的預(yù)訓(xùn)練模型會(huì)取得更好的結(jié)果。
為了演示每種機(jī)制的作用,研究人員對(duì)零語(yǔ)料庫(kù)的子集(230 萬(wàn)圖像和文本預(yù)訓(xùn)練數(shù)據(jù))進(jìn)行了消融實(shí)驗(yàn)。為了方便起見(jiàn),研究人員在消融實(shí)驗(yàn)中將R2D2ViT-L定義為R2D2。
細(xì)粒度排序(FGR)的效果。首先,研究人員使用全局對(duì)比預(yù)排序(GCPR)和雙向蒸餾(TwD)來(lái)訓(xùn)練模型,將其定義為 PRD2。 PRD2 的設(shè)置與 CLIP 類似。從下面表3的第一行和第二行可以看出,R2D2在圖像和文本檢索任務(wù)上的表現(xiàn)明顯優(yōu)于PRD2??梢酝茢啵Y(jié)果明顯優(yōu)于CLIP,這說(shuō)明了所提出的全局對(duì)比預(yù)排序+細(xì)粒度排序框架的有效性。
強(qiáng)化訓(xùn)練(ET)的效果。研究人員比較了取消增強(qiáng)式訓(xùn)練后的結(jié)果。從下面表3的第三行可以看出,R2D2(帶有ET)在圖像和文本檢索任務(wù)上將recall@1提高了0.95%,AUC從80.27%提高到80.51%。 R2D2 的另一個(gè)優(yōu)點(diǎn)是它比沒(méi)有 ET 的 R2D2 使用更少的計(jì)算資源。 R2D2 需要 154.0 GFLOPs 的計(jì)算量,可以每秒 1.4 次迭代的速度運(yùn)行,而沒(méi)有增強(qiáng)訓(xùn)練的 R2D2 需要 168.8 GFLOPs 的計(jì)算量,只能以每秒 1.1 次迭代的速度運(yùn)行。上述結(jié)果證明了增強(qiáng)式訓(xùn)練的有效性。
雙向蒸餾的效果。研究人員提出的雙向蒸餾包括面向目標(biāo)的蒸餾和面向特征的蒸餾。當(dāng)去除雙向蒸餾(TwD)時(shí),R@M從74.06%下降到73.10%,AUC從80.51%下降到80.31%。當(dāng)去除特征引導(dǎo)蒸餾(FgD)時(shí),R@M從74.06%下降到73.29%,性能明顯下降,這表明訓(xùn)練期間的特征對(duì)齊很重要。同時(shí),去除目標(biāo)導(dǎo)向蒸餾(TgD)也會(huì)導(dǎo)致模型性能下降。上述結(jié)果表明,雙向蒸餾是提高預(yù)訓(xùn)練模型泛化能力的有效方法。
零樣本任務(wù)。為了證明模型的泛化性能,研究人員還進(jìn)行了零樣本遷移實(shí)驗(yàn)。從下面表4可以看出,與目前的SOTA性能WukongViT-L相比,R2D2ViT-L(23M)僅使用了不到1/4的數(shù)據(jù),但在Flickr30k-CN和COCO-CN上取得了更好的效果。更好的性能。當(dāng)引入2.5億級(jí)預(yù)訓(xùn)練數(shù)據(jù)后,R2D2的準(zhǔn)確率進(jìn)一步提升。與 WukongViT-L 相比,在 Flickr30k-CN 數(shù)據(jù)集上,R@M 提升至 85.6%(提升了 4.7%),在 COCO-CN 數(shù)據(jù) MUGE 數(shù)據(jù)集上,R@M 提升至 80.5%(增長(zhǎng)了5.4%)。在MUGE數(shù)據(jù)集上,R@M提升至69.5%(提升了6.3%)。
基于實(shí)體的圖像注意力可視化。在這個(gè)實(shí)驗(yàn)中,研究人員試圖將圖像在COCO-CN上的注意力可視化。具體來(lái)說(shuō),他們首先從中文文本中提取一個(gè)實(shí)體,并計(jì)算圖像實(shí)體對(duì)的注意力分?jǐn)?shù)。下面的圖 2 顯示了圖像上四個(gè)不同實(shí)體的視覺(jué)解釋。這表明 R2D2 已經(jīng)很好地學(xué)會(huì)了將文本與圖像中的正確內(nèi)容對(duì)齊。
我要評(píng)論