• 我院鄒月嫻教授課題組在人工智能頂級會議AAAI上發表論文

    2020-03-11 15:39:30

        最近,視覺和語言的多模態任務,例如圖像字幕和視覺問題解答(VQA),引起了學術界和工業界的廣泛興趣。但是亚博电子游戏官网,大多數現有的模型都專注于單個任務。我院鄒月嫻教授課題組研究發現,這些任務存在一定的相似性,因此認為如果模型可以同時考慮這些多模態問題,則可以共同學習來自不同任務的不同知識亚博电子游戏官网亚博电子游戏官网,并且很有可能提高每個任務的效能亚博电子游戏官网。

        近日,鄒月嫻教授課題組的研究“Federated Learning for Vision-and-Language Grounding Problems”被在美國紐約舉行的第34屆人工智能發展協會(AAAI)人工智能會議(AAAI Conference on Artificial Intelligence, AAAI 2020)接收發表并以口頭匯報(Oral)的形式進行了展示亚博电子游戏官网。該研究成果提出了一種聯邦學習框架,可以從不同的任務中獲得各種類型的圖像表示亚博电子游戏官网,然后將它們融合在一起以形成細粒度的圖像表示。這些圖像表示融合了來自不同視覺和語言的多模態問題的有用圖像表示,因此在單個任務中比單獨的原始圖像表示強大得多亚博电子游戏官网。為了學習這種圖像表示,該課題組提出了對齊(Aligning)亚博电子游戏官网,集成(Integrating)和映射(Mapping)網絡(aimNet)。aimNet由一個對齊模塊亚博电子游戏官网,一個集成模塊和一個映射模塊組成亚博电子游戏官网。如下圖所示:

    ?
        其中,對齊模塊通過對提取的視覺和文本特征進行相互關注來構建對齊的圖像表示,其能為顯著圖像區域提供了更清晰的語義描述亚博电子游戏官网。接下來,集成模塊著重于通過自我注意機制集成視覺和文本特征亚博电子游戏官网,該機制捕獲顯著區域的分組和屬性的搭配。最后,映射模塊由兩層非線性層組成,用于將學習到的細粒度圖像表示映射到特定任務的特征域。各課題組提出的模塊充分利用了圖像中的所有有效信息,并將其作為輸入傳遞給解碼器,以生成有意義的句子或給出問題的準確答案。該課題組在兩個圖像字幕數據集和一個VQA數據集上,以及相應的三個聯邦學習設置上,包括水平聯合學習,垂直聯合學習和聯合遷移學習,進行實驗用于驗證該課題組的動機以及所提出方法的有效性。

        2019級碩士生劉峰林為該論文第一作者,鄒月嫻教授為通訊作者,該工作得到了數字視頻編解碼技術國家工程實驗室、深圳市發改委(數據科學與智能計算學科發展計劃)和 Aoto-PKUSZ聯合實驗室的支持。


    (供稿:鄒月嫻教授課題組)

    亚博电子游戏官网