近日,在美國休斯敦閉幕的第13屆網絡搜索與(yu) 數據挖掘國際會(hui) 議(WSDM 2020)上,華為(wei) 雲(yun) 帶領的聯合團隊摘得WSDM Cup 2020大賽“論文引用意圖識別任務”金牌。
WSDM被譽為(wei) 全球信息檢索領域最有影響力也最權威的會(hui) 議之一,會(hui) 議關(guan) 注社交網絡上的搜索與(yu) 數據挖掘,尤其關(guan) 注搜索與(yu) 數據挖掘模型、算法設計與(yu) 分析、產(chan) 業(ye) 應用和提升準確性與(yu) 效果的實驗分析。今年已經是WSDM的第十三屆會(hui) 議。
本次WSDM Cup共有三個(ge) 賽題任務,華為(wei) 雲(yun) 奪金賽題內(nei) 容為(wei) “論文引用意圖識別”:比賽提供一個(ge) 論文庫(約含80萬(wan) 篇論文),同時提供對被引用論文的引用文本描述,參賽選手需要根據論文引用描述從(cong) 論文庫中匹配三篇最相關(guan) 的論文。
論文是人類最前沿知識的媒介,如果可以理解論文中的數據,可以極大地擴充計算機理解知識的能力和範圍。在論文中,作者經常會(hui) 引用其他論文,並對被引論文做出對應描述。如果通過計算機可以自動地理解、識別描述對應的被引論文,不僅(jin) 可以加深我們(men) 對科研脈絡的理解,還能在科研知識圖譜、科研自動問答係統和自動摘要係統等領域有所進步。
華為(wei) 雲(yun) 語音語義(yi) 創新Lab帶領華南理工大學、華中科技大學、武漢大學、江南大學學生組成的聯合團隊,針對該問題製定了“整體(ti) 召回+重排+集成”的方案。在整體(ti) 召回階段,通過輕量化的文本相似度計算方法(如BM25、TFIDF、Word2Vec等),以較少的計算代價(jia) 從(cong) 大規模論文庫中檢索出給定查詢的可能相關(guan) 的論文集合。在重排階段,通過計算量大但更準確的方法對這些候選論文中的每一篇論文計算和引用描述的相似度值並重新排序,例如采用基於(yu) 深度學習(xi) 的預訓練語言模型BERT等。華為(wei) 雲(yun) 團隊觀察到,賽題中所給語料都是生物醫學領域,因此采用了基於(yu) 生物醫藥和科學領域語料進行預訓練的BioBERT和SciBERT語言模型對論文進行重排。通過對所有模型的結果進行集成,最終得到三篇最相關(guan) 的論文。
華為(wei) 雲(yun) 在本次比賽中運用的文本匹配技術,可廣泛用於(yu) 搜索、對話機器人、知識圖譜構建等領域。
憑借在自然語言處理領域的全棧技術積累,華為(wei) 雲(yun) 連續斬獲了多個(ge) 相關(guan) 領域權威比賽冠軍(jun) 。2019年10月華為(wei) 雲(yun) 在DigSci科學數據挖掘大賽(學術論文搜索匹配大賽)上奪冠,精準率超過第二名5個(ge) 百分點。在2019 CCF大數據與(yu) 計算智能大賽決(jue) 賽中,華為(wei) 雲(yun) 獲得金融實體(ti) 級情感分析大賽冠軍(jun) ,體(ti) 現了在文本情感分析和知識圖譜領域的實力。
目前,華為(wei) 雲(yun) 語音語義(yi) 相關(guan) 服務已經成功應用於(yu) 政務、金融、油氣、醫療、汽車、物流、保險、電商、稅務、媒體(ti) 等具有語音識別、語言理解、知識管理等需求的業(ye) 務領域。
,物流軟件下載 ,三亞物流鄭重聲明:本文版權歸原作者所有,轉載文章僅(jin) 為(wei) 傳(chuan) 播更多信息之目的,如作者信息標記有誤,請第一時間聯係我們(men) 修改或刪除,多謝。
米兰体育全站 |
國際空運 |
國際海運 |
國際快遞 |
跨境鐵路 |
多式聯運 |