近日,在人工智能旗艦學(xué)術(shù)會議2020全國知識圖譜與語義計算大會(CCKS)上,華為云EI與蘇州大學(xué)組成的聯(lián)合團隊在“面向金融領(lǐng)域的篇章級事件主體與要素抽取”評測任務(wù)中獲得第一名的佳績。
事件抽取就是從自然語言文本中抽取出用戶感興趣的事件信息,并以結(jié)構(gòu)化的形式呈現(xiàn)出來。金融領(lǐng)域的“事件”則是指產(chǎn)品出現(xiàn)問題、高管減持、違法違規(guī)等信息。金融“事件”是金融領(lǐng)域投資分析,資產(chǎn)管理的重要決策參考。2020年中國網(wǎng)民規(guī)模達(dá)到了9.04億,網(wǎng)頁總數(shù)超3000億。如何從海量網(wǎng)絡(luò)信息中及時、高效地挖掘出金融“事件”是金融資管機構(gòu)取得信息優(yōu)勢,構(gòu)筑競爭力的焦點。
CCKS 2020面向金融領(lǐng)域的篇章事件要素抽取比賽主要針對篇章級中文金融文本中的事件要素進行抽取,篇章級中文金融文本中的事件要素進行抽取的挑戰(zhàn)在于,比賽數(shù)據(jù)主要來源于互聯(lián)網(wǎng)上的財經(jīng)類網(wǎng)站,篇章很長,而且數(shù)據(jù)中存在大量的轉(zhuǎn)義符號以及由爬取不規(guī)范造成的要素混亂,如多個金額之間的空格丟失。其次,與句子級的要素抽取不同,本次比賽中的事件要素可以出現(xiàn)在篇章的各個位置,分布在多個不同的句子中,因此需要設(shè)計有效的篇章級要素抽取的方案。
華為云EI在本次比賽中運用的自然語言處理技術(shù),可廣泛用于事件抽取、實體抽取等信息抽取場景。為了克服篇章事件要素抽取問題的一系列難點,華為云提出了一個由先驗信息增強的信息抽取框架,該框架包含三個主要步驟:事件類型預(yù)測,事件要素抽取,以及事件表格填充。
在最核心的事件要素抽取步驟中,采用華為自研的大規(guī)模預(yù)訓(xùn)練語言模型NEZHA作為基礎(chǔ)模型,同時引入來自事件類型的明確先驗知識,大幅提升了篇章內(nèi)不同句子在進行要素抽取時的一致性,取得了評測任務(wù)第一名的佳績。
通往第三代人工智之路需要將知識驅(qū)動和數(shù)據(jù)驅(qū)動相結(jié)合,知識計算正在成為行業(yè)知識與數(shù)據(jù)驅(qū)動AI結(jié)合的高效路徑。知識計算的標(biāo)準(zhǔn)流程包含知識獲取,知識建模,知識管理,知識應(yīng)用。事件抽取是知識獲取的一種重要方式。高效、準(zhǔn)確的事件抽取能力可以快速的將互聯(lián)網(wǎng)海量非結(jié)構(gòu)化信息結(jié)構(gòu)化,讓下一步的知識建模成為可能,為知識參與計算掃清入口障礙。
華為云EI在人工智能語音語義領(lǐng)域接連奪得包括DiggScience科學(xué)數(shù)據(jù)挖掘,NLPCC預(yù)訓(xùn)練模型,CCF BDCI金融實體情感分析,WSDM網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘在內(nèi)的多項國際國內(nèi)頂賽冠軍。華為云EI金融事件抽取技術(shù)已經(jīng)在金融知識圖譜構(gòu)建、金融輿情分析、智能客服,企業(yè)信息監(jiān)控、風(fēng)險信用控制和智能投顧等多個場景應(yīng)用,賦能客戶提升圖譜構(gòu)建效率20%以上,憑借冠軍技術(shù)能力極大地提升了金融客戶的工作效率。
在華為云EI領(lǐng)先的AI技術(shù)驅(qū)動和眾多生態(tài)伙伴的共同努力下,現(xiàn)已服務(wù)于國內(nèi)50%的TOP20金融客戶。華為云EI將繼續(xù)踐行普惠AI理念,為金融機構(gòu)節(jié)省重復(fù)勞動成本,縮短服務(wù)響應(yīng)時間,為用戶帶來更優(yōu)質(zhì)的金融服務(wù)體驗。