微軟解釋了如何改善Azure認知服務(wù)中的自動圖像字幕

來源: 東方企業(yè)家
作者:微軟云
時間:2020-10-23
17254
微軟今天啟動了一項新的計算機視覺服務(wù),該服務(wù)聲稱可以生成比某些人工描述更準確的圖像標題。該公司將該服務(wù)稱為“Azure認知服務(wù)計算機視覺”的一部分,這是“重大的研究突破”,也是其致力于可訪問AI的示例。

微軟今天啟動了一項新的計算機視覺服務(wù),該服務(wù)聲稱可以生成比某些人工描述更準確的圖像標題。該公司將該服務(wù)稱為“Azure認知服務(wù)計算機視覺”的一部分,這是“重大的研究突破”,也是其致力于可訪問AI的示例。

自動圖像字幕具有許多廣泛的用例,首先是為殘疾用戶提供幫助。根據(jù)世界衛(wèi)生組織的數(shù)據(jù),視障人士的各個年齡段的人數(shù)估計為2.85億,其中3900萬是盲人。

20201023010514180.jpg

當(dāng)視力障礙的用戶依靠字幕執(zhí)行日常任務(wù)時,準確性變得尤為重要。根據(jù)印第安納大學(xué),華盛頓大學(xué)和微軟公司的研究人員的一項研究,盲人傾向于在自動生成的字幕上贏得很多信任,建立不受支持的敘述來調(diào)和圖像上下文和不一致字幕之間的差異。當(dāng)被問及在Twitter上標識可能不正確的圖像的標題時,即使描述自己熟練且對重復(fù)檢查一貫的盲人用戶也傾向于信任自動標題,研究人員發(fā)現(xiàn),無論標題是否有意義。

2017年初,Microsoft利用Cognitive Services Computer Vision對Office 365應(yīng)用程序(如Word和PowerPoint)進行了自動圖像字幕更新。(認知服務(wù)是基于云的API和SDK套件,可供開發(fā)人員在其應(yīng)用和服務(wù)中構(gòu)建AI和機器學(xué)習(xí)功能。)最近,該公司推出了Seeing AI,這是一款旨在幫助弱視和弱視人群的移動應(yīng)用用戶在他們周圍的世界中導(dǎo)航。

但是,盡管Office 365和Seeing AI可以自動比某些AI基準更好地為圖像添加字幕,但Microsoft工程師采用了新技術(shù)來進一步改善它們。

工程師在9月發(fā)表在Arxiv.org(預(yù)印本服務(wù)器)上的論文中描述了他們的技術(shù)。稱為視覺詞匯預(yù)訓(xùn)練,簡稱VIVO,它利用大量沒有注釋的照片來學(xué)習(xí)用于圖像字幕的詞匯。(通常,訓(xùn)練自動字幕模型需要包含由人類標簽提供的注釋的語料庫。)詞匯表包含一個嵌入空間,圖像區(qū)域的特征和語義相似的對象的標簽被映射到彼此靠近的向量中(例如,“人””和“人”,“手風(fēng)琴”和“樂器”)。一旦建立了視覺詞匯,就可以使用圖像數(shù)據(jù)集和相應(yīng)的字幕對自動圖像字幕模型進行微調(diào)。

在模型訓(xùn)練過程中,一個或多個標簽被隨機屏蔽,并要求模型預(yù)測以圖像區(qū)域特征為條件的被屏蔽標簽以及其他標簽。即使用于微調(diào)的數(shù)據(jù)集僅覆蓋了視覺詞匯中最常見對象的一小部分,但VIVO預(yù)先訓(xùn)練的模型仍可以推廣到描述相似場景的任何圖像(例如,人們一起坐在沙發(fā)上)。實際上,它是少數(shù)不依賴字幕注釋的可生成字幕的預(yù)訓(xùn)練方法之一,使它能夠與為圖像標記和對象檢測任務(wù)開發(fā)的現(xiàn)有圖像數(shù)據(jù)集一起使用。

微軟在nocaps上對VIVO預(yù)訓(xùn)練模型進行了基準測試,該測試旨在鼓勵開發(fā)圖像字幕模型,該模型可以從替代數(shù)據(jù)源中學(xué)習(xí)視覺概念。通過對描述成千上萬張圖像的成千上萬的人工字幕進行評估,該模型獲得了最先進的結(jié)果,并且對以前從未見過的物體進行了大幅改進。此外,在一種旨在測量生成的字幕與人類所寫的地面真實句子的相似性的度量(基于共識的圖像描述評估)上,該模型在統(tǒng)計學(xué)上超出了人類表現(xiàn)。

微軟表示,除了最新版本的認知服務(wù)計算機視覺API外,該模型現(xiàn)在還包含在Seeing AI中。它將在今年晚些時候推廣到Microsoft產(chǎn)品和服務(wù),包括適用于Windows和Mac的Word和Outlook,以及適用于Windows,Mac和Web的PowerPoint,取代自2015年以來使用的圖像字幕模型。

微軟AI平臺公司副總裁埃里克·博伊德(Eric Boyd)在本周早些時候通過電話告訴VentureBeat:“受益于此,我們一直在努力加快這項研究突破的整合,并將其投入生產(chǎn)和Azure AI中?!薄巴黄埔豁椩趯嶒炇抑芯稍O(shè)置中工作的東西是一回事。但是要擁有[幾個月后]可以進行壓力測試并在Azure的一部分上進行大規(guī)模測試和運行的產(chǎn)品,展示了我們?nèi)绾文軌驈难芯客黄七^渡到將產(chǎn)品投入生產(chǎn)?!?/span>

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于東方企業(yè)家,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家