微軟新技術(shù):自動為視頻寫標(biāo)題
微軟新技術(shù):自動為視頻寫標(biāo)題,搶視頻小編飯碗?近日,臺灣清華大學(xué)電子工程系教授林嘉文及孫敏宣布,他們與微軟亞洲研究院的陶玫博士合作研發(fā)利用計算機視覺技術(shù)為視頻內(nèi)容添加標(biāo)簽和標(biāo)題。
據(jù)悉,陶玫博士曾參與了微軟 COCO 的研發(fā)。微軟 COCO 是一套全新的圖像識別、分類、說明的數(shù)據(jù)集,為識別多個物體設(shè)計而出。被業(yè)內(nèi)熟知的是微軟 COCO 圖像說明大賽,參賽者利用自主研發(fā)的圖像識別系統(tǒng)并結(jié)合微軟 COCO 對指定圖像進行文字說明。結(jié)果則根據(jù)系統(tǒng)說明的準(zhǔn)確率、詳細程度以及跟人類描述的相似度進行評估。
微軟表示, 臺灣清華大學(xué)兩名教授借助微軟 COCO 數(shù)據(jù)集創(chuàng)建了一套系統(tǒng), 利用計算機視覺技術(shù)來確定視頻里的主要內(nèi)容,并為其添加標(biāo)題。
微軟在博文中指出:
孫教授基于深度學(xué)習(xí)來自動找到視頻中的特殊時刻或重要內(nèi)容,并創(chuàng)建了一個視頻標(biāo)題生成新方法,基于視頻中的這些重要內(nèi)容產(chǎn)生準(zhǔn)確及有趣的標(biāo)題。與此同時,林教授則研發(fā)了一種能自動在視頻中檢測人臉的方法,并為分享這些視頻的用戶提供更豐富的總結(jié)及相關(guān)建議。 通過合作,他們的算法能檢測并描述出重要內(nèi)容,同時生成標(biāo)簽及標(biāo)題。
孫敏教授和他的學(xué)生還通過參加 VideoToText challenge 大賽來改善這一系統(tǒng)。消息稱,他們將在歐洲計算機視覺會議(ECCV)上展示最新研究成果。
解釋和描述視頻/圖片畫面中的內(nèi)容,不僅需要了解圖片中是什么,更要了解圖像中的對象有什么聯(lián)系。利用算法識別視頻內(nèi)容然后生產(chǎn)標(biāo)題或者標(biāo)簽相對來說難度和計算量更為龐大,而識別圖片內(nèi)容從而生成標(biāo)簽或畫面描述文字已愈加成熟。
上個月谷歌發(fā)布了最新機器學(xué)習(xí)系統(tǒng),通過識別圖像中的內(nèi)容,配上對應(yīng)文字,目前算法描述圖像的準(zhǔn)確率已經(jīng)高達 93.9%。
得益于 COCO,微軟在圖片描述上也有著一定的積累,其中被廣泛應(yīng)用地就是 One Drive 中的相冊歸類功能。該功能可以讓用戶有效分類并展示照片,還能從圖片中識別文字。當(dāng)然,最重要的是它還能對圖片特征進行識別分析并進行自動標(biāo)記。
除了微軟、谷歌外,F(xiàn)acebook 也在今年發(fā)布了類似的系統(tǒng),該系統(tǒng)可以了解照片中正在發(fā)生的事情,并且將內(nèi)容轉(zhuǎn)換成自然語言來描述。Facebook 演示了一個人玩滑板的照片。算法把照片內(nèi)容分解成“一個滑板,一個男人,一個絕招,他的滑板”,它認為可能已經(jīng)發(fā)生的事情是“做的,玩滑板,正在做”。用戶可借助 VPN 翻墻到 iPhone 版 Facebook 后使用,同時也能利用 iPhone 自帶的 voiceover 功能對于本來有文字描述的東西都能讀出來。
無論是圖片描述還是視頻描述,在消費級層面:其不僅可幫助用戶自動管理相冊(視頻集)。此外,該技術(shù)可以幫助盲人用戶用語音解讀照片和視頻中的內(nèi)容。
2898站長資源平臺友情鏈接交換:http://stoptheftofyouridentity.com/friendchange.htm