當人工智能學會“讀唇術”會帶來什么?
當人工智能學會“讀唇術”會帶來什么?去年10月2日,西甲賽場,皇家馬德里在主場被實力一般的埃瓦爾逼平,比賽結束后,主場球迷噓聲四起,夾雜謾罵,這惹惱了步入球員通道的當家球星C羅,他被媒體拍到小聲嘟囔著什么,就當C羅默認只有他自己知道在抱怨什么的時候,《阿斯報》請來的唇語專家告訴大家,C羅在說:“Qué poca calma!”,大致可以解釋為:“能不能安靜點!”
這并非“讀唇術”首次揭穿名人的唇語。另一個更著名的案例是,早在當年英國查爾斯王子迎娶卡米拉時,唇讀者就成功破解了伊麗莎白二世與兒子的低語,也讓女王糟糕的婆媳關系浮現(xiàn)在大眾眼前。所以公眾人物大概并不喜歡那些唇語專家(何況他們許多時候充斥著臆測成分)——但令C羅們遺憾的是,當人工智能在各領域漸次開放,在唇語識別上,機器也已經(jīng)做的比人類好了。
從技術路徑上,唇語識別是一項集機器視覺與自然語言處理于一體的復合型技術:系統(tǒng)通過機器視覺從圖像中連續(xù)識別出人臉,提取口型的連續(xù)變化特征,隨即將連續(xù)變化的特征輸入到識別模型中,識別出講話人口型對應的發(fā)音,從而計算出可能性最大的表達語句。
人類費盡心力開發(fā)AI,當然不是為了滿足自身的窺私欲。事實上,讓機器習得“讀唇術”,在公共安全,軍事情報,身份識別和社會公益等領域,都藏匿著頗為重要的應用場景。
嗯,在人工智能即將大范圍落地的前夜,國內(nèi)從業(yè)者扎堆涌入的,大多為語音識別,圖像識別,人臉識別,機器翻譯,無人駕駛,虛擬助手和個性化內(nèi)容推薦等領域,相較這些聚光燈之下的落地場景,唇語識別相對冷僻。但常識是:人工智能未來將會出現(xiàn)一個數(shù)萬億美元的巨大市場,在面對具體乃至細碎的應用場景時,人工智能的細分程度,勢必如百年前的電力那般觸角龐雜。而廣袤的嫁接空間也意味著,從真實應用場景出發(fā),人工智能領域會出現(xiàn)不少藍海市場,被國內(nèi)巨頭忽視的唇語識別就是其中之一。
唇語識別在國外早有先例(譬如谷歌,后面會談到),但成熟的唇語識別系統(tǒng)需要建立在大量人臉特征樣本的基礎上,鑒于人種的生物特征以及語言特征區(qū)別,不能完全照搬國外系統(tǒng)。據(jù)悉目前這一技術在國內(nèi)的領跑者是長期深耕于公安,交通,航空和軍工等領域的海云數(shù)據(jù)——他們訓練了超過1萬小時新聞類節(jié)目,用來判斷嘴型的準確度和語言的準確性。
那么問題是:相較于大眾更熟悉的其他生物特征識別,教會人工智能“讀唇術”,究竟意味著什么?
機器“讀唇術”
事實上,與人類天生擁有超強的面部識別能力不同(“臉盲”甚至被當做一種?。祟愺w內(nèi)并無任何“唇讀”基因,任何人都需要枯燥的后天訓練,且很大程度上取決于對語境和語言本身的了若指掌。而如今,機器可以比唇語專家更精確地識別這個無聲的世界。
如你所知,更便宜的計算,更好的算法,以及更大的數(shù)據(jù)量,讓六十年來不斷幻滅又重燃希望的人工智能時代近在咫尺。其中最關鍵的變量就是數(shù)據(jù)量的井噴(許多深度學習基本模型在上世紀八九十年代就已出現(xiàn),但數(shù)據(jù)的稀缺令這種偉大的基礎框架偃旗息鼓),海量數(shù)據(jù)是“喂養(yǎng)”多層神經(jīng)網(wǎng)絡的飼料,也得以讓深度學習以一種非常精煉的算法模型解決了過去復雜的輸出模式。
唇語“語料”也一樣,為識別系統(tǒng)輸入海量優(yōu)質(zhì)數(shù)據(jù)顯得尤為重要。這里必須提及谷歌的人工智能公司DeepMind——要知道,去年在AlphaGo擊敗人類之后,DeepMind就把與人類的下一個競賽場切換至讀唇術上:他們與牛津大學的研究者使用總長超過5000小時(2010 年 1 月至 2015 年 12 月間的電視節(jié)目素材,如BBC 各類節(jié)目,總語句超過118000的新聞視頻)完成了對人工智能的訓練,然后使用 2016 年 3 月 至9 月間播出的節(jié)目進行測試——結果發(fā)現(xiàn),給予相同的視頻素材,專業(yè)唇語識別專家能達到12.4%的正確率,而AI系統(tǒng)識別正確率則是46.8%,高出了大概3倍。
再看國內(nèi)這邊,截至目前海云數(shù)據(jù)訓練新聞類節(jié)目時長是1萬小時(為什么是新聞類節(jié)目?當然是因為播音員的唇語最標準……)。據(jù)媒體報道,目前他們在英文方面可以達到80%的準確度,中文方面則是71%。當然,考慮到語音識別和人臉識別的準確率幾乎都達到95%以上,唇語識別真正投入實戰(zhàn)還尚需時日。
值得一提的是,中文自身的發(fā)音特性或許可以縮短唇語識別投入實戰(zhàn)的時間。拿普通話來說,一共有1270個發(fā)音,不考慮聲調(diào)差別,有近400個不同的發(fā)音,每個發(fā)音都有對應口型,中文發(fā)音較英文為少,一字一音,規(guī)律清晰,只要使用正確方法,中文唇語識別其實更易獲得高準確率。
事實上,唇語識別并非這家曾被比爾蓋茨造訪,行事卻頗為低調(diào)的數(shù)據(jù)運營商首次觸及AI領域,作為中國大數(shù)據(jù)可視化的領跑者,海云數(shù)據(jù)去年就已經(jīng)通過“圖易大腦”觸及到了AI領域——要知道,大數(shù)據(jù)與AI本就是“魚水之歡”,可視分析底層就是計算機視覺,而計算機視覺在AI領域應用之一就是唇語識別。將AI與可視分析進行強捆綁,未來通過成熟的產(chǎn)品為客戶提供服務,勢必成為這家公司變現(xiàn)的催化器。另一方面,海云在可視分析領域長期的積淀,以及在公安等領域的數(shù)據(jù)積累和服務體驗,對于其研發(fā)唇語識別也提供了重要的助力。
唇語識別可以用來干什么
相比于唇語識別的技術路徑,人們更關心,它將用于何處。
不妨先說回那位讓女王糟糕的婆媳關系浮出水面的讀唇人,她叫杰西卡·里斯,是英國知名的“讀唇女王”,自幼失聰?shù)乃齾s對唇語頗為敏感,就像偵探電影經(jīng)常上演的那樣,杰西卡的“奇異功能”被官方所看重,英國皇家檢察院曾雇傭她成為英國唯一的“官方讀唇證人”,試圖通過她去解讀警方用監(jiān)控攝像機拍下來的嫌犯錄像,從而提供關鍵證據(jù)。只可惜,杰西卡卻在后來遭遇了信譽危機,英國專家對其讀唇能力測試之后,證明她的讀唇其實經(jīng)常出錯。
而如前所述,在唇語識別上,機器已遠超人類——并向95%以上的精準度狂奔而去,這意味著,杰西卡沒能做到的事,人們完全可以更加放心地交給機器。這也正是海云數(shù)據(jù)正在布局的。要知道,公安系統(tǒng)中視頻信息量頗為龐大,且在安全態(tài)勢和案情分析中發(fā)揮巨大作用,但它們很多都以“默片”方式存在(畢竟人物活動地點離攝像頭都有一定距離),只看得清嘴型,卻不知說些什么。針對于此,海云數(shù)據(jù)通過在人的嘴巴上部署諸多識別位點,通過位點判斷嘴型,判斷視頻中人所講出來的關鍵性內(nèi)容,這無疑能巨大釋放視頻圖像里面的信息——換句話說,在人工智能的加持之下,海云的可視分析系統(tǒng)能夠從聲音,圖象,視頻,空間和地理信息等多重緯度,進行綜合態(tài)勢的判斷,可以大幅度豐富其現(xiàn)有的公共安全大數(shù)據(jù)一站式解決方案。
除了公共安全,在“私人”安全上,唇語識別技術也大有可為。你知道,當萬物互聯(lián)時代即將來臨,身份識別的下一篇章勢必由指紋,人臉,虹膜等生物識別技術替代,從而將人們與機器的信任關系提升一個安全系數(shù)。最直接的例子當然是安防。如今在上述常見的生物認證之外,“唇語密碼”也可作為重要方式:識別系統(tǒng)從嘴唇圖像列序中提取形狀,質(zhì)地和動作等特征,通過訓練建立模型并確定臨界值,最終決定接受或拒絕密碼。畢竟,唇語擁有非常高的不可復制性(兩個人說同一句話,嘴唇動作特征完全不一樣),且不同于指紋和人臉這些靜態(tài)生物特征被盜取后無法重置,人們可以隨意改變唇語密碼。
除此之外,唇語識別在很多領域都可以帶來巨大福祉,誠如牛津大學研究員Yannis Assael所言:“我們相信AI唇讀是一種非常實用的輔助性技術,比如更智能的助聽器,不便出聲的公共場合,以及在嘈雜環(huán)境下精準的語音識別等?!?/p>
嗯,就拿海云數(shù)據(jù)來說,當其可視分析能力配之以人工智能,無疑會大幅提高在公共安全,軍事情報和殘障教育等領域的競爭力。舉例而言:通過唇語識別,讓無法開口說話的殘障人士“開口說話”;讓聽力障礙者和不少老年人更清晰地聽懂他人;而在軍事情報領域,唇語識別讓遠距離獲取情報成為可能。
可以預見,在未來,當古老的讀唇術被人工智能發(fā)揮到極致,希望世界會變得更好。