一個(gè)“毛骨悚然”的里程碑:華裔科學(xué)家AI解碼腦電波,準(zhǔn)確率97%
編者按:本文來自微信公眾號(hào)“新智元”(ID:AI_era),編輯:張佳,36氪經(jīng)授權(quán)發(fā)布。
來源:sciencealert
不用你說話,AI就能將你的想法轉(zhuǎn)換成文本,是不是毛骨悚然?日前,美國(guó)加州大學(xué)舊金山分校的華裔科學(xué)家Edward Chang團(tuán)隊(duì)使用人工智能解碼系統(tǒng),把人的腦電波轉(zhuǎn)譯成英文句子,準(zhǔn)確率高達(dá)97%。
世界才剛剛開始適應(yīng)像谷歌和亞馬遜這樣的公司制造的虛擬助理所產(chǎn)生的力量,如果用一個(gè)詞形容這些虛擬助理識(shí)別我們語音的精準(zhǔn)度,那就是“不可思議”。
而現(xiàn)在,一個(gè)更加讓人“毛骨悚然”的里程碑就在眼前:人工智能系統(tǒng)可以將我們的大腦活動(dòng)轉(zhuǎn)化為完整的文本,根本不需要我們說一個(gè)字。
這不是科幻小說。近幾十年來,腦機(jī)接口的發(fā)展突飛猛進(jìn),從動(dòng)物到人類參與者,已經(jīng)在嘗試這種事情。
日前,美國(guó)加州大學(xué)舊金山分校的科研團(tuán)隊(duì)使用人工智能解碼系統(tǒng),把人的腦電波轉(zhuǎn)譯成英文句子,準(zhǔn)確率高達(dá)97%。
論文地址:https://www.nature.com/articles/s41593-020-0608-8
這項(xiàng)研究3月30日發(fā)表在《自然·神經(jīng)科學(xué)》雜志上,題為“Machine translation of cortical activity to text with an encoder–decoder framework”(利用encoder-decoder框架,將大腦皮質(zhì)活動(dòng)翻譯為文本)。
Edward Chang
這項(xiàng)研究由華裔科學(xué)家、加州大學(xué)舊金山分校神經(jīng)外科教授Edward Chang博士領(lǐng)導(dǎo)。Edward Chang博士的研究重點(diǎn)是言語、運(yùn)動(dòng)和人類情感的大腦機(jī)制,同時(shí)他也是加州大學(xué)舊金山分校和加州大學(xué)伯克利分校的合作單位——神經(jīng)工程與假肢中心的聯(lián)合負(fù)責(zé)人。
人腦電波轉(zhuǎn)譯成句,準(zhǔn)確率高達(dá)97%
為了提高準(zhǔn)確性,研究團(tuán)隊(duì)使用了一種新的方法來解碼皮層腦電圖:皮層活動(dòng)中產(chǎn)生的電脈沖記錄,通過植入大腦的電極接收。
在這項(xiàng)研究中,四名癲癇患者戴上了這種植入物以監(jiān)測(cè)癲癇發(fā)作,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)輔助實(shí)驗(yàn):讓參與者朗讀并重復(fù)一些固定的句子,同時(shí)電極記錄他們的大腦活動(dòng)。
然后,將這些數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中,該神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)實(shí)驗(yàn)的音頻記錄,分析與特定語音信號(hào)相對(duì)應(yīng)的大腦活動(dòng)模式,比如元音、輔音或嘴巴動(dòng)作。
圖1:解碼過程
此后,另一個(gè)神經(jīng)網(wǎng)絡(luò)解碼了這些表征(從重復(fù)的30–50個(gè)口語句子收集而來),并且使用它來嘗試預(yù)測(cè)正在說的話,完全基于語句的大腦皮層特征。
圖2:解碼句子的單詞錯(cuò)誤率
這個(gè)系統(tǒng)產(chǎn)生了一個(gè)單詞錯(cuò)誤率(WER),在最好的情況下,其中一個(gè)參與者將大腦信號(hào)轉(zhuǎn)換成文本的錯(cuò)誤率只有3%。這可能是AI能夠獲得的最接近于讀取人類思想的結(jié)果,至少在嚴(yán)格意義上的實(shí)驗(yàn)條件下是這樣的。
圖3:經(jīng)過遷移學(xué)習(xí)訓(xùn)練的encoder–decoder模型的解碼MOCHA-1句子的單詞錯(cuò)誤率
在他們的論文中,研究團(tuán)隊(duì)詳細(xì)列舉了大量參與者所說的參考句,以及神經(jīng)網(wǎng)絡(luò)產(chǎn)生的預(yù)測(cè),有時(shí)是錯(cuò)誤的,但并非總是如此。但是,當(dāng)錯(cuò)誤顯而易見時(shí),它們似乎與人耳聽到的語音結(jié)果有很大不同(這可能是引入AI的數(shù)據(jù)集有限所產(chǎn)生的副作用)。
表1:錯(cuò)誤解碼的句子示例(左邊是參考句,右邊是預(yù)測(cè)句)
在最不準(zhǔn)確的情況下,這些錯(cuò)誤實(shí)際上與所說的話沒有任何關(guān)系,無論是語義上還是語音上。比如,“she wore warm fleecy woollen overalls”(她穿著溫暖的羊毛工作服)被解讀成“the oasis was a mirage”(綠洲是一個(gè)海市蜃樓)。
盡管如此,盡管這些明顯的錯(cuò)誤非常奇怪,但研究小組認(rèn)為:總體而言,該系統(tǒng)可能構(gòu)成了基于人工智能的大腦活動(dòng)解碼的新基準(zhǔn),而且在最好的情況下,與專業(yè)人類語音轉(zhuǎn)錄相當(dāng),單詞錯(cuò)誤率為5% 。
圖6:解碼過程的圖形模型
圖7:網(wǎng)絡(luò)架構(gòu)
當(dāng)然,處理普通人說話的專業(yè)轉(zhuǎn)錄員需要應(yīng)對(duì)的詞匯有成千上萬個(gè),相比之下,這個(gè)系統(tǒng)僅需學(xué)習(xí)有限的短句中使用的大約250個(gè)單詞的大腦皮層特征,所以這并不是一個(gè)公平的比較。
盡管有許多障礙需要克服,但研究小組認(rèn)為,該系統(tǒng)有一天可能成為失去說話能力的患者使用語言修復(fù)的基礎(chǔ)。如果真的做到這一點(diǎn)就了不得了。
“在一個(gè)長(zhǎng)期植入的參與者中,可用的訓(xùn)練數(shù)據(jù)量將比本研究中使用的半個(gè)小時(shí)左右的語音大幾個(gè)數(shù)量級(jí),”作者解釋說:“這表明該語言的詞匯量和靈活性可能會(huì)大大增加?!?/p>
參考鏈接:https://www.sciencealert.com/new-ai-system-translates-human-brain-signals-into-text-with-up-to-97-accuracy