德國爆冷門輸給韓國隊(duì),完美證明AI預(yù)測模型真的還不太行!
德國爆冷門輸給韓國隊(duì),完美證明AI預(yù)測模型真的還不太行!2018 年世界杯德國隊(duì)爆冷,小組賽出局。而之前還曾有人工智能模型預(yù)測德國隊(duì)還將再續(xù)輝煌,贏得冠軍。德國隊(duì)不給力,而人工智能又出了什么問題?Bestpractice.ai 聯(lián)合創(chuàng)始人 Tim Gordon 發(fā)文總結(jié)了有關(guān)于此的十點(diǎn)經(jīng)驗(yàn),談到了我們?nèi)祟悓θ斯ぶ悄艿母怕市灶A(yù)測結(jié)果的理解方式以及人工智能本身的能與不能等問題。
說實(shí)話,很震驚!德國隊(duì)居然被韓國隊(duì) 2-0 擊敗,灰溜溜地回國了。要知道德國隊(duì)四年前就以 7-1 的驕人戰(zhàn)績擊敗了巴西隊(duì),進(jìn)一步又贏得 2014 年的世界杯。
出現(xiàn)這種情況,無疑會(huì)出現(xiàn)很多有待解答的問題。
2015 年機(jī)器人足球世界杯現(xiàn)場照片
但是,預(yù)計(jì)德國隊(duì)會(huì)有良好表現(xiàn)的不只有粉絲。至少有兩個(gè)不同組織開發(fā)的人工智能(AI)模型都預(yù)測德國隊(duì)會(huì)挺進(jìn)決賽。
據(jù) Vice 報(bào)道,來自德國多特蒙德工業(yè)大學(xué)、慕尼黑工業(yè)大學(xué)和比利時(shí)根特大學(xué)的一個(gè)團(tuán)隊(duì)分析了 10 萬個(gè)場景,最后預(yù)測德國隊(duì)獲勝的幾率最高。不甘人后的高盛則分析了 100 萬個(gè)場景,預(yù)測巴西隊(duì)會(huì)與德國隊(duì)在最終決賽相遇并贏得冠軍。
只要你沒有聽從這些人工智能的建議跑去賭球,就沒什么損失。
但用在我們的日常生活中以決定對我們真正重要的事情的機(jī)器學(xué)習(xí)技術(shù)與預(yù)測獲勝球隊(duì)的技術(shù)并沒有什么不同——而且隨著 AI 的發(fā)展,未來的應(yīng)用只會(huì)更多。
所以這次事件在人工智能實(shí)際應(yīng)用方面會(huì)給我們帶來哪些經(jīng)驗(yàn)教訓(xùn)?
1. 人工智能做的是預(yù)測。簡而言之,人工智能會(huì)尋找數(shù)據(jù)中的模式,然后使用這些模式來預(yù)測模式識(shí)別會(huì)給出怎樣的結(jié)果。計(jì)算機(jī)本身并不理解自己所處理的內(nèi)容——它只是預(yù)測接下來可能會(huì)發(fā)生的情況。
2. 概率很關(guān)鍵:任何數(shù)據(jù)科學(xué)家都總是會(huì)在模型輸出的結(jié)果上加上概率和置信度水平。確定性不是他們的標(biāo)志。學(xué)術(shù)論文《Prediction of the FIFA World Cup 2018 – A random forest approach with an emphasis on estimated team ability parameters》預(yù)測德國隊(duì)有 86.5% 的概率小組賽出線,獲勝的概率則為 17.1%(略低于西班牙隊(duì)獲勝概率 17.8%)。(參閱原文獻(xiàn),請點(diǎn)擊閱讀原文。)
3. 人類大都不能很好地處理概率:我們大多數(shù)人都更習(xí)慣以二元論的視角看待事物——不是「是」就是「否」。被數(shù)學(xué)覆蓋的灰色地帶需要深思熟慮。所以 17.8% 的獲勝幾率就成了人們眼中「被預(yù)測的贏家」。
4. 我們自身關(guān)于決策和預(yù)測的語言也能反映這個(gè)情況。政治家可沒法通過討論某些事情的發(fā)生概率來贏得選舉。我們喜歡確定性,也響應(yīng)確定性。
5. 當(dāng)預(yù)測因子和處理過程可以清楚呈現(xiàn),并且最終成為一個(gè)閉環(huán)系統(tǒng)時(shí),是有可能得到預(yù)測結(jié)果的。任何事物都可以被建模,并被提供給計(jì)算機(jī)處理。值得注意的是,上述學(xué)術(shù)研究在 8 組預(yù)測中有 6 組都預(yù)測對了——即至少出現(xiàn)了最高概率的情況。
預(yù)測中的德國隊(duì)獲勝之路
6. 可獲得的數(shù)據(jù)會(huì)得到優(yōu)先考慮,而這(顯然)會(huì)影響輸出結(jié)果。這個(gè)學(xué)術(shù)團(tuán)隊(duì)分析了「FIFA 排名、每個(gè)國家的人口和國內(nèi)生產(chǎn)總值(GDP)、博彩公司的賠率、有多少國家隊(duì)球員在同一個(gè)俱樂部效力、球員平均年齡以及他們贏得過多少冠軍聯(lián)賽」。所有球隊(duì)的這些數(shù)據(jù)都是可獲得的,都有標(biāo)準(zhǔn)化的且可比較的格式,并且可能都是干凈的并且有適當(dāng)?shù)臉?biāo)注的。因此這是人工智能模型需要關(guān)注的重點(diǎn)。
7. 但是,實(shí)際數(shù)據(jù)總是多于可被處理的數(shù)據(jù)。這項(xiàng)研究沒有包含的信息實(shí)際上還有無限多——球員的睡眠質(zhì)量、個(gè)人身體素質(zhì)、草地狀態(tài)、當(dāng)天粉絲熱情的影響……能處理的數(shù)據(jù)都是可獲得的數(shù)據(jù)。如果不存在讓某支球隊(duì)獲勝的絕對公式,那么建模就是不可能的。而人工智能被應(yīng)用的很多領(lǐng)域其實(shí)并不存在這種情況——比如優(yōu)化工廠流程以制造完美的小部件。
8. 但是,即使最聰明的模型也難以應(yīng)對突發(fā)事件——而且實(shí)際上會(huì)讓其整個(gè)前提條件沒有意義,甚至有害。如果一場火災(zāi)損壞了這個(gè)小部件工廠的一部分,那么人工智能管理系統(tǒng)將一無是處。
9. 所以即使機(jī)器的作用越來越大了,也仍然需要人類參與其中。想讓機(jī)器成功,復(fù)雜性和動(dòng)態(tài)變化以及用于解決這些問題所需的常識(shí)知識(shí)仍然是有待攻克的主要難題。
10. 媒體可能會(huì)過度解讀涉及人工智能的一切。對人工智能故事的炒作往往超出本質(zhì)——不過就是個(gè)厲害點(diǎn)的 Excel 電子表格,媒體往往就因?yàn)椤溉斯ぶ悄堋惯@個(gè)詞就將這種技術(shù)描繪得具有神秘和神奇的力量。
2898站長資源平臺(tái)網(wǎng)站資訊:http://stoptheftofyouridentity.com/news/