華人科學(xué)家李飛飛:從洗衣妹到“AI教母”
華人科學(xué)家李飛飛:從洗衣妹到“AI教母”
sciencenet-cas
圈內大事,行業(yè)洞察,偶爾八卦……來(lái)自全球最大的華人科學(xué)社區,中國科學(xué)報社出品。聯(lián)系我們:合作事宜market@stimes.cn;投稿事宜tougao@stimes.cn。
以下文章來(lái)源于看天下實(shí)驗室 ,作者王亞坤
人生是一場(chǎng)獨一無(wú)二的實(shí)驗 | 《看天下》雜志原創(chuàng )出品
給機器呈現一個(gè)完整的世界,它們之后會(huì )開(kāi)始嘗試理解這個(gè)世界。
編者按
在A(yíng)I領(lǐng)域,華人也發(fā)揮著(zhù)巨大影響力。2月底,芯片巨頭英偉達宣布成立一個(gè)新研究部門(mén)——通用具身智能體研究實(shí)驗室。該實(shí)驗室的領(lǐng)導者是兩位華人90后博士——范麟熙(Jim Fan)和朱玉可(Yuke Zhu)。
而這兩人的導師,則更為重要——被稱(chēng)為“AI教母”的華人科學(xué)家李飛飛。
為了賺錢(qián),李飛飛在飯店刷過(guò)盤(pán)子,在干洗店打過(guò)工,整個(gè)高中和大學(xué)時(shí)代,她的衣服都是從別人丟掉的垃圾中撿的。
沒(méi)人想到,這樣一個(gè)貧窮的女孩,之后會(huì )成為席卷全球的AI革命的核心人物之一,甚至被譽(yù)為“AI教母”。
她的征途是星辰和大海,起點(diǎn)卻是美國東北部的臭水溝。
16歲時(shí),李飛飛和父母移民到美國,生活跌入谷底:一家三口擠在一個(gè)只有一間臥室的公寓里,沒(méi)有積蓄,不會(huì )說(shuō)英語(yǔ),靠繁重的體力勞動(dòng)維持生計。
這個(gè)聰明的女孩考上美國最頂尖的高校之一,卻沒(méi)想著(zhù)畢業(yè)后掙大錢(qián)實(shí)現階層躍遷,而是投入到當時(shí)還是“天坑”的人工智能專(zhuān)業(yè)中,夢(mèng)想著(zhù)教會(huì )機器學(xué)習,改變整個(gè)世?界。
堅信數據對人工智能有重要意義的她,在只有一個(gè)助手的條件下,創(chuàng )建了人類(lèi)歷史上規模最大的標注數據集,為接下來(lái)引爆AI革命的大事件準備了舞臺。
李飛飛一路走來(lái),生在北京,長(cháng)于四川,又從中國到美國,由物理專(zhuān)業(yè)到人工智能領(lǐng)域,靠著(zhù)其堅強、瘋狂與熱愛(ài),從一個(gè)洗衣妹跨進(jìn)AI這場(chǎng)科技革命的中心。
我把你教得太好了
48歲的李飛飛在傳記中直言,父母的性格各自有一部分對她產(chǎn)生影響。
1976年,李飛飛出生在一個(gè)知識分子家庭。父親是工程師,性格天真散漫。李飛飛出生那天,父親姍姍來(lái)遲,并不是因為路上堵車(chē)或其他意外,而是因為他一時(shí)興起,跑到公園觀(guān)鳥(niǎo),忘了時(shí)間。給女兒起名“飛飛”,也是觀(guān)鳥(niǎo)時(shí)想的。
這種好奇心傳染給了李飛飛,小時(shí)候,父親常帶她到公園觀(guān)鳥(niǎo),去田里看水?;虿蹲嚼ハx(chóng),激發(fā)了她對周?chē)澜鐝娏业奶剿饔?/p>
母親完全相反,對科學(xué)不感興趣,但熱愛(ài)文學(xué)。她會(huì )帶著(zhù)女兒讀魯迅的作品以及波伏娃《第二性》、海明威《老人與?!返任鞣浇?jīng)典。
父母的共同特點(diǎn)是,他們對功名利祿完全不感興趣,也從未像很多同事那樣通過(guò)送禮或請客吃飯的方式討好上級。
李飛飛記得,小學(xué)有一次校運動(dòng)會(huì ),老師要求所有人穿白色襯衫,李飛飛爸爸在仔細閱讀規則后,把女兒白襯衫上每個(gè)紐扣都換成彩虹色。運動(dòng)會(huì )當天,在一片“白色海洋”中,李飛飛尤為顯眼。
父母的教育理念和學(xué)校也有沖突。因為在期末考試前還癡迷于閱讀米蘭·昆德拉的《不能承受的生命之輕》,李飛飛被叫了家長(cháng)。母親聽(tīng)完了老師的抱怨,但沒(méi)有責怪女兒。
“我把你教得太好了?!被丶衣飞?,她對李飛飛說(shuō)。
和母親期望的不同,李飛飛最?lèi)?ài)的不是文學(xué),而是數學(xué)。中學(xué)接觸到物理后,這又成了她最癡迷的科目,連騎自行車(chē)轉彎時(shí)都思考加速度和角動(dòng)量的變化。她還對物理學(xué)歷史上一個(gè)又一個(gè)偉大人物感興趣,對阿基米德洗澡時(shí)發(fā)現浮力定律、牛頓在瘟疫肆虐時(shí)躲在家鄉寫(xiě)《自然哲學(xué)的數學(xué)原理》等事件浮想聯(lián)翩。
這樣的日子在李飛飛16歲時(shí)戛然而止。1992年,李飛飛父親在美國工作3年后,將她和母親接到美國。當時(shí),李飛飛可能想不到,她們家的生活將很快跌入谷底。
浪費的彩票
因為完全不懂英語(yǔ),李飛飛父親沒(méi)能繼續工程師生涯,他在一家華人開(kāi)的店找到維修相機的工作,每天很晚才下班。母親在商店找到一份收銀員的工作,做重復和機械性的操作,遠離了她熱愛(ài)的文學(xué)作品。
日子很難捱。李飛飛的新家位于美國東北部富裕的新澤西州,一家三口擠在只有一間臥室的公寓里,家具是從路邊遺棄的垃圾里撿的。
為了補貼家用,每一個(gè)不上學(xué)的日子,李飛飛都會(huì )去打零工。最常見(jiàn)的工作是去中餐館打雜,每天從上午11點(diǎn)工作到晚上11點(diǎn),總共12個(gè)小時(shí),時(shí)薪2美元。她也做過(guò)幫人看家或遛狗的工作,時(shí)薪更高,也更清閑,但不好找。
在餐館打雜時(shí),趁著(zhù)下午換班,李飛飛會(huì )利用難得的空隙去讀母親分享給她的文學(xué)名著(zhù),餐館經(jīng)理對此不屑一顧?!八X(jué)得對我們這樣的人來(lái)說(shuō),想象力在生活中是多余的”,李飛飛回憶稱(chēng)。
對這些連英語(yǔ)都不會(huì )說(shuō)的華裔移民來(lái)說(shuō),階層躍遷是個(gè)遙不可及的夢(mèng)。
曾經(jīng)引以為傲的學(xué)業(yè)也變成負擔。李飛飛幾乎不會(huì )說(shuō)英語(yǔ),每一節課,無(wú)論什么科目,對她而言都是英語(yǔ)課。每天回家做作業(yè),她都要準備兩本詞典,一本英譯中,一本中譯英,否則就寫(xiě)不了作業(yè)。
自我表達成了一種奢望?!安粫?huì )說(shuō)話(huà)”的李飛飛交不到朋友,成績(jì)也一落千丈——考試的時(shí)候,很多時(shí)候她連題目都看不懂。
幸運的是,數學(xué)和物理兩門(mén)課受到的影響很小。學(xué)習它們,更多依賴(lài)數字、符號和公式。李飛飛對數學(xué)和物理的狂熱也沒(méi)有隨著(zhù)移民到美國而改變。
李飛飛家沒(méi)錢(qián)付學(xué)費。3年后高中畢業(yè)時(shí),她申請的都是公立和社區大學(xué)。懷著(zhù)一種儀式感, 李飛飛 順帶申請了美國頂級名校普林斯頓——因為她最崇拜的科學(xué)家愛(ài)因斯坦,普林斯頓是他度過(guò)晚年的地方。
沒(méi)想到,普林斯頓不愿意錯過(guò)這個(gè)SAT(類(lèi)似美國高考)數學(xué)考了滿(mǎn)分的女孩,給她開(kāi)出全額獎學(xué)金。
整個(gè)社區沸騰了。鄰居們羨慕地設想,李飛飛會(huì )去讀普林斯頓醫學(xué)、工程或者金融相關(guān)專(zhuān)業(yè),拿到富裕階層的敲門(mén)磚,改變整個(gè)家庭的命運。但是,讓他們大跌眼鏡的是,李飛飛并沒(méi)有進(jìn)那些熱門(mén)的賺錢(qián)行業(yè),而是選擇了自己癡迷的物理。
“真是張好彩票,可惜浪費了?!编従觽儫o(wú)法理解。
兩個(gè)世界
普林斯頓大學(xué)對李飛飛來(lái)說(shuō)就是天堂。
她依 然 很 窮,要從洗衣房撿別人扔掉的衣服穿。每個(gè)周末,都要回家里的干洗店幫忙。 大一快結束時(shí),李飛飛的母親心血管疾病發(fā)作,盡管通過(guò)手術(shù)搶救了回來(lái),但終生不能再從事全職體力勞動(dòng)。 李飛飛家用積蓄和借款開(kāi)了家干洗店,周末客人會(huì )更多,李飛飛要回家幫忙,而且幾乎不會(huì )說(shuō)英語(yǔ)的李飛飛父母,也需要女兒做翻譯。
來(lái)到美國后,李飛飛第一次有了屬于自己的房間,宿舍面積甚至比一家三口蝸居的公寓還要大。更重要的是,這里是知識的殿堂,可以幫她找到那顆指引自己的“北極星”,那個(gè)可以改變世界、讓她為之癡迷和奮斗的問(wèn)題。
大二時(shí),李飛飛的興趣發(fā)生轉向。當時(shí),在閱讀愛(ài)因斯坦、波爾、薛定諤等著(zhù)名科學(xué)家傳記后,她發(fā)現很多人在晚年轉而對生命話(huà)題感興趣,探索智慧的奧秘。在1990年代末的計算機熱下,另一個(gè)問(wèn)題引起了李飛飛的注意:機器可以掌握人類(lèi)的智慧嗎?
李飛飛就此關(guān)注到了人工智能領(lǐng)域。和20多年后這個(gè)行業(yè)的爆火不同,當時(shí)正值“AI寒冬”,整個(gè)領(lǐng)域停滯不前,缺乏突破,很難獲得研究資金。這個(gè)時(shí)候入行,顯然不是好時(shí)機。
李飛飛不在乎這些。大學(xué)畢業(yè)后,她選擇到另一家頂級名校加州理工學(xué)院深造,兩位導師分別來(lái)自計算機和神經(jīng)科學(xué)專(zhuān)業(yè)。
就在李飛飛滿(mǎn)懷期待開(kāi)始研究生生活時(shí),或許是嫌她吃的苦還不夠多,命運又給了她一記暴擊。
李飛飛母親再次病倒,幾乎完全不能再從事體力勞動(dòng),干洗店的生意難以為繼。李飛飛把父母接到自己的宿舍,讓母親在天氣更溫暖的加州療養,同時(shí)方便照顧他們。
母親的病隨時(shí)可能惡化,怎么掙錢(qián)給她看???第一次,李飛飛認真考慮,放棄科研夢(mèng)想,找一份薪水高的工作。
著(zhù)名咨詢(xún)公司麥肯錫正在加州理工學(xué)院招聘,李飛飛買(mǎi)了一件得體的西裝。這對她來(lái)說(shuō)還是過(guò)于奢侈的消費,她沒(méi)有撕掉標簽,而是用衣領(lǐng)遮住,打算面試結束后立刻退回店里。
盡管沒(méi)有任何工作經(jīng)驗,李飛飛還是憑借才智和韌性打動(dòng)了麥肯錫、他們不僅同意錄用,還把原定招聘的實(shí)習生崗轉成正式職工崗。
6位數年薪和健康保險近在眼前。最終,卻是母親阻止了李飛飛的決定。她至今都記得母親當時(shí)那段拯救了她人生的話(huà):
“飛飛,我們走到這一步,不是為了讓你放棄。我了解我的女兒,她不是一個(gè)咨詢(xún)顧問(wèn),她是一個(gè)科學(xué)家?!?/p>
給機器呈現整個(gè)世界
麥肯錫失去了一位咨詢(xún)顧問(wèn),已經(jīng)處于谷底的人工智能領(lǐng)域迎來(lái)一位轉折性的人物。
為了教機器像人一樣識別圖片中的物體,科學(xué)家們首先要搞懂,人是怎么辨識物體的。
李飛飛 圖源:斯坦福大學(xué)
1990年代前,主流理論認為,人眼辨識物體,是從色彩、形狀、明暗等不同層次的微小細節開(kāi)始,然后建立它們之間的關(guān)系,最后在大腦中形成一個(gè)完整的畫(huà)面。
這符合直覺(jué),算法的開(kāi)發(fā)也試圖模擬這個(gè)過(guò)程。
但是,到1990年代,這個(gè)理論遭到越來(lái)越多人質(zhì)疑??茖W(xué)家們通過(guò)實(shí)驗發(fā)現,人類(lèi)具有快速準確的圖像識別能力,哪怕在集中注意力做其他事情的同時(shí),也能對快速閃過(guò)的圖像內容作出精準判斷,比如“這是一幅風(fēng)景畫(huà)”,或者,“圖片里是一只柯基犬”。
人只要看到某些細節,就能通過(guò)自己的豐富經(jīng)驗聯(lián)想到這個(gè)物體可能是什么,并在想象中自動(dòng)填充其他部分。
換言之,重要的是“類(lèi)別”,人通過(guò)聯(lián)想到“類(lèi)別”而判斷物體是什么。
李飛飛是“類(lèi)別論”的支持者。她進(jìn)一步想到,人是因為有豐富的閱歷而能判斷出類(lèi)別,如果想讓機器也做到這一點(diǎn),就需要它們“看”過(guò)海量同一類(lèi)別的圖片。
創(chuàng )建一個(gè)由人類(lèi)標注好類(lèi)別的圖片庫,讓機器學(xué)習的想法就此出現。
給機器呈現一個(gè)完整的世界,它們之后會(huì )開(kāi)始嘗試理解這個(gè)世界。這是李飛飛的“北極星”,她看到了數據的重要意義。在此之前,科學(xué)家們只把它當成算法的附庸。
2005年博士畢業(yè)后,李飛飛先是在伊利諾伊大學(xué)厄巴納-香檳分校找到教職,一年后被母校普林斯頓挖走。她決心把創(chuàng )建數據庫的想法變成現實(shí)。
這是一個(gè)過(guò)于“大膽”的想法。
幾乎包含所有英文詞匯的網(wǎng)絡(luò )WordNet里有約14萬(wàn)個(gè)單詞,其中,所有可見(jiàn)的物體類(lèi)名詞有2.2萬(wàn)個(gè)。如果每一個(gè)類(lèi)別下配1000張圖,意味著(zhù)需要有約兩千萬(wàn)張標注好的圖片,規模浩大。
同事們都不看好這個(gè)項目,當時(shí)世界上最大的標注數據集,只有100個(gè)分類(lèi),圖像也只有約1萬(wàn)張,2000萬(wàn)張圖像太多了,算法用不了這么多數據,也沒(méi)有那么強的算力去支持。
連李飛飛導師的導師,“師爺”吉騰德拉也不看好這個(gè)項目,他委婉地提醒李飛飛:“科研的訣竅是跟隨你的領(lǐng)域一起成長(cháng),不要太超前?!边@尤為讓人喪氣,李飛飛本打算將來(lái)申請終身教職時(shí),請吉騰德拉寫(xiě)推薦信的。
她開(kāi)始擔心,如果繼續做ImageNet,自己會(huì )失去拿終身教職的機會(huì )。
男友西爾維奧支持李飛飛的想法,他們在加州理工讀博時(shí)結識,都是癡迷機器學(xué)習的書(shū)呆子性格?!澳悴皇且恢弊非蟪龈竦南敕▎??”西爾維奧說(shuō)。
李飛飛只有一個(gè)研究生做助手,以及少得可憐的經(jīng)費,這注定是一場(chǎng)豪賭。
外界大概很難想象,最前沿的計算機學(xué)習,最開(kāi)始是個(gè)手工活兒。
他們設計出程序,可以自動(dòng)依照劃分好的類(lèi)別從搜索引擎谷歌上一天24小時(shí)不停下載圖片。在電腦網(wǎng)絡(luò )IP被谷歌識別和封殺后,他們又想出了設置動(dòng)態(tài)IP的辦法。
一共有幾十億張圖片被下載,接下來(lái)需要剔除那些畫(huà)質(zhì)不高、重復或者不相關(guān)的圖片,然后手工標注這些圖片。
李飛飛請普林斯頓大學(xué)本科生們來(lái)做兼職標注,每小時(shí)10美元,但速度慢得驚人,按這個(gè)進(jìn)度,要18年才能完?成。
李飛飛想,自己那時(shí)可能已經(jīng)被普林斯頓開(kāi)除了。擴張預算、招更多學(xué)生來(lái)做標注也不現實(shí),工作又陷入死胡?同。
“眾包”拯救了他們。一次偶然的機遇,李飛飛聽(tīng)說(shuō)網(wǎng)絡(luò )購物平臺亞馬遜上可以發(fā)布“眾包”任務(wù),立刻想到,中國、越南等地人力成本明顯低于普林斯頓的本科生,如果把標注任務(wù)外包出去呢?
他們成了“眾包”業(yè)務(wù)早期最大的買(mǎi)家之一。最終在全世界167個(gè)國家的4.8萬(wàn)名標注員的共同努力下,僅用了1年時(shí)間,這個(gè)被命名為ImageNet的圖片庫就得以問(wèn)世,這是人類(lèi)歷史上規模最大的標注數據庫,和神經(jīng)網(wǎng)絡(luò )AlexNet一起,它們將引爆2012年的AI革?命。
仰望星空的權利
ImageNet是一個(gè)不被看好的項目,即便成功問(wèn)世,也鮮有人使用——科學(xué)家們普遍還沒(méi)有意識到數據的威力。
為了推廣ImageNet,2009年,李飛飛組織了迄今為止AI歷史上最成功的賽事:ImageNet大規模視覺(jué)識別挑戰賽。參賽團隊可以免費使用ImageNet圖像庫,但需要自行開(kāi)發(fā)算法,最終以圖像識別準確率高低來(lái)決定名次。
李飛飛傳記《我看到的世界》
最開(kāi)始兩屆很難說(shuō)是成功,參賽隊伍數量一般,算法識別準確率也沒(méi)有革命性突破。
事情在2012年迎來(lái)轉機。這一年,有“AI教父”美譽(yù)的杰弗里·辛頓和其學(xué)生開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò )AlexNet在挑戰賽中一舉奪魁,并且把識別準確率提高了整整10個(gè)百分點(diǎn)。
人工神經(jīng)網(wǎng)絡(luò )一戰成名。更讓科學(xué)家驚喜的是,他們意識到,如果不停增加神經(jīng)網(wǎng)絡(luò )的層次,識別準確率還會(huì )繼續提高,這是“深度學(xué)習”的含義。
讓機器具備像人一樣“看”的能力,歷史上第一次變成現實(shí)。
更重要的是,用大數據訓練多層神經(jīng)網(wǎng)絡(luò )的想法,從圖像擴展到語(yǔ)音、文字、視頻等其他領(lǐng)域,引爆了持續到現在的AI革命。2014年,機器人臉識別準確率已超越人類(lèi),突破落地門(mén)檻;3年后,AlphaGo橫空出世,戰勝?lài)迨澜绻谲娎钍朗?022年,ChatGPT的問(wèn)世更是讓整個(gè)世界意識到了人工智能的潛力。
這一切的起點(diǎn)和技術(shù)基礎,是李飛飛的ImageNet和2012年的AlexNet。
李飛飛就此享譽(yù)世界。榮譽(yù)、地位、金錢(qián)潮水般向她涌來(lái),她拿到了斯坦福大學(xué)的終身教職,當選美國工程院院士,成為谷歌云計算部門(mén)的首席科學(xué)家。李飛飛和西爾維奧結了婚,有了孩子,和自己的父母生活在一起,不用再為錢(qián)擔心。
給機器呈現整個(gè)世界曾經(jīng)是她的“北極星”,讓她為之癡迷并前行。她做到了?,F在,到了要尋找下一顆“北極星”的時(shí)候。畢竟,每個(gè)人都有仰望星空的權利,無(wú)論是在臭水溝還是已經(jīng)爬上了山巔。
* 主要資料來(lái)源:李飛飛傳記《我看到的世界》,
中文版由中信出版集團出版。
合作事宜: hezuo@stimes.cn
投稿事宜: tougao@stimes.cn
-
2023年血糖新標準公布,不是3.9-6.1,快來(lái)看看你的血糖正常嗎? 2023-02-07
-
2023年各省最新電價(jià)一覽!8省中午執行谷段電價(jià)! 2023-01-03
-
PPT導出高分辨率圖片的四種方法 2022-09-22
-
2023年最新!國家電網(wǎng)27家省級電力公司負責人大盤(pán)點(diǎn) 2023-03-14
-
全國消防救援總隊主官及簡(jiǎn)歷(2023.2) 2023-02-10
-
盤(pán)點(diǎn) l 中國石油大慶油田現任領(lǐng)導班子 2023-02-28
-
我們的前輩!歷屆全國工程勘察設計大師完整名單! 2022-11-18
-
關(guān)于某送變電公司“4·22”人身死亡事故的快報 2022-04-26