人工智能“邂逅”高考:那一天,機器人來了
這是一個普通的高考考場:考生就坐,準備就緒,開始答題。
但這又不是一個普通的高考考場。這里不夠安靜。在一個大約300平方的大廳里,循環(huán)播放著一首鋼琴曲,時不時還有女主持人和男嘉賓的對話。大廳一排排的椅子上坐著興奮而略帶焦躁的觀眾,人們竊竊私語,似乎都對他的解題過程充滿興趣。
面對音樂和干擾,考生表現(xiàn)出了良好的心理素質(zhì)。他全神貫注地解題,速度與質(zhì)量沒有受到外界的絲毫干擾。他解開每一道題的速度為7到15秒。據(jù)熟悉他的人介紹,這是他放慢了6倍的結(jié)果。
他放慢的原因是:他不僅需要把題目做對,還需要給大家展示他是如何做到的。根據(jù)高考要求,他不能直接說話。他也沒有多余的手來為觀眾進行演算。一切只能通過禮堂前部的大屏幕來展示:左邊是一個由無數(shù)藍色光點組成的大腦,每算一道題,藍色大腦里就會跳出若干以紅色、黃色、藍色節(jié)點構(gòu)建的知識鏈。每個節(jié)點旁邊有一行白色的字,標注著這道題涉及了哪些知識。
屏幕的右邊是正在演算的題目。藍色光標在題目末端閃爍,過一段時間打出一行字:那是他給出的答案。答案閃現(xiàn)的飛快,一些觀眾干脆從椅子上站起來,想看清楚題目以跟上他思考的速度,但往往還沒有把題目讀完,就已經(jīng)到了下一道題。
開始時間是6點40分:這比高考要晚了近5個小時。不過,在這場為他專門準備的考試里,才開始了不到8分鐘,而他已經(jīng)快把題目做完了。
最終,他答完了題。用時9分47秒。幾乎在他答完題目的同時,在2000公里外的成都,另一個與他類似的考生,也已完成了題目。他們使用相似的屏幕輸出,做一樣的北京市高考數(shù)學(xué)卷,只不過那一位成都的考生用時要比他稍長些:22分鐘。
經(jīng)過數(shù)學(xué)特級老師、奧賽教練韓兆勇的評審,他的分數(shù)最終公布:134分。
為了衡量這個分數(shù)的價值,有3組高考狀元陪他一起進行測試:狀元一組得分,119分。狀元二組得分,140分。狀元三組得分,146分。最終結(jié)果是,他惜敗于最精英的人類“做題家”。
在另外一邊,成都的考生也得出了結(jié)果。他的成績是105分。這一分數(shù)不如北京的考生一樣顯眼。但對他而言,無疑仍是個巨大的進步——僅4個月前,他的成績只有93分。4個月的時間里,他就提升了12分。
這兩位特殊的考生正是中國歷史上第一次正式參加高考的人工智能。北京的“考生”是學(xué)霸君推出的智能教育機器人Aidam,而成都的“考生”則是由成都準星云學(xué)科技有限公司開發(fā)的人工智能系統(tǒng)AI-Maths。在恢復(fù)高考的第40年,TA們來了。
AI-Maths的“考場”
在李世石和柯潔先后慘敗于圍棋AI AlphaGo之后,“人機大戰(zhàn)”成為了許多媒體在報道機器人的過程中常常出現(xiàn)的詞語?;蛟S由于此,在機器人宣布參與高考之后,網(wǎng)民的評論也日趨兩極化。一種聲音認為,人工智能參與高考,很可能是在“蹭AlphaGo的熱度”,或是認為人工智能進行高考,猶如學(xué)生用計算器計算數(shù)學(xué)題,有何意義?而更多的人,即便承認人工智能參與高考有價值,也認為以高考的難度,人工智能要獲取好成績,仍屬不可能。
甚至在知乎“如何評價國產(chǎn)機器人將參加2017年高考?”問題下,有一個高票答案斷言“當今人工智能的發(fā)展,機器是不可能在非西藏,新疆等省份考入一本的,在新疆西藏考文科還有個一搏,理科是會死路一條?!睂?shù)學(xué)的估計是“估計60~80比較靠譜”。也有人認為機器必須要聯(lián)網(wǎng)才能獲得答案,否則會“老師,if斷網(wǎng),404 not found”。
在兩位人工智能參與高考的前一天(6月6日),科大訊飛輪值總裁吳曉如及訊飛研究院院長胡國平接受媒體采訪,對這些問題作出了回應(yīng)。
據(jù)吳曉如披露的內(nèi)容和相關(guān)資料綜合,機器人參加高考,并不是所謂的“人機大戰(zhàn)”后才出現(xiàn)的噱頭。在國家層面,“高考機器人”是國家“863”計劃信息技術(shù)領(lǐng)域“基于大數(shù)據(jù)的類人智能關(guān)鍵技術(shù)與系統(tǒng)”項目的重要研究目標之一。該項目由科大訊飛聯(lián)合30多家科研院校和企業(yè)共同參與,早在2015年便已立項。
作為國家級項目,研制“高考機器人”有多方面的意義:首先,聚集國內(nèi)的一些比較頂級的研究機構(gòu)和科學(xué)家,一起來攻關(guān)現(xiàn)在人工智能領(lǐng)域相關(guān)的一些重要的技術(shù)問題;其次,由于人工智能的發(fā)展,傳統(tǒng)用以測試人工智能水平的“圖靈測試”已經(jīng)逐漸落后,而高考正是一個能充分體現(xiàn)和應(yīng)用人工智能相關(guān)的多種能力的領(lǐng)域。最后,人工智能參與高考,將會根據(jù)不同領(lǐng)域分為不同的攻關(guān)組,這些攻關(guān)組所取得一些技術(shù)成果,能夠運用到相關(guān)行業(yè)和領(lǐng)域,如翻譯和車載控制等。
作為國家級項目,“高考機器人”仍在開發(fā)和完善之中,要2019年才會正式參加考試。但今年參與考試的“考生”之一準星云學(xué)AI-Maths,與該項目有著密切關(guān)系。資料顯示,準星云學(xué)的核心團隊于2015年參與了“基于大數(shù)據(jù)的類人智能關(guān)鍵技術(shù)與系統(tǒng)”,并主導(dǎo)子課題“初等數(shù)學(xué)問題求解關(guān)鍵技術(shù)及系統(tǒng)”。后者正是AI-Maths技術(shù)的重要來源。除此之外,AI-Maths還綜合了清華大學(xué)大數(shù)據(jù)及自然語言識別等前沿技術(shù),是“一款以自動解題技術(shù)為核心的人工智能系統(tǒng)”。
而另一個“考生”Aidam,則來源于學(xué)霸君。此前,學(xué)霸君接受采訪時曾經(jīng)描述,教育中清楚地分析知識點,做到知識框架全局可細分就需要用數(shù)據(jù)來驅(qū)動學(xué)習效果,而數(shù)據(jù)則來源于學(xué)生使用學(xué)霸君時的各種行為記錄。
在講解Aidam的背后邏輯的時候,學(xué)霸君的首席科學(xué)家陳銳鋒使用了圍棋作為比喻。類似于圍棋棋盤可以被分為無數(shù)橫軸和縱軸,人的思維模式和解題模式也可以被具象為棋子,棋子的縱軸與橫軸分別代表起始的狀態(tài)和下一步的狀態(tài),這樣,每一次題目的可能解法,就相當于在一個龐大思維矩陣里下棋的過程。而學(xué)霸君此前積累的龐大的題庫與數(shù)據(jù)記錄,恰恰類似于無數(shù)張圍棋棋譜,為人工智能自主學(xué)習提供了可能性?!拔野l(fā)現(xiàn),原來在我們的題庫里面我們記錄了大量的關(guān)于狀態(tài)之間可跳轉(zhuǎn)、可推演、可演算、可關(guān)聯(lián)的信息。”
不同的背景決定了二者不同的解題思路,甚至在一定程度上截然相反:準星云學(xué)的AI-Maths與“863”計劃的高考機器人的思路一致,強調(diào)“不聯(lián)網(wǎng)、不連接題庫、無人工參與”,在只有少量訓(xùn)練樣本的情況(只有約500套試卷、1萬道題的訓(xùn)練量)以機器建立類似人類的復(fù)雜邏輯推理能力與聯(lián)想能力,試圖讓機器在較少樣本和較少資源耗費的情況下,擁有“舉一反三”能力。而學(xué)霸君的思路則強調(diào)大題庫(已經(jīng)有超過7000萬的巨大題庫),通過海量的題庫、用戶行為數(shù)據(jù),以及AI自我博弈,從海量題目中找到適合共通的知識元件和解題模式。從某種角度說,這兩種模式的區(qū)別類似于AlphaGo早期版本的學(xué)習過程,計算機可以通過規(guī)則自己對弈,也可以學(xué)習棋譜。從此前的測試中看,Aidam的成績要好于AI-Maths,但如果以純粹人工智能的難度和多行業(yè)的延展性,AI-Maths要略高一籌。
不過,盡管距離人類并不遙遠,但無論是AI-Maths還是Aidam,仍然有很長的路要走。
狀元與Aidam的最終分數(shù)
在4個月前的那次首次亮相中,AIMaths僅得了93分。事后,準星云學(xué)CEO林輝在接受記者采訪時,認為它失分的重要原因來源于“無法理解題意”,它們?nèi)狈θ祟惿畹某WR,它們無法理解“投資”“理財”這些概念。
在現(xiàn)場AI-Maths的研究人員舉了一個例子:它可能能夠解決復(fù)雜的數(shù)學(xué)問題,因為1~9的數(shù)字對它理解起來非常很容易。但是人工智能要理解“蘋果是什么”卻很難,因為一個具象蘋果,需要非常多的描述。人類可以從小從生活經(jīng)驗里習得,而AI則不能。這也導(dǎo)致了,在語言相對更復(fù)雜,概念更多的應(yīng)用題領(lǐng)域,AI的難度要比人類解題大得多。
這一問題同樣困擾著Aidam的開發(fā)者。陳銳鋒簡要介紹了AI的答題過程必須經(jīng)過三步:第一步,從自然語言轉(zhuǎn)為形式語言,需要將復(fù)雜的數(shù)學(xué)題分析其中的語法結(jié)構(gòu),抽出其中的主謂賓,形成能夠讓AI理解的語句;第二步,從形式語言進行自我映射、自我推理,并完成最終解題過程;第三步,將解題完成后的機器語言翻譯回人類的語言。僅在解決“如何將幾何語言轉(zhuǎn)化為機器語言”這一難題上,開發(fā)者就花費了整整一年的時間。此次的題目也是由人手工輸入,在一定程度上降低了AI解讀的難度。
但從整個AI行業(yè)而看,AI對語言的理解,乃至對于主觀題的判斷,又比人們設(shè)想的更加迅速。據(jù)吳曉如在訪談中介紹,目前科大訊飛的智能閱卷產(chǎn)品,已經(jīng)可以實現(xiàn)對主觀題,甚至對語文、英文的作文題都可以實現(xiàn)自動評分,包括給出詳細批語,甚至可以對學(xué)生們用的好的一些優(yōu)秀的排比句,和名人名言給予針對性的鼓勵和評點。另一方面,微軟小冰在2017年5月19日出版的詩集《陽光失了玻璃窗》獲得好評,被認為比起去年的高考作文有了很大的進步。
從以往的技術(shù)發(fā)展進度看,人工智能從第一次走進高考考場,到最終攻克應(yīng)用題和語義理解難關(guān),獲取較為優(yōu)異的高考的各科分數(shù),到最后考入清華和北大,只是時間問題?;蛟S真正的問題是,之后人們?nèi)绾闻c人工智能相處,乃至借助AI的力量,讓教育變得更有質(zhì)量、更個性化,也更加公平。例如此次的兩家公司:學(xué)霸君和準星云學(xué),其技術(shù)都包括了自動批改、智能評測、學(xué)習診斷等功能,這也逐漸成為目前的“AI+教育”類產(chǎn)品的標配。
這不禁讓人聯(lián)想,2017年是中國恢復(fù)高考制度40周年。這40年,高考制度成功的打破了原有的社會壁壘,改寫了無數(shù)中國人的命運。那么下一代,AI走入教室和考場,又會改變哪些人的命運呢?
(文章轉(zhuǎn)自36氪搜狐公眾平臺)