當前位置：

首頁 > 知識 > 圖靈測試，到底測的是什麼？

圖靈測試，到底測的是什麼？

知識 05-12

2014年6月7日發生了一件事情：聊天程序「尤金·古斯特曼」（Eugene Goostman）在英國皇家學會舉行的2014圖靈測試大會上冒充一個13歲烏克蘭男孩而騙過了33%的評委，從而「通過」了圖靈測試。

尤金的在線對話頁面，不幸的是因為這一事件給伺服器帶來的壓力，該網站之後好幾天無法訪問……

圖靈測試，到底測的是什麼？

但是，通過了測試又怎麼樣呢？說明了什麼問題呢？

圖靈測試

1950年，阿蘭·圖靈在那篇名垂青史的論文《計算機械與智力》的開篇說：「我建議大家考慮這個問題：『機器能思考嗎？』」

但是由於我們很難精確地定義思考，所以圖靈提出了他所謂的「模仿遊戲」：

一場正常的模仿遊戲有ABC三人參與，A是男性，B是女性，兩人坐在房間里；C是房間外的裁判，他的任務是要判斷出這兩人誰是男性誰是女性。但是男方是帶著任務來的：他要欺騙裁判，讓裁判做出錯誤的判斷。

那麼，圖靈問：「如果一台機器取代了這個遊戲里的男方的地位，會發生什麼？這台機器騙過審問者的概率會比人類男女參加時更高嗎？這個問題取代了我們原本的問題：『機器能否思考？』」而這，就是圖靈測試的本體。

圖靈測試，到底測的是什麼？

圖片來源：BBC

……等等，那現在這幫人在搞的圖靈測試又是什麼啊。

其實你可能已經注意到了圖靈的真正目的。不是說「思考」沒法定義嗎？沒關係，我們不去糾纏哲學，我們來製造一個可操作的標準。如果這台機器「表現得」和一個思考的人類（人類是會思考的，對吧？）無法區分，那麼我們就大可把它當做是在「思考」。

當然，有些方面機器很難表現得和人類一樣，比如有血有肉——但是既然我們關注的是思考，那麼就可以選擇一個有代表性的領域，圖靈選擇的就是「模仿遊戲」。在原論文中圖靈建議，要求也不必太高，假如能判對的裁判人數不到70%（我認為這個數字也只是他的隨口一說），那我們就可算是它成功了。

而到了1952年，在一場BBC廣播中，圖靈談到了一個新的具體想法：讓計算機來冒充人。如果不足70%的人判對（也就是超過30%的裁判誤以為在和自己說話的是人而非計算機），那就算作成功了。

可以看到，圖靈測試的核心其實不是「計算機能否和人對話」，而是「計算機能否在智力行為上表現得和人無法區分」。冒充異性和冒充人類都不過是特例而已。

不過這個1952年版的圖靈測試在後世被發揚光大，成了今天我們所知的圖靈測試的唯一方法。這就帶來了一些問題。

中文屋子

圖靈測試自誕生以來產生了巨大的影響力，不光有支持，也少不得批評。其中最重要的批評之一，可能是1980年約翰·塞爾在《心智、大腦和程序》一文中提到的中文屋子思想實驗了。

塞爾說，想像他鎖在一間屋子裡，手動模擬一個巨大的AI程序，和外界進行中文的對話。這個程序據說是「懂中文」的——至少，能以中文通過圖靈測試。屋子裡除了一堆紙（塞爾的原話是「bits of paper」）上寫著運算的規則之外，別無他物。（好吧，為了人道起見也許應當添加基本的維生設施……）

圖靈測試，到底測的是什麼？

塞爾不懂中文，在屋子裡擺弄符號顯然也無助於他習得中文，屋子裡也沒有別的東西理解中文了。如果塞爾不「理解」中文，那麼塞爾加上這堆紙也不能說是「理解」中文吧！雖然屋子的中文水平足以騙過中文使用者，但沒有任何實體真的「理解」發生了什麼。

換言之，所謂的圖靈測試也是沒有用的，就算通過了它也不能表明計算機在思考。

但問題還不僅限於圖靈測試，按照這個實驗，一台電腦和塞爾一樣，都是只能識別彎彎扭扭的「符號」，對這些漢字元號的意義一無所知。這也正是計算機程序的問題，不管它是硅基的還是塞爾基的。這等於是說有理解力的強AI根本不可能出現！

這個思想實驗看起來一目了然，完美符合直覺，而且很迎合了不少人的願望——證明人類心智是獨一無二的天賜產物，人類造不出贗品來。不過話說在前頭，我（遵循丹尼爾·丹內特等人的觀點）認為它是錯的。

圖靈測試，到底測的是什麼？

其實塞爾當初在伯克利講座上首次提出這個實驗的時候，就有聽眾反對說，鎖在屋子裡的人可能不懂他在處理什麼東西，但他只是整個系統的一部分啊，他還有規則書，有演算紙筆，有一堆漢字的資料庫，憑什麼一定要他理解、而不能讓整個系統理解？

塞爾的回答是：

「這個想法認為雖然一個人不懂漢語，不知怎麼的他和他的那一堆紙聯合起來就能懂漢語。如果一個人不是已經深陷意識形態之中，那他怎麼會認為這想法可信，還真有點難以想像啊。」

也許吧，但是，真的只有「一堆紙」？

直覺泵的旋鈕

這種思想實驗——用丹內特的話說叫「直覺泵」——有個共同的問題。它的確給出了一個直覺的結論，但是這結論是來自一個完整的詳盡的思想實驗，而不像普通的邏輯推理那樣來自具體而明確的幾個前提。如果這個實驗的某個細節，某個你覺得無足輕重的細節，欺騙了你的直覺呢？

最有名的直覺泵大概是有軌電車問題（Trolley Problem），1967年由英國哲學家費麗帕·弗特提出。鐵軌上有五個小孩在玩，停用的岔軌上有一個小孩在玩，你要把車轉移到岔軌上壓死一個孩子救下五個嗎？這是一個非常典型的關於道德問題的直覺泵。但是千萬不要以為這實驗就能完整地代表你的道德立場——如果我換一個條件，那個岔軌沒有停用，也在正常運行，只是這趟車正好不往那走呢？如果我再換一個條件，根本就沒有岔軌，那個小孩就在你身邊玩，你把他推下去就能讓車停下救另外五個小孩呢？如果那一個小孩是你的親人呢？如果根本沒有小孩、只有你自己決定是否要自己跳下去呢？

有軌電車問題已經成為了一個大領域，有無數的變體。圖片來源：Workman Publishing

圖靈測試，到底測的是什麼？

對待直覺泵，這正是丹內特的建議：研究它的細節，看看每個細節如果發生了改變會不會影響到最後產出的那個直覺。用他的話說，是「轉動直覺泵的旋鈕」。

回到中文屋子。塞爾說，他在手動模擬一個程序的運行——但是他沒有說他是在哪一個層級上模擬。如果外面的人輸入了一串中文，比如「你好啊」，屋子裡的人在做什麼？他是在做機器碼（將寄存器23945的內容加到寄存器93756上）？是在做源碼（定義常數p，令p=100）？是在做偽代碼（將句子拆分為名詞、動詞、代詞和修飾詞，判斷其是否為一個問題）？有沒有注釋可看？如果他在頂層，那麼他會不會對自己在做什麼有所理解？如果他只是底層的一個計算器，那他之上的繁複層級真的可以用「一堆紙」來輕描淡寫地概括嗎？

設想這樣一個問題：寫下一個英文大寫字母D，把它逆時針旋轉90度，然後把它放在一個英文大寫字母J的上面。請問這讓你想到了什麼樣的天氣？

一個頂層的塞爾（或者乾脆就是一個懂中文的塞爾）的腦海中會浮現出D躺在J上的這個形狀。一個底層的塞爾當然對此一無所知，但是他身為計算器所驅動的那個中文屋子要怎麼回答這個問題？如果這個中文屋真的通過了圖靈測試，它當然不會被這道題難倒——但是解這道題的唯一辦法，就是照著它的指示，把D躺倒，放在J上，對比記憶庫，判斷出這個形狀最接近於雨傘，根據雨傘聯想到雨天。這是底層的塞爾所不知道但中文屋作為一個整體必須在它的「內存」中做的事情。而這件事情和一個懂中文的塞爾解題時的所思所想又有何區別呢？

但是，如果簡單地用「一堆紙」這個人畜無害的詞，輕描淡寫地描述中文屋，你的直覺就被誤導了。如果一個中文屋真的完美通過了圖靈測試，真的和人無法區分，它在和裁判對話時的「思維」狀態必須是和真人高度類似的。假如圖靈測試的裁判決定用蘇格拉底式方法教授對方量子物理學，那麼一個底層的做算術的塞爾當然不會因此學會量子物理——但是中文屋卻會（別忘了，它通過了圖靈測試——它能在智力行為上表現得和人無法區分）。這就像是給中文屋安裝了一個新程序，能執行簡單的量子物理計算和模擬。在這種情況下，你還憑什麼說，因為底層的人沒有理解，所以這間屋子也不能理解呢？

不過上面的論證其實都有一個麻煩。這些說的都是理想的圖靈測試，是1950年圖靈給出的最原始形態。而2014年6月7日這個聊天程序通過的那個「圖靈測試」，和1950年圖靈心中的那個測試，並不完全是一回事。

聊天機器人的「圖靈測試」

如果你剛才幾部分的內容沒忘光，可能還會記得，我們反覆強調了圖靈測試的準則是「計算機在智力行為上表現得和人無法區分」。

但是現實中真要測的話總得有規章，而英國皇家學會的測試規矩是，在一系列時長為5分鐘的鍵盤對話中，某台計算機被誤認為是人類的比例超過30%，那麼這台計算機就被認為通過了圖靈測試。尤金在2014年的成績是在總計150場對話里騙過了30個評委里的10個，比兩年前提高了4個百分點（所以嚴格來說，並不是發生了什麼大突破，只是在改良的過程中跨越了一個武斷的閾值）。

麻煩來了：尤金的設計思路並不是「一台在智力行為上表現得和人無法區分」的機器，而是一台「能夠在5分鐘長度對話內儘可能騙過人類」的機器。

經濟學有個所謂的古德哈特定律：一項指標一旦成為政策制定的依據，便立刻不再有效。政策制定者會犧牲其他方面來強化這個指標，使得這個指標不再具有指示整體情況的作用。類似的道理勉強也可以套用到別的領域裡。某種意義上尤金·古斯特曼就是例證——它不但是專門設計的聊天機器人、缺乏任何其他領域的智力能力，而且為了騙過人類，還被特意設定成一個13歲的非英語母語的小孩，以便在很多問題無法回答或者出現錯誤的時候，讓裁判誤以為這是因為它年齡小，而非因為它欠缺人性。

其實在聊天機器人里尤金已經不錯了，至少它沒有話題限制。早年間一個著名的聊天程序ELIZA的一個腳本是冒充一位精神分析師，如果病人說「我頭疼」，它就會回以「你為什麼說你頭疼？」在這個子領域裡它頗為逼真——可是這實在不能認為是表現出了類似人的智力活動。推特上曾有一個賬號叫@AI_AGW，尋找那些氣候變化懷疑論者的言論然後給他們發科學論文鏈接辯論，有些懷疑論者根本沒意識到這是AI，雙方可以大戰幾十回合。網友們還開發出了「女神AI」、「高冷AI」、「二逼AI」等等形態對其進行戲仿——但這些恐怕都不是圖靈當初設想的人工智慧形態。當然更不是科幻愛好者恐懼（或者盼望）的天網覺醒。

圖靈測試，到底測的是什麼？

也許要這樣的人工智慧才更接近圖靈的本意吧……圖片來源：xkcd，漢化：Ent

無論是尤金的編寫者還是程序的組織者，對此倒也心知肚明。編寫者弗拉基米爾·維西羅夫說，「我們希望能藉此激發人們對人工智慧與聊天機器人的興趣。」而組織者凱文·沃里克說，計算機冒充人會帶來網路安全的問題，「理解這類實時在線交流如何讓人們對某些事信以為真並對他們造成影響，是非常重要的事情。」沒有人真的提到圖靈測試本來的那個意義——判斷計算機是否在思考；因為這也的確不是本來的那個圖靈測試。

有一些人認為現在的整個人工智慧領域都背離了初衷，比如侯世達。另一些人則認為圖靈測試根本是無聊和過時的，和AI沒有關係。有些人覺得現在的人工智慧思路毫無問題，假以時日就能做出好用的AI。還有一些人認為強AI根本就是不可實現的。作為一個旁觀者，我肯定無力判斷哪幾種觀點是對的，但從個人來說，我是真的希望能出現一個程序，以原本的意義通過圖靈測試的最初版——不光是為了計算機和人工智慧的進展，也是為了理解我們自身的大腦。說到底，要弄懂一台機器的運作方式，還有什麼辦法比拆開來再裝回去更好的呢？

兩個AI

「這個考核表上說，我們應該學會……『像人類那樣思考』。」

「……意思是要裝得很蠢咯？」

話說回來，誰規定人類看待世界的方式就是正確的呢？或許，AI眼中的光怪陸離才是世界的本相：這也許將是圍棋AI的最後死穴。

果殼網

ID：Guokr42

中二病究竟有沒有得治？

密集恐懼症真的「只是矯情」？

不相干的東西嚴絲合縫拼在一起就覺得爽，是強迫症嗎？

你有病？沒事~ 果殼有葯呀！

本文來自果殼網，謝絕轉載

圖靈測試，到底測的是什麼？

您可能感興趣

※「3張超準的心理測試圖，測測你能看到什麼？」
※著名的圖靈測試，究竟是什麼鬼？
※心理測試：看圖，你第一眼看到什麼？測測你的脾氣
※測試 |測測你的伴侶在想什麼？
※圖像測試：第一眼你看到的是什麼？測你的個性
※【測試】測一測，今夏你有怎樣的好運？?
※心理測試：你內心的期望到底是什麼？測測就知道了
※星座測試：測測看你會因為什麼，捨棄了愛情？
※測試：你的未來是什麼樣的？
※圖片測試，你第一眼看到的是什麼？
※【測試】測一測你最像醉玲瓏的誰？
※心理測試：測測你的伴侶在想什麼？
※測試 | 你的未來是什麼樣的？
※【測試】測一測你低估了自己的什麼能力呢！
※心理測試：你在圖中看到什麼？測你是否有雙面性格！
※【測試】測一測你為什麼不合群？
※測試：測測你的心理極限在哪裡？
※測試：你到底有多作？
※趣味測試：測試你現在最重視的是什麼？