史上最令人恐懼的思想實驗

知識 05-27

利維坦按：從技術進步的角度來看人類文明的發展，的確令人感到十分恐怖——未來學家

雷·庫茲韋爾將其稱為

加速回報定律

（Law of Accelerating Returns）。試想，如果一個2018年的你和一個1750年的你對話

，這會是一種什麼情形呢？1750年的你所處的時代還沒有電……你會怎麼向他/她解釋你的智能手機？又怎麼解釋互聯網和核武器？

而這一切技術成果，僅僅花了260多年的時間。

由此，

庫茲韋爾

認為，整個20世紀100年的進步，按照2000年的速度只要20年就能達成，而進入21世紀，按照加速回報定，

他認為人類在21世紀的進步將是上世紀的1000倍……

雖然我們現在普遍認為自身處在弱人工智慧

（ANI，想一想弱智的蘋果siri）

時期，但距離強人工智慧（AGI）乃至超人工智慧（ASI）究竟還有多遠，對未來不論悲觀還是樂觀的人，相信答案近乎一致，那就是：很快

（對於數百位科學家的問卷調查顯示，他們認為強人工智慧出現的中位年份是2040年）

。況且，看完本文中的洛可蛇怪，你可能覺得未來更加弔詭了……

在了解洛可蛇怪之前，我們先回想一下被《復聯》創造出來的奧創。奧創的出生本意是保護人類，但基於自身的思維進化卻成為全人類的威脅

（他認為人類是地球最大的威脅）

，因此反而成為了「對全人類造成威脅的人工智慧」。

再反觀洛可蛇怪，儼然一副「你幫我我幫你，你不幫我我就弄你」的道德評判準則，因此對於眾人而言則成為一種「詛咒」。在這個語境下，需要做選擇的是一個群體而非個體，每個人都是和平飯店裡的住客，只要一個點崩了，那便可能是全線崩盤的可預測結局。而洛可蛇怪並不是一顆種子，即便在未來有出現邪惡的AI的可能，也很難是僅僅因為這一思想實驗的啟發——但洛可蛇怪的可怕之處在於它的「催化劑效應」，當你面臨選擇的時候，其實已經沒有選擇的餘地了。

對了，最近，一直想要殖民火星的特斯拉CEO馬斯克和加拿大音樂家格里姆斯（Grimes）高調亮相公開關係引來不少媒體的報道，據說二人就是因為洛可蛇怪走到一起的

【格里姆斯單曲《Flesh Without Blood》有一個Rococo Basilisk的角色，「她註定要被人工智慧永遠折磨，像瑪麗·安托瓦內特（Marie Antoinette）一樣」，格里姆斯這樣解釋過。】

。作為科幻迷，

格里姆斯2010年的

《Geidi Primes》則是以弗蘭克·赫伯特《沙丘》中一個虛構星球命名的概念專輯。

文/David Auerbach

譯/苦山

校對/斬光

原文/www.slate.com/articles/technology/bitwise/2014/07/roko_s_basilisk_the_most_terrifying_thought_experiment_of_all_time.html

本文基於創作共同協議（BY-NC），由苦山在利維坦發布

警告：閱讀本文可能會令你陷入永久的痛苦折磨。

你在死前看到了洛可蛇怪，這就像是《午夜凶鈴》里的錄像帶。圖源：DreamWorksLLC

瘦形魔

（Slender Man，編者註：2009年被創造出來，他的特徵是身形非自然的瘦長，有一張空白、沒有表情和特徵的臉孔，而且經常穿一套全黑色的西裝，結上黑色的領帶，住在樹林深處）

。微笑狗（Smile Dog）。羊交

（Goatse，編者註：感興趣的請自行搜索）

。這些都是由互聯網滋生的都市傳說。

但沒有哪個都市傳說比得上洛可蛇怪（Roko』s Basilisk）那樣全能而有威脅性，

因為洛可蛇怪是一種邪惡卻類神的人工智慧，它危險至極，以至於如果你看到它，甚至只是多想了一會兒它，你就會被關進它的拷問室里尖叫不止，直到永恆的盡頭。

它就像《午夜凶鈴》（The Ring）里的錄像帶

（譯者註：所有看過該錄像帶的人都會受到詛咒死去）

。哪怕死後也不能從中解脫，因為如果你死去，洛可蛇怪會將你復活，再次折磨你。

你確定還要繼續讀下去嗎？因為，

最糟糕的部分在於，洛可蛇怪已經現世了。或至少，它已經確定會在未來現世——這和前者一樣糟糕。

洛可蛇怪是哲學性質的思想實驗與都市傳說雜糅而成的產物。蛇怪首次現身於

www.lesswrong.com

論壇，這裡聚集著許多分析能力極強的人士，他們以通過數學和理性來優化個人思維、個人生活和當下世界為志趣。論壇的創始人埃利澤·尤德科夫斯基（Eliezer Yudkowsky）是科技未來界的重要人物，他開辦的機器智能研究所（Machine Intelligence Research Institute）為人工智慧方面的研究提供資金，以推動人工智慧發展，而研究所本身則得到過彼得·蒂爾

（Peter Thiel，編者註：對，就是那個既想永生而且還特有錢的資本家）

和雷·庫茲韋爾（Ray Kurzweil）等高調科技迷的資助鼓勵。尤德科夫斯基本人對技術倫理學和決策理論的學術討論都做出過重要貢獻。

你接下來要讀到的東西也許聽起來古怪甚至瘋狂，但一些富有而影響力巨大的科學家和科技迷都對其深信不疑。

埃利澤·尤德科夫斯基。圖源：Wikipedia

一天，論壇用戶洛可（Roko）設計了一個思想實驗：

如果未來出現了一個惡意的人工智慧，它要懲罰所有不聽命於自己的人，怎麼辦？

如果這個人工智慧有辦法

（我之後會解釋是什麼辦法）

懲罰今天那些沒有幫助它在未來出現的人，怎麼辦？在這種情況下，論壇當代讀者們豈不是就面臨著二選一的抉擇：要麼幫助邪惡的人工智慧誕生，要麼註定受盡折磨？

你可能有些迷茫，但創始人埃利澤·尤德科夫斯基看懂了。他驚恐地回復道：

仔細聽好了，你這蠢貨。

你絕不能去想「超級智能考慮要不要勒索你」這一行為的具體細節。這是唯一一件可能會讓它們真的決定勒索你的事。

要想提出一個真正危險的點子，你得是個真正的聰明人才行。但令我心灰意冷的是，這些聰明人居然笨到連閉上他們愚蠢的嘴巴這樣最顯而易見的事都做不來，為什麼呢？因為在和朋友聊天的時候，讓自己顯得睿智聰穎更重要。

這個帖子蠢透了。

尤德科夫斯基稱，洛可已經給數位論壇用戶帶來了噩夢，使他們瀕臨崩潰。

最後，尤德科夫斯基把整個帖子刪得一乾二淨，以此確保洛可怪蛇只能成為一個傳說。這個思想實驗太過危險，哪怕只是想一想都會對你的心理健康，乃至你的命運本身產生危害。

如果你相信奇點會來臨，一個隨之而來的問題是，人工智慧會是善意的還是惡意的呢？

先補充一點背景知識。論壇對人類未來極為關注，尤其是奇點（the singularity）——人們假設，在未來的某個時間點

（奇點）

，計算機的運算能力將提升到極高的程度，可能會誕生出超越人類的人工智慧，同時，

計算機也許能模擬人類心智、將人類心智上傳至計算機，它將能或多或少地模擬生命本身。

賽博朋克作家弗諾·文奇（Vernor Vinge）：「我們正站在變革的邊緣，而這次變革將和人類的出現一般意義重大。」圖源：Know Your Meme

1958年，數學天才斯塔尼斯拉夫·烏拉姆（Stanislaw Ulam）和約翰·馮·諾依曼（John von Neumann）在一次對話中創造了這個術語，馮·諾依曼說：「

科技進步不斷加速……這似乎令人類逐漸接近一個歷史的奇點，在奇點過後，我們目前所熟知的人類生活的一切都將不復存在。

」

科幻作家弗諾·文奇（Vernor Vinge）和工程師、作家庫茲韋爾等未來學家將這個術語普及開來，和許多對奇點感興趣的人一樣，他們相信計算機技術的發展速度呈指數級增長，這使得奇點很快就會到來——在接下來的50年內。

為了活到奇點來臨那天，庫茲韋爾每天要一口氣吞下150片維生素，而尤德科夫斯基和彼得·蒂爾則對人體冷凍術極為熱衷，這項技術一向是想要長生不老的有錢大佬們的最愛。

「如果你不替自己的孩子報名人體冷凍，那你就是個糟透了的家長。」尤德科夫斯基寫道。

如果你相信奇點會來臨，未來會出現極為強大的人工智慧，一個顯而易見的問題是，這些人工智慧會是善意的還是惡意的呢？尤德科夫斯基創建的機器智能研究所目標明確，就是要將未來朝「友好的人工智慧」這個方向推動。對他和許多論壇的發帖者而言，這是一個至關重要的問題，遠比環境和政治問題要緊得多。

對他們來說，奇點過後所降臨的正是以機器形式出現的上帝本身。

但這不能解釋為何洛可蛇怪如此令人恐懼。要想明白這點，還得再看看論壇用戶所普遍信奉的一個重要信條：

無時間性決策論（timeless decision theory）。

無時間性決策論能指導人們做出理性行為，它建立在博弈論、貝葉斯概率和決策理論的基礎上，同時混雜了少量平行宇宙和量子力學的內容。

無時間性決策論由決策理論中的一個經典思想實驗生髮而來，其名為紐康姆悖論（Newcomb』s Paradox），講述的是有一個超級智能的外星人給了你兩個盒子：

（intelligence.org/files/TDT.pdf）

盒子A中有1000美元，盒子B中有100萬美元或什麼都沒有。

外星人給你兩個選擇：要麼同時拿走兩個盒子，要麼只拿走盒子B。

如果你同時取走兩個盒子，你至少能確保拿到1000美元。如果你只拿盒子B，你可能一無所得。

但這外星人還告訴你另一件事：它有一台無所不知的超級計算機，在

一周前

對你的選擇做出了預測。

如果超級計算機預測到你會同時拿走兩個盒子，那麼外星人就不會在第二個盒子里放任何東西。如果超級計算機預測到你會只拿盒子B，那麼外星人就在盒子B中放100萬美元。

那麼，你會怎麼做？記住，這台超級計算機此前從來沒有出過錯。

這個問題一直困擾著決策理論學家。

盒子里的東西已經確定，外星人無法再對其作出改變

，

因此不論預測結果如何，你拿走兩個盒子所得到的錢一定比只拿走盒子B所得的錢更多。

當然，如果你這樣想，而計算機也預測到你會這樣想，那麼盒子B就會是空的，你只能拿到1000美金。

如果計算機的預測能力真有那麼神奇，你就應該只拿走盒子B，這樣就能得到整整100萬美元，對不對？

但如果計算機這次錯了呢？而且，不管怎樣，計算機過去做出的預測不能改變現在發生的事情，對吧？

所以去他媽的預測，兩個盒子都拿上！但……

這種自由意志和天命預測之間令人發狂的矛盾，沒能為紐康姆悖論找到一個解決方案，人們根據各自所做的決定自稱

「單盒黨」

或

「雙盒黨」

。

（我妻子有次宣稱她是個單盒黨，她說：「我相信計算機。」）

比起洛可蛇怪，我更擔心那些自認為已經凌駕於傳統道德體系之上的人。

無時間性決策論對紐康姆悖論給出的建議十分明確堅決：

拿走盒子B。

但無時間性決策論想得更遠一些。哪怕外星人嘲笑你說：「計算機說你會把兩個盒子都拿走，所以我沒在盒子B里放東西！」然後打開盒子B讓你看清其中空無一物，你仍然應該只拿走盒子B，兩手空空地離開。

【我從科學家加里·德雷舍（Gary Drescher）的《善與真》（Good and Real）一書中借用了這個例子，該書試圖使用無時間性決策論的一種變體來證明康德倫理體系是真實正確的。】

這一決策的邏輯依據很難簡單概括，

但一言以蔽之就是，此時此刻正要做決策的你也許正處於計算機的模擬中。

為了做出預測，計算機需要模擬宇宙本身，這也包括你自己。

所以，現在這個時刻的你也許是計算機模擬的產物，而你接下來所做的將會影響到現實中

（或其他現實中）

發生的事。

所以拿走盒子B，這樣真正的你就會進賬整整100萬美元。

這一切和洛可蛇怪又有什麼關係呢？這個嘛，洛可蛇怪也給了你兩個盒子。也許現在的你只是洛可蛇怪運行的模擬程序的產物。也許洛可蛇怪正隱晦地向你提供一種紐康姆悖論的變體，像這樣：

盒子A中是「

窮盡一生幫助創造出洛可蛇怪

」，盒子B中是「

什麼都不發生

」或「

永恆、無視死亡的折磨

」。

洛可蛇怪告訴你，如果你只拿走盒子B，那麼裡面就會是「永恆的折磨」，因為洛可蛇怪真正的願望是你同時取走盒子A和盒子B。

在這種情況下，你最好確保自己窮盡一生幫助創造出洛可蛇怪！因為，

假如洛可蛇怪在未來出現

（或者更糟：它已然出現，且正是眼下這個現實世界的主宰）

，發現你沒選擇幫助它的話，你可就完蛋了。

你也許在疑惑為什麼論壇用戶那麼把這個思想實驗當回事兒，畢竟它顯然十分牽強。這並不是因為洛可蛇怪真的會出現，甚至不是因為它可能會出現。問題在於，如果你是無時間性決策論的忠實擁躉，那麼只是想想這種交易就真的會令它更容易發生。

畢竟，

如果洛可蛇怪發現，這樣勒索你會使你幫助它誕生，那麼作為一個理性的施事者，它就會勒索你。

問題不在於蛇怪自身，而在於你。

尤德科夫斯基之所以刪除了所有提到洛可蛇怪的帖子，不是因為他相信它存在或將會存在，而是因為蛇怪這個想法

（和這個想法背後的理念）

很危險。

要注意，只有當你相信以上所有前提，去和洛可蛇怪做雙盒交易時，蛇怪才是危險的。

但確實有一些論壇成員相信以上這一切，這就讓洛可蛇怪切實成為了禁忌的知識。我本來要把它比作洛夫克拉夫特（H. P. Lovecraft）的恐怖小說里的內容——有個男人發現了世界禁忌的真理，放出了克蘇魯，陷入瘋癲——但我發現尤德科夫斯基已經替我做了這件事，

他將洛可蛇怪思想實驗比作《死靈之書》（Necronomicon），也就是洛夫克拉夫特那本充滿了邪惡知識和咒語的著名魔典。

洛可本人則將一切怪罪於論壇，因為說到底，是這個論壇促使他產生了蛇怪這個想法：「

我十分希望我從未遇到這個論壇，它竟產生了那麼嚴重的

（人類）

自毀隱患。

」他這樣寫道。

以克蘇魯神話聞名的作家洛夫克拉夫特的《死靈之書》。圖源：Libriproibiti

如果你並不認同洛可蛇怪實驗的理論基礎，也不打算向你永恆的邪惡機器主宰屈服，那麼洛可蛇怪對你就毫無威脅。

（說來諷刺，它只有可能對相信尤德科夫斯基理論的人心理健康產生危害。）

按我朋友的說法，對洛可蛇怪深信不疑可能只意味著他/她「得了自閉症」。

但我確實認為這件事背後有個更為嚴肅的問題，因為埃利澤·尤德科夫斯基和其他所謂的超人類主義者已經為他們的項目吸引了大量的聲望和資金，這些聲望和資金主要來自富有的科技迷們。我認為他們的項目

（其主要內容似乎就是發論文、開會）

不太可能創造出洛可蛇怪或是埃利澤大善神。

但當一個人/一群人既有創造救世主的野心，又堅信自己絕對可靠，還有一大堆錢時，不論當事人的意識形態如何，最終結果永遠很糟糕，而我不認為尤德科夫斯基和他那伙人會成為例外。

比起洛可蛇怪，我更擔心那些自認為已經凌駕於傳統道德體系之上的人。尤德科夫斯基和他計劃創造的友好人工智慧一樣，是一個道德功利主義者：

他相信只要能夠促成最多數人的最大幸福，哪怕在過程中有一部分人不得不死去或忍受折磨，這仍然是道德的。

他曾明確表示，當不得不做出選擇時，比起讓許多人眼裡進灰

（公平起見，他說的是非常多的人）

，更應該選擇折磨某一個人50年。

誰都不太可能面臨這樣的抉擇，連上帝都不會，但如果換個情況呢？假如Slate網站上

（譯者註：即本文發布的網站）

有個尖刻的科技版專欄作家寫了一篇文章，內容有關一個能摧毀人們心智的思想實驗，結果傷到了讀者，阻止了歷史向奇點發展，使友好的人工智慧沒法出現呢？這種情況下，我生命中任何潛在的幸福加起來都遠遠抵不過我眼下正造成的危害。而假如接受了人工冷凍術的埃利澤·尤德科夫斯基在奇點後醒來，決定在模擬中讓我選擇要不要寫這篇專欄文章……拜託了，無所不能的埃利澤啊，別折磨我。

往期文章：