代碼之外，我們能在多大程度上信任人工智慧呢

最新 09-10

本文系網易新聞-智能工作室出品

聚焦AI，讀懂下一個大時代！

【網易智能訊 9月10日消息】關於人工智慧（AI）這個相當過時的概念，最近引起了大量的討論。人工智慧充斥著我們的生活，涉及了無數的應用程序，從谷歌搜索，到Uber或Lyft打車軟體，到機票價格，到智能助手Alexa或Siri。對一些人來說，人工智慧是一種拯救，它會提高生活質量，同時在眾多成熟的行業中注入創新元素。

然而，另一些人則發出了可怕的警告：我們很快就會完全被高超的機器智能所征服。人工智慧是典型的軟體主導，而軟體是容易出現漏洞的。考慮到這一點，我們如何知道人工智慧本身是足夠可靠去完成工作的？或者更確切地說，我們對於人工智慧的成果能夠信任到什麼程度？

GIF/1K

盲目信任的風險

我們來討論一下自動駕駛汽車。汽車自動駕駛系統的發展中，人工智慧的元素髮揮了很大的作用。現在製造出了大部分時間都遵守道路規則的車輛。這裡有一個案例，一輛自動駕駛汽車在佛羅里達州側面撞上一輛轉彎的卡車，導致「司機」死亡。這起事故最終被歸咎於「司機」的失誤，因為自動控制裝置被認為是在他們的設計範圍內運行的。當時的躲避系統設計要求雷達和視覺系統的結果達成一致後做出閃避的動作。

然而，有證據表明，白色卡車在明亮的陽光下轉彎時造成眩光晃到了這輛車的視覺系統。於是這個系統既沒有察覺到，也沒有對即將到來的危險做出反應。並且，在這次事故中，還有其他證據表明，當時「司機」正在看《哈利波特》電影。這名「司機」顯然對自動駕駛系統過於自信，並沒有對其行為進行積極的監控，也沒能發現它的漏洞，儘管估計有7秒鐘的可以讓他預見到風險的時間。

設計的保護等級已經確定，但司機沒有意識到他的自動駕駛儀仍然需要他全神貫注的注意力。在這種罕見的情況下，對於人工智慧系統的錯誤信任引發了致命的結果。

建立信任的門檻

人工智慧的發展確實令人印象深刻。美國國防部高級研究計劃局（DARPA）在2016年年底完成了「網路大挑戰」（CGC）競賽。CGC上，機器可以獨立地玩一種被稱為「奪旗必死」的實時黑客遊戲。在這裡，「旗幟」隱藏在代碼中，黑客的工作就是利用漏洞攻擊對手的「旗幟」。CGC為最成功的球隊提供了200萬美元的獎金。CGC最後一輪在一個普通的封閉網路上，在沒有人為干預的情況下，七台機器相互競爭。這些機器必須識別對手系統中的漏洞，在自己的系統上進行修復，並在對手的系統中利用這些漏洞來奪旗。卡內基梅隆大學的Mayhem團隊獲得勝利。

美國國防部高級研究規劃局信息創新辦公室主任John Launchbury將與CGC有關的人工智慧的特徵描述為手工製造的知識。這項技術從早期的專業系統中脫穎而出，對於現代人工智慧的發展至關重要。在手工製造的知識中，系統根據複雜的、手動定義的規則集進行推理。這種人工智慧具有推理能力，但在感知方面是有限的，它沒有學習和進行抽象的能力。

在對於未來的推理型人工智慧可以快速診斷和修復軟體漏洞這方面建立信心的同時，需要指出CGC是有範圍限制的。出於競賽的目的，開源操作系統的擴展被簡化了，被植入的惡意軟體版本，相對於真實生活中的惡意軟體來說，是大打折扣的。這就有意地減輕了開發負擔，為競爭評估建立了統一的基礎，並降低了將競爭對手的軟體不經重大修改就發布到更大的聯網世界的風險。

在遊戲中使用「卑鄙的手段」來擊敗對手，是一個更黑暗的維度。儘管重新設計代碼以快速隔離和修復漏洞是好的，但將這些漏洞轉化為有效利用其他代碼的機會是另一回事。一些人擔心，如果這種能力得到釋放並失去控制，它可能會變成一種「超級代碼」——既規避了常見的漏洞，也能利用同樣的漏洞來控制他人的網路，包括日益增長和可能還很脆弱的物聯網。這種擔憂促使電子前沿基金會呼籲人工智慧開發者「道德規範」，以限制推理系統在可信賴的狀態下執行。

機器學習增加了信任的賭注

Launchbury把統計學習這個詞歸於他認為的第二次浪潮。在這裡，感知和學習能力很強，但這項技術缺乏執行推理和抽象的能力。雖然統計數據令人印象深刻，但機器學習會周期性地產生不可靠的結果，通常表現為奇怪的異常值。隨著時間的推移，機器學習也會因受到污染的訓練數據而出現偏差。考慮到並非所有的人工智慧學習都能產生可預測的結果，這導致了人工智慧系統可能會以意想不到的方式出錯。那麼，有效地定義人工智慧工具的信任等級就是個很大的障礙。

從本質上講，人工智慧是一種高階結構。在實踐中，大量鬆散聯合的實踐和演算法似乎構成了大多數人工智慧的組成部分——通常跨越許多局部領域。事實上，人工智慧已經遠遠超出了計算機科學的範疇，涵蓋了神經科學、語言學、數學、統計學、物理學、心理學、生理學、網路科學、倫理學等領域。下圖描繪了一組不完全統計的演算法，這些演算法是第二波人工智慧現象的基礎，通常被統稱為機器學習。

為了實現機器學習的某種狀態，有大量的潛在演算法和方法存在，這就帶來了一些嚴重的信任問題，特別是對於那些為了確保信任等級而參與軟體測試的人來說。當人工智慧與任務臨界狀態相關時，就像越來越多的情況一樣，測試人員必須為多個因素建立基礎，例如程序一致性、可重複性、穿透性、應用路徑跟蹤，或可識別的系統故障模式。

關於什麼是最合適的人工智慧演算法這個關鍵問題的歷史，可以追溯到1976年。人工智慧從業者都面臨著一個複雜的問題，那就是如何使用合適的演算法來適應所需的人工智慧設計。給定一個預期結果，那麼，哪種演算法最準確？哪一種效率最高？在預期的環境中，哪一種最容易實現？哪一種隨時間擁有最大的潛力？哪些是最熟悉、最有可能讓用戶參與其中的？設計是基於某種集中式還是分散式代理、或者是集群軟體代理？這一切要怎麼進行測試呢？

這些問題表明，在各種與人工智慧相關的演算法和技術之間存在必要的設計權衡。這麼多人工智慧可替代方法的存在表明，大多數人工智慧架構都遠非那麼一致或有凝聚力。更糟糕的是，對於推理和學習系統來說哦，它們都需要高度的基於上下文的個性化。當然，這也是在說人工智慧測試，因為每一種演算法和它的個性化實現都會帶來獨特的深度測試的挑戰，即使是在單元級別。

一個高級人工智慧測試評估了正確識別和分類圖像的能力。在某些情況下，這項測試已經超越了人類做出此類評估的能力。例如，在人面資料庫（LFW）中的數據集用13000張圖片支持人臉識別技術的訓練，並使用用神經網路或深度學習來校準面部識別機器學習工具。新的自動化人工智慧圖像識別工具可以使用這個數據表在統計學上超越人類的面部識別能力。然而，眼前的任務本質上是感性的。這些任務通過數學上相關的幾何圖形來區分，但沒有任何形式的高階認知推理。此外，儘管它將選擇性識別的準確率與人類能力進行了比較，但在這個測試中，底層代碼基礎的其他關鍵任務方面仍未得到檢測。

代碼之外

機器學習的測試變得更加複雜，因為在學習環境中需要大量的數據集來「訓練」人工智慧。不僅人工智慧應該被證明是無懈可擊的，在訓練中使用的數據理論上也應該具有最高的質量。然而，在現實世界中，數據集往往是不平衡的、稀少的、不連貫的，而且往往是不準確的。下面的圖片表明，信息經常是由解決歧義得到的。即使在受控條件下，使用單個或多個經過驗證的數據集來訓練和測試分類器也會產生顯著的差異。因此，即使是對分類器的受控測試也會變得非常複雜，必須仔細研究。

其他與信任相關的因素遠遠超出了代碼的範圍。因為編程既是一種創造性行為，又是一種句法科學，因此它需要一定程度的翻譯解釋。程序員可以將有意的或無意的文化或個人偏見注入到產生的人工智慧代碼中。考慮一下程序員的情況，他們創造了一種非常精確的面部識別程序，但忽略了皮膚色素沉著是識別標準中的一個決定性因素。這一動作會使結果偏離原本由皮膚顏色強化的功能。相反，罪犯的再犯率扭曲了一些以美國為基地的監獄釋放決定。這意味著，一些在押人員比其他人更有機會得到提前釋放的數據——而無視了普遍的情況。語義上的不一致性可能會進一步危害人工智慧代碼的中立性，尤其是在涉及自然語言處理或慣用語音識別的情況下。

一些人認為，所有的IT從業者都是網路安全從業者。這也對人工智慧的發展和實施產生了巨大的影響。從網路安全的角度來看，「誰知道機器知道什麼、機器是什麼時候知道的？」的問題就變得尤為重要。機器學習的東西往往不是很容易被觀察到的，而是被深度編碼的。這不僅會影響新入網的數據，而且——在物聯網中——這些數據會讓執行器觸發激活器，從而將「學習」轉化為某種行為。由於缺乏具體的刺激身份和出身，整個人工智慧引發的物聯網刺激反應機制也變得同樣不確定。在任務關鍵型系統中產生的行為需要嚴格的驗證。

第三次浪潮

Launchbury預言了一個尚未完善的人工智慧第三次浪潮，他將其命名為「語境適應」。這項技術需要更多的工作，將感知、學習和推理的優勢集中在一起，並支持跨領域抽象的更高水平。

2017年5月，年度本體峰會被命名為「人工智慧、學習、推理和本體」。印證了Launchbury的觀察，峰會公報草案得出結論說，到目前為止，大多數人工智慧方法，包括機器學習工具和使用的計算技術都是在運用計算技術的亞符號水平上運行，是不接近人類思維的。儘管在許多形式的人工智慧中已經取得了巨大的進步，但在象徵層面上對知識表現的全面處理還有待於成熟。相應地，本體作為正式的語義組織工具的實用性，對人工智慧及其最終測試環境的優勢有限。

語義網路涉及到以節點和弧的圖形形式來表現知識。它提供了一種理解和視覺化符號之間關係的方式，通常用積極的詞語來表示。在不同的上下文語境中，這些詞表達不同的意思。人工智慧在很大程度上是象徵性的，它需要以一種更加正式的方式來處理應用語義，以實現第三浪潮的狀態。在這種情況下，人工智慧就變成了非線性的，因果關係通過多個執行線程逐漸解耦。這就導致了複雜的自適應系統（CAS）的建立，這種系統往往會受到非線性網路行為的影響。

在CAS中，隨著時間的推移，新的行為會基於環境的情況出現。在這裡，可以有多個自組織的路徑通向成功或失敗，所有這些路徑都是由高度多樣化的節點和弧線所觸發的，這些節點和弧線可以隨著時間的推移而變化、增長、收縮和消失。這種網路在使用嵌入式軟體時，違背了傳統的遞歸單元測試，而這與數據是相關聯的。這是因為，在CAS中，整體往往不僅僅是各部分的總和。相反，從應用網路科學出現的新方法，提供了一種更好的方法來評估隨時間推移而出現的動態人工智慧行為。與圖論相關的時間指標逐漸被更好地理解為一種描述動態行為的方法，這些動態行為是一些未能遵循線性路徑來達到預期效果的行為。

除非採用可靠的方法來評估人工智慧的信任程度，不然喊口號就必須謹慎。對於尚不那麼可靠的技術，如果盲目信任則有可能會造成誤導，有時甚至會導致危險的結果。

選自 InfoQ

翻譯網易見外智能編譯機器人審校李穆晗

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 網易智能菌 的精彩文章:

※數據時代的陰暗面：AI看照片就能識別同性戀
※自動駕駛行業素描（上）：繁榮背後的暗流涌動
※AI專家VS神學家：人工智慧可以挑戰上帝嗎
※專家稱微軟聯姻亞馬遜恐難持久：進軍手機才是王道
※撥開AI威脅論背後的神秘面紗！專家稱切勿隨波逐流

TAG:網易智能菌 |