非科幻思考(第4/17頁)

你也許會說,這是因為機器缺少生活經驗,輸入經驗就可以了。我們這一次當然可以給機器輸入酒的含義、超市的含義、超市的購買規則、小偷的含義、店員的職責,但好不容易輸入了所有這些信息,會發現下一句話涉及大量有關街頭和交通的常識,依然要手動輸入。到了最後,整個世界的無數知識碎片我們都需要輸入,如何調用又成了問題。

“常識”經常被認為是區別AI和人的重要分野。“常識”是把各個門類信息匯集到一起、形成廣泛知識背景網的能力。這種能力我們人人都有,因而並不覺得稀奇,然而機器沒有,我們才知道其可貴。

為什麽機器難以具有常識?有多重原因,目前人們仍在嘗試去理解。首先的直接原因是,機器缺少物理世界的生活經驗,所處理的是人類的二手信息,對於周圍的物理世界沒有真實接觸,不知道什麽是可能的,什麽是不可能的。例如,“石頭放在雞蛋上”還是“雞蛋放在石頭上”只是詞語遊戲,對於AI沒有真實意義。AI也不知道人繞房子一周會回到原點。

對於這個原因,我們可以想出技術上的解決方案,一個是制造更精細的真實的機器人,讓機器人在物理世界裏不斷探索,最終把物理世界的常識都記錄到心裏,這種可能性的問題在於機器人本身制造的困難(具體有哪些困難後面再說);另一個可能的方案是讓人工智能的虛擬人物在虛擬世界裏生活,只要虛擬世界本身的物理特性完美仿照真實世界,虛擬人是有可能學會知識的。只是,這個方案首先需要一個能夠完美感知和識別虛擬世界物體的虛擬大腦,目前的人工智能“仿腦”技術還做不到這一步。

除了缺乏直接的物理世界的經歷,還有可能是更核心的原因,那就是人工智能目前還缺少建立“世界模型”的綜合能力。

人類擁有“完形”認知的心理能力,能讓我們把碎片信息編制完整。這是一種高度統合的能力,我們能把軀體五感統合起來,共同構成對世界的感覺。同樣,人從各個方面得到的碎片知識也有一種統合的能力,大腦會把碎片粘貼起來,把碎片之間的部分補齊,以期構成一個完整的知識世界。

事實上,人的“完形”並不僅是“拼湊”碎片信息,而是建立一個模型,然後用模型來理解碎片信息。“完形”是把信息連接成可以理解的圖景。中間有大片空白我們要“腦補”。我們能從驗證碼的碎點圖片中看出連貫的字母,而計算機程序做不到。我們能把沒有關系的人連接在同一個故事裏,只需要想象一兩重關系,就能組成復雜的陰謀論。

所有研究人類視覺和認知的心理學家都清楚,人類的視覺包含大腦的建構。人類視網膜得到的是二維圖像,就像相機的照片一樣。但人類的視覺體驗絕不僅僅停留在一堆“視網膜照片”上。我們眼前看到的世界直接是三維立體視覺,我們感覺自己清清楚楚“看到”一個三維立體的杯子,“看到”具有縱深的房間,“看到”他人離自己的距離。但實際上,我們是不可能直接“看到”三維物體的,我們眼睛接收的只是平面圖,是大腦後台計算還原出的三維立體效果。

我們的眼睛在我們注意不到的情況下不斷快速轉動,拍攝四面八方的圖像,而隨著我們身體移動,視網膜上的投影照片也在不斷變化。可是我們的感覺接收到的並不是一張張分離的照片,而是一個恒常穩定的周圍世界。這是如何做到的?答案並不難,正如“人工智能之父”馬文·明斯基所說的:“我們不需要不斷‘看見’所有事物,因為我們在大腦中建構了視覺的虛擬世界。”神經學家威廉·卡爾文也曾說過:“你通常觀察到的看似穩定的場景實際上是你所建構的一個精神模型。”事實上,我們居住在大腦制造的虛擬現實中。

這個虛擬的模型,就是我們每個人頭腦中的“世界模型”。

而很少有人討論的是,我們心中對這個世界的知識,也像視覺一樣,有整體的模型進行綜合。

我們對物理環境的理解、對世界運行規律的理解、對社會的理解、對正義的理解,全都交織在一起,構成我們思維的背景。大腦把所有社會感知信號也構造成完整的“世界模型”。我們人與人有很多共享的常識和語境,例如誰是美國總統、被石頭砸到會怎樣;我們每個人也有獨特的“個人世界模型”,例如“男人都是不可靠的”“命運會善待有恒心的人”。這些是我們大腦把各個領域所有知識匯集之後得到的結果,它是思維的語境,就像視覺背景,也是人與世界打交道、溝通的前提。我們的決策是在這樣的模型中形成的。