世界上的另一個你——如何創建一個「數字分身」

天下 12-24

造就第398位講者虞晶怡

疊境數字科技

創始人、首席科學家

大家好，我是上海科技大學虞晶怡，那今天我talk演講的題目就是「Fiat Lux構建數字互聯世界的第一道光」。

它的意思就是讓世界有光。我要講的是怎樣在數字世界帶來這樣一個光明。

毋庸置疑，我們都處一個從物理世界向數字世界這樣一個轉換的過程，這個數字世界裡面最難以復現的是什麼呢——就是我們人本身。怎麼樣能夠把「人」作為一個個體來數字化，就是我今天演講的主題。

擁有「分身」是一種怎樣的體驗？

「重建」圖靈

講到這個主題，首先就要講講我們這個開山鼻祖阿蘭·圖靈，大家可能看過這個本尼迪克特·康伯巴奇演的《模仿遊戲》，我們稍微看一個《模仿遊戲》的一個片段。

圖靈不只是人工智慧的鼻祖也是計算機的鼻祖。他創始了整個把物理向數字世界轉換的這樣一個過程。

今年的年初，在上海舉辦了一屆世界圖靈大會，當時的主辦者來問我說，虞老師你是很擅長把人物進行三維數字化的，你能不能幫我把圖靈三維數字化呢？

這個難度非常的高，為什麼呢？圖靈早在1954年就已經過世了，我怎麼能夠三維數字化他呢？所以我們想了一個辦法。

我們找了一個學生，他長得瘦瘦高高的，非常像圖靈，當然他的臉不是很像圖靈。那麼我們就用三維數字化的方法，把他整個三維幾何數字化了，我們直接用「卷福」的臉對他的臉做了一個三維的移植。

最後我會給大家秀這樣一個demo，怎麼樣把真的和假的融合在一起，形成一個虛擬的人物。

小提琴演奏者

那我給大家看一些我們最近做的很有意思的項目。第一個項目是我們和美國朱莉亞音樂學院拍攝的音樂教學。

這個人手裡拿了一個小提琴，然後我們在這樣一個Dome System裡面，用75個相機進行拍攝。我們能夠重建它非常高清的三維幾何，大家可以看到，它的小提琴對於人身體的遮擋是非常嚴重的,很多相機都看不到被小提琴遮擋住的人的手臂。

但是用深度學習的方法，能估算出人的手臂大約是在什麼地方。然後再用幾何的方法把它填充過去，就能產生這樣一個接近完美的、三維360度觀看的這樣一個體驗。

健身教練

我們再來看一個很有意思的demo，這個demo大家都會用keep或者是用fit time。大家經常看到的健身的demo，無非就是一個2D的圖片，其實你並不能看到你的訓練者他到底是怎麼來進行運動的。

這是我們做的，這是我的學生，他練得非常好。所以我們拍了一個他的三維健身的片段。因為我們是用360度3D拍攝的，所以你可以從任意角度進行觀看。

更有意思的是，你可以把虛擬的肌肉綁定在一個模型身上，然後再把它進行分離。這樣當你訓練的時候，你就知道哪一塊肌肉是發力正確的，哪一塊肌肉是發力錯誤的。這個相信大家會在新的健身平台上看到這個demo。

「三維重建」——感知、行為、認知

回過頭來講圖靈，在圖靈逝世兩年之後開了一個全世界最重要的大會，叫達特茅斯大會。啟動了AI人工智慧，大家確定了研究人工智慧的一個方法，這個方法就是大家中學的時候學到的笛卡兒的方法。

它是把整個人工智慧的問題分解為三個不同的部分，第一個是Sensing，就是怎麼樣來對三維世界進行感知；第二部分是Action，怎麼樣通過感知的數據進行行動，今後就會發展成機器人等等；最後一部分是Cognition，認知，如何把採集到的數據，像人一樣進行思考和分析。

在經過了整整60年之後，由於深度學習的高速發展，使得這三個問題又重新整合在一起了。這個方法論是亞里士多德的方法論，叫做Holism。把這個三維一體重新整合在一起來進行這樣一個分析。

我們今天要講的就是把人數字化，這樣一個解決方案其實就大大地借鑒了Holism的方法。

感知，眼睛的啟示

我們一步一步來看，感知、認知和行為分別是怎樣影響到新一代的數字化的技術。

這裡就要講到人的眼睛了。人的眼睛是一看到「我」，你就知道「我」是三維的，你不需要通過移動等等。所以人的眼睛應該是最好的一個三維分析器。人的眼睛很神奇，它有幾大功能。

第一，稱之為Stereo或者叫Stereo Parallax（立體視差）。人有兩隻眼睛，兩隻眼睛分別看到不同的物體，你在不同的角度可以看到我。

第二，叫做Refocusing（再次對焦）。閉上一隻眼睛，你仍然能夠判斷出，我站在了這樣一個屏幕的前面，因為你的焦距發生了變化。當你對焦到我身上的時候，我的臉是清晰的，當你對焦到後面的時候，你會發現後面的圖像是清晰的。

第三，人的眼睛是跟人的大腦相連接的。那就確定了人的大腦可以通過分析數據，產生語義的分析。它可以分析我這個圖像，知道我是一個人而不是一個兔子，對不對？所以它可以根據這三個功能產生一個三維的分析。

而我們現在的人工智慧核心演算法也正是借鑒人眼這樣一個核心技術。

我們一步一步來，先說說Sensing，就是感知。在過去的10年里，感知取得了巨大的變化。我不知道在座多少人在家裡玩過Microsoft Kinect，你可以在裡面跳舞，進行三維的這樣一個skeleton，叫骨骼抓取。

通過這樣的技術，你可以產生比較高清的三維的幾何。這個幾何並不是非常的精確，它沒有紋理，它只能產生一個幾何的這樣一種信息。

最近VIVO推出了一款新手機，其實iPhoneX也提出了這樣用結構光的方法，一張就能拍出三維的效果，這樣的三維感知技術會越來越會深入到大家的生活之中。

今後大家可以通過手機拍攝自己三維的幾何結構。當然，這樣的幾何結構仍然不夠高清，怎麼樣能夠把它做得更高清？

我們做過一個拍攝，五張圖片就能夠產生超高清的三維的人臉。因為各位太關心自己的人臉了，如果人臉拍得不好怎麼發朋友圈，對不對？我們通過這五張照片能夠把臉上所有的皺紋、胡茬全都呈現出來。

有了這樣一個技術，你可以做3D美顏，你可以把這個皺紋去掉等等。可以通過這樣一個多視角的拍攝系統，加上結構光的拍攝系統，產生一個高清的三維的幾何，完成第一步感知。

重建—虛擬三維世界的建立

第二部分是重建，重建的意思是說，你如果沒有結構光這樣的三維感知器，可以用自己的眼睛圍著一個物體看。

比如說，當你看一樣東西的時候，你通常會圍著它看，以獲取它的三維的結構。我在十年以前在美國做的一個項目，為這個腳進行一個三維高清的一個建模。當時是因為很多老兵的腳受了很多的傷，所以想建造出一個非常高清的三維的骨骼的固定器來修復腳的損傷。

通過這個技術我們可以發現，如果我能夠從不同的角度進行拍攝，就可以把一個三維的物體進行重構。

這是因為人的大腦通過觀看三維的這樣一個物體，產生了Correspondence。你知道這個點對應那個點，然後通過移動就產生一個三維的預計的感知。

在上海科技大學只要30分鐘就可以了，我們搭建了一個用75個相機組成的對內環拍系統，它可以360度無死角地對一個動態的人進行拍攝，然後像人眼睛一樣Correspondence，把整個的三維的人體進行一個高清的重建。

這樣一個高清的重建本身其實還是有很大的難度的，為什麼呢？人是移動的，人的手、身體的遮擋的關係能產生非常複雜的變化。

當我的手遮住我的身體的時候，在座的觀眾仍然能夠知道我的手是在身體的前面還是後面。你不會因為有這樣的遮擋而無法判斷身體的三維幾何。那麼人是怎麼做到的呢？

人是通過大量的三維訓練的數據得到的。從小到大我們明天都在看人，所以我們知道人是怎樣做這個移動的，怎樣做這個行為的。

通過這樣的訓練的數據，你可以在非常強的遮擋下仍然獲取非常高清的幾何，這就是深度學習的魅力了。

深度學習採集到了大數據，用這些數據來填補了很多複雜的問題。

認知，一切從認識世界開始

當我們在網上逛淘寶看到一個杯子的時候，我一看就知道這是一個三維的杯子，我不需要360度進行觀看；當看到一個人臉的時候，我只要看一張圖片，就能夠瞬間把這個三維的2D的人臉轉化為3D的人臉。

這是為什麼呢？是因為人看了大量的3D處理的數據，根據大量數據可以從2D的圖片直接推算出大概它3D的樣子是什麼樣的。

這就是認知。

整個的技術核心，就是把這三個技術，用亞里士多德Holism的方法三維一體地結合在一起，進行一個高清的人體的三維重建。

全息通話、在線試衣離我們有多遠？

剛剛講的所有的重建都離線重建，需要大量的時間進行三維的重建，因為需要深度學習的過程。

我們展示的一個最新的技術是和中國移動合作的，實時進行三維轉播。

大家可能看過《星球大戰》，《星球大戰》里最酷的一個就是叫hologram，對不對？叫做全息通話。

這個全息通話離大家非常非常近了。我們用十相機的系統拍攝,這個人拍攝出來就是一個3D人物。然後通過和華為的5G合作，和中國移動合作，把這樣一個人物栩栩如生地直接展現在你的平台上面。

如果你有一個全息投影系統的話，你就會看到這個人實時地跟你在進行全息通話，是無延時的一個實時重建。

最近我們做的是如何試衣服，對於人體來說，試衣服幾何的重建是簡單的，衣服的重建也是簡單的，但是衣服有一點比較難。

因為衣服是具有光澤的，傳統的這些衣服有絲織的、有棉布的，不同的材質有不同的光澤。那如何進行這樣一個光澤的一個重現呢？

這就需要在採用了一個多視角拍攝以後，根據多個視角採樣得到的圖片，用機器學習的方法識別出不同的物體的材質。

這是早期我們採用了機器學習的方法，重建唐三彩這樣一個非常複雜的馬。這樣的材質是半金屬半陶瓷的一個結構，進行材質的分析和三維的復現。

那現在我們用同樣的技術把它轉換到人的試衣服上，我們看一下人試衣服，這可能是大家可以看到的最接近真實的試衣服效果。

我們看一段視頻，這是我們用系統產生的一個高清的三維的人體模型。然後我可以選擇不同的衣服套在她身上，我可以實時地進行試衣、換衣。

我給大家做一個demo，這是用無限網路傳播的，可能速度稍微慢一點。

第一個demo是我們拍攝的一個女明星的三維的效果，這個女明星是吉克雋逸，我想很多人粉吉克雋逸，但是可能從來沒有人這麼近距離地看過她。

你還可以看到她非常高清的三維的人臉，而且她的遮擋都是正確的。我想今後的娛樂體驗是大家在看《我是歌手》等等節目的時候，這個明星就會在你面前進行表演了。

第二個demo是我們最近拍攝的一個極限運動。這個自行車的復現，我們當時非常擔心拍不出來，因為它非常複雜，又有人，又有車。

自行車很常見，但是大家沒有看到過慢速的，那我想今後觀看娛樂節目，都會通過VR和AR看到一個人衝進去的效果。

最後一個demo，我想大家也是會很感興趣。這是我自己，大家看了半天，第一想到的就是，這個技術能不能復現一個我自己，對不對？用這個技術，每個人都可以復現一個自己，然後放在一個虛擬的世界裡面，放在一個智慧的城市裡面，放在一個智慧的未來裡面。

其實「他」是在說話的，他說To see is to believe，to believe is to see。

因為看見，所以相信，因為相信，所以看見。

文字：王銳

校對：其奇

造就：劇院式的線下演講平台，發現創造力

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自造就的精彩文章:

※你想要一個「定製款嬰兒」嗎？
※世界最長壽的五大區域，他們是這樣吃和這樣睡的

TAG:造就 |