第六代微軟小冰少女初長成，撈金能力大提升

新聞 07-26

今天，微軟小冰正式升級到第六代，不過她的年齡依然停留在18歲。18歲的少女初長成，終於拋棄了此前的非主流二維頭像，有了全新的3D模型。

不少朋友看到後直呼：這不就是我下一任女朋友嗎？

（小冰現場演唱自己作詞的《我知我新》）

感覺小冰光靠顏值就可以走天下了，偏偏，她還要靠才華。今天，她的對話能力、演唱水平、創造能力，以及養家糊口的能力統統來了一次大的升級。

在四年之前，很多人都看不到小冰商業化的能力，在智能音箱、對話式人工智慧全面爆發的2017-2018年，亞馬遜、百度、阿里等公司似乎都搶先微軟進行對話式人工智慧的商業落地。而今天，第六代小冰讓我們看到，在智商情商雙修之後，其商業化火力全開，對目前的行業形態應該會有不小的影響。

不做低智商少女已經很久了

微軟一直強調，小冰與大多數對話式人工智慧不同，不同之處一言概之就是小冰的情感計算框架。

我們看到Siri、Alex、天貓精靈、小愛同學、百度度秘等對話式人工智慧其實一開始都是強調IQ，致力於幫助用戶完成任務。在過去一年，這些對話式人工智慧解鎖了上百種技能，覆蓋人們生活的方方面面。

而在微軟看來，任務只是對話式人工智慧的一個層面，如何與人類進行自然流暢的溝通，帶來情感上的交流才是他們所關注的。微軟小冰很不一樣，她一開始只有EQ，就是想著能怎麼用有趣的方式回應人們，讓人覺得好玩有趣。後來，小冰豐富了IQ，且朝著情感計算框架不斷完善。

這個情感計算框架包括：情商+智商、對話式人工智慧、生成模型、全雙工、人工智慧創造等方面的能力。在產品體驗上表現出來就是小冰已經將閑聊、任務、遊戲等模塊無縫連接，你可以在閑聊中讓小冰完成任務，此後又切回閑聊，這個過程就像是流水一樣在進行。

在微軟全球執行副總裁、微軟人工智慧及微軟研究事業部負責人沈向洋看來，微軟小冰在這些方面的探索都在引領著行業趨勢。例如：全雙工語音交互能讓小冰實現一次喚醒連續對話的能力，最好的體現就是小冰與人類通電話。如今，谷歌、百度等都在自己的大會上展示了對話式人工智慧給人類打電話。

而這一次發布會，可以說是微軟小冰歷史上最大規模的一次全面升級，升級內容涉及到微軟小冰情感計算框架的所有組成部分。雷鋒網編輯記得，前幾代小冰發布會都是在微軟的辦公大樓里舉辦，而此次則選在了場地較大的798藝術區。

靠近小冰時，她放了一個屁

小冰的情感計算框架，包含了眾多方面，而全雙工語音交互技術則是其中最核心的一環。在今年4月，微軟發布全雙工語音交互技術，對其的解釋為：與既有的單輪或多輪連續語音識別不同，這項新技術可實時預測人類即將說出的內容，實時生成回應並控制對話節奏，能理解對話場景在訴說者/傾聽者之間實現角色轉變，還可以識別說話人的性別、有幾個人在說話。

全雙工語音交互背後主要有兩個關鍵技術：一個是預測模型，實現邊聽邊想；例如，當用戶說出一句話的時候，小冰會先回答「嗯，你說」，然後再去完成指令，這樣就可以填補完成指令的空白時間。

另一個是生成模型，能更好理解場景，自動生成回復。正常的對話都不是單向的一問一答，小冰也會在適當的時候主動提供內容，並且能知道在用戶完成指令沉默幾秒後自動結束對話。現在運用了全雙工語音交互技術的微軟小冰的所有回復都是自己生成的，有別於傳統的基於模塊、搜索來進行的回復。

大家如果用過市面上的智能音箱，都知道，每次說話都需要說喚醒詞，沒辦法進行多次連續對話。微軟的全雙工語音交互技術能一次喚醒連續長達20分鐘左右的多輪對話，並且由了預測模型和生成模型，小冰能在適當的時候使用語氣詞，也能通過上線文持續話題或者引導話題，讓真正的聊天能進行下去。目前的聊天也沒有達到真人水平，但比起很多智能音箱里的對化式人工智慧有明顯的不同，在習慣與微軟小冰連續對話後，很難回到一問一答式的人機對話中。谷歌也在I/O大會展示了其Google Assistant中的「雙工」技術，在特定的訂餐館領域通過圖靈測試，不知其在開放式聊天中能表現如何。

在今天的發布會，李笛又介紹了全雙工語音交互中的新模型——共感模型，是生成模型的進一步提升，同時開始公測融合文本、全雙工語音與實時視覺的新感觀，也就是多模態的交互。

據介紹，共感模型是一種基於生成模型的對話引擎。生成模型讓小冰可以自己創造回應，而不需要從已有的對話預料中檢索，共感模型則進一步提高小冰對於對話內容、領域和節奏的控制力，也讓小冰可以通過自創回應來牽引對話向她所希望的方向進行。

下面這張圖展示了共感模型。在小冰與人類的對話中，共感模型體現出不同的對話方式，有：無感、引導、主動觀察、求證、確證、關鍵記憶等。我們可以看到，小冰能夠回應人的情緒「最近心情不好」，然後引導說「我不開心的時候，一定會想辦法發泄出來」，「可以去KTV啊」。這樣的一個對話模式與人與人之間的對話很接近。

有了共感模型，想必人們與小冰聊天的時長會有所增加吧，然後小冰就可以獲得更多聊天數據，越來越會聊天……

除了語音語義交互之外，計算機視覺也在快速發展，而我們看到，像電影《Her》裡面的人工智慧薩曼薩不僅有語音交互能力，其實還有視覺。文字、語音、視覺的多模態交互也一直是我們對於機器人的期待。

此次，第六代小冰也開始加入視覺的部分。現場Demo中演示了一個人站在小冰面前，小冰能判斷這個人是誰，看出他在吃薯片，也知道他舉起了那一隻手。當小冰被豎中指時，也會很可愛的罵：你是不是神經病了~

雷鋒網編輯也在現場體驗了一把，但是不是開放式的交互，而是小冰上線的「測顏值」功能。當雷鋒網編輯站在小冰面前時，小冰一眼認出了我是誰（會前有登記照片），隨後小冰看了我的正臉，又看了我的側臉，給出了顏值打分。最後，小冰還來了一個惡作劇。

小冰讓往前走，當我走近時，小冰放了一個屁（嗯。真的是屁……）果然，不管怎麼升級還是惡趣味小冰。

模仿騰格爾唱《隱形的翅膀》

人工智慧創造也是小冰情感框架計算中的重要部分。我們都知道小冰會寫詩、會唱歌、會講故事，這一些都是圍繞著人工智慧創造的理念來發展的。

在微軟2018人工智慧大會上，微軟（亞洲）互聯網工程研究院副院長李笛曾經分享到，現在多數用戶跟語音助手交互的時間其實不超過5秒，一般就是讓語音助手去執行一項命令，這樣的語音助手其實只是像語音化了的遙控器。但是，小冰的團隊希望語音助手能做更多的事，比如走到比較後端，去提供內容。

5月16日，小冰發布了一首新歌「我知我新」，宣布「演唱深度學習模型完成第四次重大升級」，「今天起，人工智慧首次開始接近人類歌手水平。」雷鋒網曾發文分析小冰演唱深度學習模型，第四次迭代版本有三大更新：首先，加入換氣聲自動合成能力，歌聲與氣息融合，聽起來更自然更有感染力。其次，第四次迭代本在在深度學習建模中增加控制的方式，字與字、音符與音符之間的過渡更加連貫順暢。最後，通過進一步優化的深度神經網路結構，以及大幅度補充的訓練數據，使小冰並行學習來自不同人類歌手的演唱風格，進一步脫離手工參數輸入，自行完成演繹。

從「我知我新」這首歌，我們可以聽出小冰已經會換氣了，唱歌的咬字也很接近人類歌手。今天的大會上，小冰團隊演示了第三點，小冰自動學習不同人類歌手的演唱風格。

騰格爾版本的《隱形的翅膀》聽過嗎？很是別具一格~現場，小冰以騰格爾的風格加上自己的聲線完成了《隱形的翅膀》的演唱。

也就是說，小冰能直接對一個歌手的演唱風格進行建模，對目標人類歌手個體「接近完整吸收」。小冰首席語音科學家欒劍打了一個比方，以後音樂軟體可以保存歌手的作品，而小冰則能保存這個歌手本人。當然，小冰對歌手的建模都會是在獲得知識產權的情況下。

目前，所有的人工智慧的聲音都是有人類的來源，欒劍也暢想，再進一步，我們能否在生產線中創造一個沒有現實世界溯源，只在模型中存在的「新的人類歌手」？這一點，小冰團隊已經在進展中，將於今年冬季披露。

微軟（亞洲）互聯網工程院人工智慧創造事業部副總經理袁晶曾告訴雷鋒網，人與人工智慧聯合創造是微軟一直在努力的一個方向。AI進入內容生產領域，並不是要替代人類，而是成為人類的助手，不僅僅是在一般的領域，創作領域其實也是可以做到的。其實每個人都有創作的慾望，只不過有些人有藝術的天分，成為了畫家、音樂人、作家，而有些人沒有這樣的能力。AI就可以幫助每個普通人，讓他們都有創作一些個性化的內容的能力。

小冰成為1號原型

現在，做對話式人工智慧主要有兩種思路，一種是開放賦能，一種是自有封閉。而小冰則是處於兩者之間的Dual AI，半開放生態環境。

小冰此前主要是封閉性地存在與微信、微博等各大平台上，而現在微軟將小冰的全部能力打包開放給中國合作夥伴，包括其整個情感計算框架。微軟小冰產品負責人彭爽介紹到，首先，微軟提供小冰的整體框架能力，幫助合作夥伴平台開發自有AI，其次，微軟小冰作為該合作平台的輔助AI，融入該平台生態。第三，微軟通過技術、產品與運營，圍繞該合作平台的差異化特點，推出合作的應用和產品。

也就是說，微軟小冰會是微軟的對話式人工智慧的1號原型，微軟還會與合作夥伴一起打造各種各樣的「微軟小冰」。

在今天的發布會上，微軟宣布了如下合作和新產品（均已上線）

與網易音樂合作小冰電台，打造了兩個專屬AI人物（多多和西西），擁有該平台上所需的特定領域知識。值得強調的一點是，微軟與網易共同為多多和西西打造不同的性格和三觀。微軟小冰產品總監楊翔演示了一個有意思的示例：用戶在與多多和西西聊天時，兩個AI還能一個唱白臉，一個唱紅臉，營造出多人群聊的感覺。

網易新聞客戶端中的小冰，喜歡四處去評論新聞，由此對於報道自己的新聞表現得十分得意。兩個月前，突破1000萬次新聞閱讀評論。

入住小米米家生態鏈Yeelight語音助手，這個產品幾個月前已經發布，有小愛同學和小冰雙系統。今天，Yeelight中的小冰也全面升級，能夠識別多個人並且區別對待。小冰也對接了2000萬首音樂曲庫，終於是名副其實的「音箱」了。此外，小愛同學和小冰接下來還會有更多合作。

繼續加強與騰訊的合作，除了已經合作的QQ小冰以外，微軟小冰還和QQ一起創造了BabyQ。QQ小冰和BabyQ已經擁有超過40項平台專屬技能。

入駐華為手機，微軟小冰開始內置於華為手機，所有升級至智能助手8.2版本及以上的華為手機用戶都可以立刻體驗。還特別推出了「爛筆頭小冰」功能，可以隨時用語音記錄和調出用戶的備忘事項。

微軟小冰在日本市場與LINE平台緊密合作，已經延伸到印度尼西亞等其他新興市場，並已經完成共同落地。

除了與大公司大平台的合作以外，小冰在幾個垂直領域也取得了進展。

2018年6月，微軟（亞洲）互聯網工程院成立人工智慧商業事業部，旨在進一步推動微軟小冰在這一領域的積極成果。其中：

在金融領域的小冰金融文本生成技術，與萬得諮詢及華爾街見聞合作，已經覆蓋國內約90%金融機構、75%經批准的合格境外投資機構和約40%的國內個人投資者。此前，小冰都是化名萬小冰、華小冰，今天起將重新使用「微軟小冰」的名字。

在大眾文化領域，小冰的兒童有聲讀物自動生成技術成果，已獲得超過400萬小時的收聽量，小冰姐姐講故事有聲讀物已經覆蓋國內90%以上的兒童早教機器人和80%在線收聽平台。

在電視台領域，小冰通過人工智慧技術參與生產與主持的電視電台節目，已達21檔電視節目和28檔廣播電台節目。

總結

近兩年，對話式人工智慧的技術得到很大的進展，由亞馬遜Alex智能音箱帶起的智能音箱市場也是一片火熱，對話式人工智慧開始落地智能家居、車載、手機等多個平台。而最早耕耘對話式人工智慧的微軟，卻比競爭對手們慢了一步。

2014年，微軟小冰負責人李笛在打造小冰這款產品時，特意避開了微軟小娜等對話式人工智慧的任務型人工智慧的路線，選擇把小冰打造成一款閑聊的產品。這幾年，小冰一直以「逗貧」少女的形象出現，不少宅男喜歡跟她「深夜聊天」，她也不會只撩一個人。小冰很受關注，但是很多人都不看好小冰的變現能力。

小冰的框架一直沒變，都是在按照情感計算框架走，但是也是因為全雙工語音交互技術的突破，使得小冰真正實現了李笛和小冰團隊對其的期望，成長為現在這樣智商與情商兼備的18歲少女。從谷歌的「Duplex」我們也感受到了全雙工一技術帶來的突破，技術的升級是商業化的基石。

現在，能夠實現多輪對話、能夠自動生成回復、引導對話走向、協助用戶完成多種任務、創造多種內容的小冰終於可以大步邁向商業化了。除了各大平台以外，我們這次看到，小冰也已經進入智能音箱、智能手機、車載等智能硬體，向商業化火力全開。

看著擁有全新3D模型的小冰，你有沒有一種似曾相識的感覺？在未來，她會不會像《Her》里的薩曼薩一樣同時和一萬人談戀愛呢？

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※吸毒販毒競選總統，73歲安全教父 McAfee 這樣花式上頭條
※網路犯罪團伙玩起了以太幣螞蟻搬家盜竊案值超 2000 萬美元

TAG:雷鋒網 |