Google 新技術，能為人工智障般的語音助手扳回一局？

在最近谷歌的Google I/O大會上，谷歌CEO“劈柴“直接祭出了這次大會的王牌AI，這個AI產品似乎像人們展現了人工智能技術的進一步提升，Assistant的“持續性對話”功能讓對話更自然，而“多重行動”功能讓用戶在一次對話中可以提出多個問題。

這似乎是一個標誌性的轉變，存在對話生硬、無法多輪對話等諸種弊病的語音助手在這場GoogleI/O大會上表現的尤為智能。相比Apple Siri和Microsoft Cortana只能機械式對話的語音互動，Google Assistant似乎表現尤為優異（至少在發布會上），那麼，GoogleAssistant的出現是谷歌在AI語音助手領域的一張王牌嗎？

驚艷全場的“嗯哼”

想要探究AI語音助手的智能程度，其評判標準就是如何做到讓AI“像人”，這是一個深度學習的能力問題，而體現在表現形式上則為“話術”，如何能夠讓語音助手真正突破“圖靈測試”，讓用戶人機難辨。然而，當下Google Assistant似乎正朝著全面“類人化”的方向發展。

以Google Assistant在GoogleI/O大會上的表現為例，發布會上，用戶對Google Assistant說：我想剪頭髮。 Google Assistant接受指令後直接幫你電話預約。

Google Assistant先撥通了Jim理髮店的電話，進行電話預約剪髮。

（插入gif圖1）

Google Assistant：你覺得時間定為3號可以嗎？

理髮店：我需要查查Jim老師的檔期，稍等。

Google Assistant：嗯哼？

（插入gif圖2）

這一句“嗯哼”讓全場所驚艷，AI的反應似乎出乎了所有人的預料，然而，這一切並沒有結束。

理髮店：3號12點不行，Jim老師已經有預約了。

Google Assistant：那10點到12點這段時間呢？

理髮店：您的顧客是想燙頭髮還是剪頭？

Google Assistant：只是簡單修剪一下。

理髮店：那沒有問題，我們10點見！

（插入gif圖3）

誠然，對於人類來說，此類“嗯”、“呃”之類的語氣詞是再正常不過，可是對於機器而言，這是一件難以做到的事情。事實上，Google Assistant說“嗯嗯”，好似在點頭同意；而其所拉長的某些詞的發音，又好像它正在花時間去思考一個問題的答案，當然，這一切都是是由編程算法即時實現的。

谷歌助手的背後是一種稱之為“Duplex”的技術，這由紐約、特拉維夫和山景城的谷歌工程師和產品設計師聯合開發，該技術可實現一小部分人可以完成預訂餐廳、查看假日時間等通常通過電話進行的活動。所有這些交互都發生在後端——谷歌數字助理Assistant和餐廳之間。

此外，Google Assistant除了一種男性發音和女性發音外，其還可以用六種聲音說話。谷歌還使用戶能夠更輕鬆地提出後續問題，並在開車並使用谷歌地圖時自動向某些人發送你的預計抵達時間。

GoogleAssistant真的“完美無缺”嗎？

Google Assistant新技術的應用，許多人認為“這下真的分不清對面對面是人是狗了”，但是，Google Assistant顯然並不是完美無瑕，皮查伊在開發者大會上展示的 demo 距離落地還有多遠？所展示的GoogleAssistant落地後真的會如此驚艷嗎？智能相對論（aixdlun）分析師柯鳴認為，谷歌語音助理雖然已經突破了眾多技術瓶頸，但其真正能夠應用於生活場景中，並完全替代“人類助理”，依然尚需時日。

首先，google duplex似乎已經可以解決自然對話的問題。展開一段自然的對話有這麼幾個難點：自然語言難以理解，人類的自然行為很難建模，人類對延遲的耐受性很低所以需要高處理速度，以及生成聽起來自然的語音，其中還要適當地夾雜一些語氣詞。

谷歌聯合使用了一個級聯 TTS 引擎和一個生成式 TTS 引擎（其中使用了 Tacotron 和 WaveNet），根據不同的情境控制語音的語調。

為了讓語音變得更加親切自然，這個系統能夠生成一系列語氣詞，這也是讓大家所驚嘆的地方，比如“hmmm”、“uh”等語氣詞。

當級聯 TTS 需要組合變化很大的語音單元，或者需要增加生成的停頓時，語氣詞就會被添加到生成的語音中，這就讓這個系統可以以一種自然的方式向對方示意“是的我聽著呢”或者“我還在考慮”（人類說話的時候就經常在思考的同時發出一些語氣詞）。谷歌的用戶調查也確認了人類覺得帶有語氣詞的對話更熟悉、更自然。

但是，也正是TTS的表現讓人覺得其仍有可商榷之處。如從自然語言訓練的方法角度看，通過充分的數據梳理，借助機器學習在某個單一領域窮舉各種情況，繼而達到Google 在今天所展示的效果尚有可能。

但目前沒有公司可以做到全方位理解各種場景。也就是說，Google Assistant所擅長的也是針對特定場景的，例如預訂餐位和理髮。

這能否在所有場景中具有普適性，目前依然無法得知。從這個角度來看，小場景有限話題模擬對話並不是難題，針對 demo 優化到流暢也能夠做到，這是否能夠真正替代“人類助理”，依然是一個尚未確知的問題。

其次，從倫理和信息安全的的角度來看，Google Assistant依然存在著諸多爭議。比如，谷歌官方曾表示：“現在的技術並沒有達到只通過與開發人員對話就學會如何像人一樣說話的水平，為了獲得高精度，我們在匿名電話的會話數據庫上對Duplex的RNN進行了訓練。”

在數百個小時的訓練過程中，它記錄下了客戶們電話中的通話記錄。這讓我們又一次回到了十年來一直在進行的辯論，即維護個人數據隱私和推進技術便利的界限究竟在何處，Facebook的信息洩露案更將這個問題推到了風口浪尖。

當然，倘若撇開公地悲劇的存在主義解決方案不談，Duplex AI的出現還暴露了許多實際問題。例如，如何防止某人非法利用公眾人物的錄音來訓練人工智能，並生成偽造的音頻？

此外，我們還需要防止偽造視頻的攻擊，鑑於人們已經能夠偽造圖像和視頻（甚至色情），並能夠合併一層虛假音頻，谷歌和Facebook的內容審核工作將面臨著更大的困難。

谷歌這條路好走嗎？

谷歌語音助手這條路，已經走了很久。最早的GoogleNow作為谷歌語音助手的最初形式出現在人們面前，Google Now 2012 年最早出現在安卓 4.1 和 Nexus 手機上，隨後又推出面向移動設備信息快速檢索服務的“Now On Tap”、以及“Now cards ”。

從 2016 年開始，Google Assistant 就開始逐步取代 Google Now，相應的功能也被替換，“Now cards”被“Feed”取代，“Now on Tap”被“Screen Search”所取代。

最早於2016年與Google Home一起亮相的Google Assistant，依托著谷歌系產品的用戶量級，雖然同類競品亞馬遜的Echo已經佔據一定市場，但是依然有著一定發展的前景和底氣。

但是，如果谷歌的目標是讓Assistant成為擬人化的谷歌，那麼仍有很多事情要做。若想實現與斯派克·瓊斯(Spike Jonze)科幻電影《她》(Her)中的操作系統Samantha進行對話的那樣，谷歌依然還有一定距離。

當然，相較於市場上同類系的其他產品，Google Assistant的表現確實稍顯優秀。 Stone Temple Consulting與ROAST公司2018年發布的智能語音助理測試報告也顯示，Google Assistant手機版能回答的題目最多，高達90%，準確率也有將近80%的超高表現。

其實，嚴格來說，谷歌的競爭對手Alexa，Siri和Cortana都沒有兌現他們的承諾。 Alexa，Siri等都存在著或大或小的問題，每個產品在市場中的表現似乎都沒有人們想像中的優異。

當然，谷歌並非第一個進入語音助理領域的公司。作為後來者，CIRP公司的數據顯示，2016年發布的GoogleHome佔有31%的市場份額，較之亞馬遜的69%的市場份額稍顯不足。

總的來說， “AI很好，但不夠驚人”，始終是近年來籠罩在AI語音市場上的濃重陰影。當然，隨著日後GoogleAssistant新技術的逐漸應用，這是否能夠成為谷歌新的“殺手鐧”仍需時間檢驗，而谷歌語音助理的這條路，也將堅定的走下去。

*文章為作者獨立觀點，不代表虎嗅網立場

本文由智能相對論授權虎嗅網發表，並經虎嗅網編輯。轉載此文章須經作者同意，並請附上出處( 虎嗅網 )及本頁鏈接。原文鏈接https://www.huxiu.com/article/243944.html

未來面前，你我還都是孩子，還不去下載虎嗅App 猛嗅創新！

相關推薦