人類想听懂動物的語言，AI能幫上忙麼？

來源：智能相對論（aixdlun）

近日，有一個視頻在養寵圈中廣泛流傳，引無數養寵人士潸然淚下。視頻的主角是動物行為專家Heidi Wright和一隻生命即將走到盡頭的導盲犬，Heidi Wright以她的能力為媒介，將導盲犬的肢體動作和聲音翻譯成人語，幫助它和主人進行最後的交流。在Heidi Wright的轉述中，導盲犬表示了無法繼續守護主人的惋惜，還不停地呼叫另一隻狗夥伴，讓它照顧好主人。

這段視頻在引發人們感動的同時，也讓許多人感到遺憾，很多家庭都養有寵物，這些寵物陪伴了主人十數年，早已成為了特殊的家庭成員。可是絕大部分人都無法像上文提及的主人那般幸運，能夠傾聽到狗狗的心聲，在這名“親人”辭世時也只能抱憾相送。

無數人曾設想過，是否有可能出現一種翻譯工具，讓寵物的語言能夠被人類聽懂、理解呢？

人寵語言互譯並非偽命題

美國資深動物行為專家康·斯洛波奇科夫（Con Slobodchikoff）教授稱，未來五至十年內，人類使用一種手機大小的裝置——寵物語言翻譯器，便能與動物進行“對話”。這位北亞利桑那大學的生物教授花了30年研究草原土撥鼠的行為，他用AI軟件記錄並分析草原土撥鼠的叫聲，將其翻譯成英語。他還發現這些草原上的小傢伙們“具有語言所有方面的複雜通信系統”。而目前，他正試圖籌集資金來開發貓和狗的語音翻譯設備。

在這條未知明暗的道路上探索的顯然不止他一人。天下熙熙皆為利來，天下攘攘皆為利往，其實“寵物語言翻譯器”的低配版早就被放上了電商平台，並取得了可觀的銷量，賣家聲稱這個設備經實測翻譯準確率高達80%。縱覽評論，“好玩”“有意思”“靈氣”之類的好評不在少數，從中我們也可以窺知消費者對於寵物語言翻譯器的需求與肯定。

4S營銷理論下，僅做到趣味性的滿足顯然不夠，寵物語言翻譯這塊才剛剛開掘的沃土已吸引了無數“賞金獵人”的眼光。 如果按斯洛波奇科夫教授所說的，這項技術能在十年內成為現實 ，小範圍滿足的是人與寵物的交流溝通，大範圍可能是人類一統動物世界的溫和策略與夢想。

自動語音識別技術和語音翻譯技術助力

低配版寵物語言翻譯器運用的技術原理就是對狗狗的叫聲、動作等生物信號進行採樣，對獲取的數據進行頻譜分析，對姿勢動作DSP運算數字化處理，把得到的翻譯語言以中文形式語音播報出來。 但是由於採樣的範圍和機器內存等的局限性，這種低配寵物語言翻譯器在翻譯的準確度和豐富性方面尚有待提高 。相較之下，為實現人狗溝通而設計的No More Woof耳機要更勝一籌。

過去幾年，AI領域的進步帶來了自動語音識別技術和語音翻譯技術的顯著改進，計算機算法已經可以通過對大量數據進行的學習和訓練來解釋語言，而不是通過一組死板規則進行預編程。

No More Woof是由北歐發明與發現協會( NCID )開發的，應用的是三個不同技術領域的最新技術的組合，即腦電圖( EEG )傳感、微計算和專用腦-機接口（BCI ）軟件，主要由腦電圖耳機、Raspberry Pi 處理器和一款便攜音箱組成。這些傳感器是腦電圖記錄器，可以降低讀數，減少離子電流在狗腦中的電壓波動。然後由微型計算機拾取波動，在這種情況下形成一個覆盆子pi，並對它們作出解釋。

例如，大腦中有一種特定的電信號來定義疲勞感，還有一些最容易被發現的神經模式：“我餓了”“我累了”“我很好奇那是誰？”“我想尿尿 ”……耳機中的傳感器會捕捉這種特殊的電信號，並將它們轉化為人們能夠聽懂的語言。

再結合基礎的自動語音識別技術和語音翻譯技術，計算機算法可以大致地分辨出寵物的情緒。這是短時間內寵物語言翻譯能達到的製高點，至於要通過寵物語言翻譯器來了解動物夥伴們真正的內心世界，還期待人類進一步的研究。

精確翻譯之路仍山高水遠，中間的代溝需要填平

需要指出的是，動物的大腦並不如人類的大腦復雜，人腦的活動通常有一個明確的目標導向，動物的大腦卻不一定。人的各種語言之間的轉換也具有相對窄範圍的對應關係，而動物的語言與人類的語言則對應範圍很寬，比如，狗會發出急促的叫聲，可能是因為想要向主人乞食，也可能是因為警惕陌生人，還可能是對主人不陪自己玩的責怪。如果它想表達的是這一種，而AI翻譯器卻傳達為另一種，那麼就容易將人和寵物之間的溝通引入“歧途”，從而完全喪失了寵語翻譯的意義了。

那麼有沒有可能通過AI實現完全精準的寵物語言翻譯呢？任重而道遠。通過自動語音識別技術和語音翻譯技術，計算機算法可以大致地分辨出寵物的情緒，但要明確更深層次的寵物肢體動作和叫聲的內在意圖，AI還需要一場“扭轉乾坤”的大革命。

在這方面，我們可以聯想AI在同聲傳譯上的表現，之前很多媒體搞起了“AI會取代哪些工作崗位”的預測，筆譯、口譯在許多預測中被認為被取代率高居榜首，這並非空穴來風。 AI翻譯是當今AI領域的一個熱點，搜狗、谷歌、Facebook、網易等都削尖了腦袋想要分一杯羹，卯足了勁兒想要成為這一領域的領頭羊，畢竟人工翻譯領域人工成本高居不下。如果能用AI解決高成本問題，無疑劫走其中大部分的紅利。

然而， 就目前來看，AI翻譯並沒有完全取代人工翻譯。 相比於對其他事物的了解，人更了解人自身，而針對人自身語言所進行的AI翻譯尚且前路未朗，AI又如何在寵物語言翻譯領域嶄露頭角呢？在智能相對論（微信ID：aixdlun）看來，AI在寵物語言翻譯方面的應用，還需要填平這些“代溝”：

1. 數據關，成風盡堊之技無的放矢。 要明確動物語言所表達的具體意義，需要先對動物的叫聲和即時腦電波動進行完整的採樣比對，再在這些數據的基礎上建立數據庫。而這兩種數據都存在著廣泛性和多樣性，以犬類為例，不同的犬種聲帶粗細寬窄各不相同。針對同一情景發出的叫聲分貝高低和尖細情況也不同，而刺激犬類發出叫聲的場景又是難以窮盡的，單單收集犬類的聲音樣本就是一個無比巨大的工程了，數據庫自然也難以完善。

2. 技術關，空手搏鬥難制勝。 一個AI翻譯產品做到翻譯精確至少需要攻破幾個難題：形式端，拍譯要攻克圖像識別，同聲翻譯要攻克語音識別；內容端，攻克文本語言分析、大數據。而AI還沒有發展到能夠極為精確地處理這些問題的階段，機器缺乏對視覺場景、聽覺場景、自然語言處理的常識判斷。

如搜狗搜索在2017年6月的分享會上發布了創新產品搜狗翻譯APP，應用了基於生物學習的神經網絡機器翻譯（NMT）系統，將翻譯精確度提升到一個前所未有的高水準，然而在翻譯效果的“信達雅”上，仍然只做到了“信” 的層面，對語言背後的幽默、情感等豐富含義的解讀離人們所期待的水準還有些距離。

3.語義關，語料積累、場景收集和副語言與文化背景成痛癢之地。 AI 翻譯在文本或語言的寓意分析方面還強差人意。與人類語言相比，動物語言都是即時信號，信息內容全部關於當下，或示威，或示警，或示愛……從中看不到用語言來激起對過去的聯想的跡象，並且單個個體能發出的聲音形式太單一了，蘊含在其中的豐富信息難以明確表達。

寵物語言翻譯的難點不僅在於聲音的收集，更在於聲音背後具體含義的對應。 這種對應是寬範圍的，難以精確的，機器缺乏對視覺場景、聽覺場景、自然語言處理的常識判斷，無法精確理解語音所表達的內涵，甚至在這個方面還比不上人類對動物語言的理解。人可以根據生活經驗來理解動物語言，比如看到狗狗衝著陌生人吠叫，人們可以推測它是在防備這個陌生人，而機器可能就沒辦法很好地理解這個畫面，從而做出錯誤的判斷。

又比如，“好”這個字是日常交際的常用字，在百度漢語顯示有19種語義，這些語義是結合具體場景來體現的，當偶遇熟人時，“好”的意思是問好；當別人徵求意見時，“好”用來表示同意；當人們商討時，又可以用“好”來表示反問……可見場景對於語義具有至關重要的影響，機器的正確理解場景的這件事上還需要加油，從而提高語義翻譯上的高精確性。

4. “歷史包袱”難抖掉，AI難以跟上生命體的學習進程。 狗的叫聲在一定歷史時期並不是一成不變的，狗憑藉自身的靈性以及主人的後天馴養，具備有學習能力，例如狗類中智商排名第一的邊境牧羊犬智力水平已經相當於6歲～8 歲的小孩，經過學習，在放牧時它會用不同的叫聲來驅使羊群，控制羊群走向。還有一些寵物狗，甚至會在人類的刻意訓練下發出類似“媽媽”的叫聲，寵物語言在日新月異的變化，計算機卻很難抖掉語言的“歷史包袱”，這些也造成了寵物語言翻譯的困境。

動物語言和人語之間的代溝是客觀存在的，AI所能做的，只能是不斷改進自身的功能，用科學手段完善數據庫、內容、語料和場景。形式和內容雙管齊下，才能將這條橫亙在動物語言和人語之間的代溝填平，在堅實的地基上建立起實現人和動物“有效溝通”的“巴別塔”。

*文章為作者獨立觀點，不代表虎嗅網立場

本文由智能相對論授權虎嗅網發表，並經虎嗅網編輯。轉載此文章須經作者同意，並請附上出處( 虎嗅網 )及本頁鏈接。原文鏈接https://www.huxiu.com/article/230857.html

未來面前，你我還都是孩子，還不去下載虎嗅App 猛嗅創新！

相關推薦