來源:智能相對論(aixdlun)
近日,有一個視頻在養寵圈中廣泛流傳,引無數養寵人士潸然淚下。 視頻的主角是動物行為專家Heidi Wright和一隻生命即將走到盡頭的導盲犬,Heidi Wright以她的能力為媒介,將導盲犬的肢體動作和聲音翻譯成人語,幫助它和主人進行最後 的交流。 在Heidi Wright的轉述中,導盲犬表示了無法繼續守護主人的惋惜,還不停地呼叫另一隻狗夥伴,讓它照顧好主人。
這段視頻在引發人們感動的同時,也讓許多人感到遺憾,很多家庭都養有寵物,這些寵物陪伴了主人十數年,早已成為了特殊的家庭成員。 可是絕大部分人都無法像上文提及的主人那般幸運,能夠傾聽到狗狗的心聲,在這名“親人”辭世時也只能抱憾相送。
無數人曾設想過,是否有可能出現一種翻譯工具,讓寵物的語言能夠被人類聽懂、理解呢?
人寵語言互譯並非偽命題
美國資深動物行為專家康·斯洛波奇科夫(Con Slobodchikoff)教授稱,未來五至十年內,人類使用一種手機大小的裝置——寵物語言翻譯器,便能與動物進行“對話”。 這位北亞利桑那大學的生物教授花了30年研究草原土撥鼠的行為,他用AI軟件記錄並分析草原土撥鼠的叫聲,將其翻譯成英語。 他還發現這些草原上的小傢伙們“具有語言所有方面的複雜通信系統”。 而目前,他正試圖籌集資金來開發貓和狗的語音翻譯設備。
在這條未知明暗的道路上探索的顯然不止他一人。 天下熙熙皆為利來,天下攘攘皆為利往,其實“寵物語言翻譯器”的低配版早就被放上了電商平台,並取得了可觀的銷量,賣家聲稱這個設備經實測翻譯 準確率高達80%。 縱覽評論,“好玩”“有意思”“靈氣”之類的好評不在少數,從中我們也可以窺知消費者對於寵物語言翻譯器的需求與肯定。
4S營銷理論下,僅做到趣味性的滿足顯然不夠,寵物語言翻譯這塊才剛剛開掘的沃土已吸引了無數“賞金獵人”的眼光。 如果按斯洛波奇科夫教授所說的,這項技術能在十年內成為現實 ,小範圍滿足的是人與寵物的交流溝通,大範圍可能是人類一統動物世界的溫和策略與夢想。
自動語音識別技術和語音翻譯技術助力
低配版寵物語言翻譯器運用的技術原理就是對狗狗的叫聲、動作等生物信號進行採樣,對獲取的數據進行頻譜分析,對姿勢動作DSP運算數字化處理,把得到的翻譯語言以中文形式 語音播報出來。 但是由於採樣的範圍和機器內存等的局限性,這種低配寵物語言翻譯器在翻譯的準確度和豐富性方面尚有待提高 。 相較之下,為實現人狗溝通而設計的No More Woof耳機要更勝一籌。
過去幾年,AI領域的進步帶來了自動語音識別技術和語音翻譯技術的顯著改進,計算機算法已經可以通過對大量數據進行的學習和訓練來解釋語言,而不是通過一組死板規則進行預編程 。
No More Woof是由北歐發明與發現協會( NCID )開發的,應用的是三個不同技術領域的最新技術的組合,即腦電圖( EEG )傳感、微計算和專用腦-機接口(BCI )軟件,主要由腦電圖耳機、Raspberry Pi 處理器和一款便攜音箱組成。 這些傳感器是腦電圖記錄器,可以降低讀數,減少離子電流在狗腦中的電壓波動。 然後由微型計算機拾取波動,在這種情況下形成一個覆盆子pi,並對它們作出解釋。
例如,大腦中有一種特定的電信號來定義疲勞感,還有一些最容易被發現的神經模式:“我餓了”“我累了”“我很好奇那是誰?”“我想尿尿 ”……耳機中的傳感器會捕捉這種特殊的電信號,並將它們轉化為人們能夠聽懂的語言。
再結合基礎的自動語音識別技術和語音翻譯技術,計算機算法可以大致地分辨出寵物的情緒。 這是短時間內寵物語言翻譯能達到的製高點,至於要通過寵物語言翻譯器來了解動物夥伴們真正的內心世界,還期待人類進一步的研究。
精確翻譯之路仍山高水遠,中間的代溝需要填平
需要指出的是,動物的大腦並不如人類的大腦復雜,人腦的活動通常有一個明確的目標導向,動物的大腦卻不一定。 人的各種語言之間的轉換也具有相對窄範圍的對應關係,而動物的語言與人類的語言則對應範圍很寬,比如,狗會發出急促的叫聲,可能是因為想要向主人乞食 ,也可能是因為警惕陌生人,還可能是對主人不陪自己玩的責怪。 如果它想表達的是這一種,而AI翻譯器卻傳達為另一種,那麼就容易將人和寵物之間的溝通引入“歧途”,從而完全喪失了寵語翻譯的意義了。
那麼有沒有可能通過AI實現完全精準的寵物語言翻譯呢? 任重而道遠。 通過自動語音識別技術和語音翻譯技術,計算機算法可以大致地分辨出寵物的情緒,但要明確更深層次的寵物肢體動作和叫聲的內在意圖,AI還需要一場“扭轉乾坤”的大革命。
在這方面,我們可以聯想AI在同聲傳譯上的表現,之前很多媒體搞起了“AI會取代哪些工作崗位”的預測,筆譯、口譯在許多預測中被認為被取代率高居榜首,這並非 空穴來風。 AI翻譯是當今AI領域的一個熱點,搜狗、谷歌、Facebook、網易等都削尖了腦袋想要分一杯羹,卯足了勁兒想要成為這一領域的領頭羊,畢竟人工翻譯領域人工成本 高居不下。 如果能用AI解決高成本問題,無疑劫走其中大部分的紅利。
然而, 就目前來看,AI翻譯並沒有完全取代人工翻譯。 相比於對其他事物的了解,人更了解人自身,而針對人自身語言所進行的AI翻譯尚且前路未朗,AI又如何在寵物語言翻譯領域嶄露頭角呢? 在智能相對論(微信ID:aixdlun)看來,AI在寵物語言翻譯方面的應用,還需要填平這些“代溝”:
1. 數據關,成風盡堊之技無的放矢。 要明確動物語言所表達的具體意義,需要先對動物的叫聲和即時腦電波動進行完整的採樣比對,再在這些數據的基礎上建立數據庫。 而這兩種數據都存在著廣泛性和多樣性,以犬類為例,不同的犬種聲帶粗細寬窄各不相同。 針對同一情景發出的叫聲分貝高低和尖細情況也不同,而刺激犬類發出叫聲的場景又是難以窮盡的,單單收集犬類的聲音樣本就是一個無比巨大的工程了,數據庫自然也難以 完善。
2. 技術關,空手搏鬥難制勝。 一個AI翻譯產品做到翻譯精確至少需要攻破幾個難題:形式端,拍譯要攻克圖像識別,同聲翻譯要攻克語音識別;內容端,攻克文本語言分析、大數據。 而AI還沒有發展到能夠極為精確地處理這些問題的階段,機器缺乏對視覺場景、聽覺場景、自然語言處理的常識判斷。
如搜狗搜索在2017年6月的分享會上發布了創新產品搜狗翻譯APP,應用了基於生物學習的神經網絡機器翻譯(NMT)系統,將翻譯精確度提升到一個前所未有的高水準,然而在翻譯 效果的“信達雅”上,仍然只做到了“信” 的層面,對語言背後的幽默、情感等豐富含義的解讀離人們所期待的水準還有些距離。
3.語義關,語料積累、場景收集和副語言與文化背景成痛癢之地。 AI 翻譯在文本或語言的寓意分析方面還強差人意。 與人類語言相比,動物語言都是即時信號,信息內容全部關於當下,或示威,或示警,或示愛……從中看不到用語言來激起對過去的聯想的跡象,並且單個個體能發出 的聲音形式太單一了,蘊含在其中的豐富信息難以明確表達。
寵物語言翻譯的難點不僅在於聲音的收集,更在於聲音背後具體含義的對應。 這種對應是寬範圍的,難以精確的,機器缺乏對視覺場景、聽覺場景、自然語言處理的常識判斷,無法精確理解語音所表達的內涵,甚至在這個方面還比不上人類對動物語言的 理解。 人可以根據生活經驗來理解動物語言,比如看到狗狗衝著陌生人吠叫,人們可以推測它是在防備這個陌生人,而機器可能就沒辦法很好地理解這個畫面,從而做出錯誤 的判斷。
又比如,“好”這個字是日常交際的常用字,在百度漢語顯示有19種語義,這些語義是結合具體場景來體現的,當偶遇熟人時,“好”的意思是問好;當別人徵求 意見時,“好”用來表示同意;當人們商討時,又可以用“好”來表示反問……可見場景對於語義具有至關重要的影響,機器的正確理解場景的這件事上還需要 加油,從而提高語義翻譯上的高精確性。
4. “歷史包袱”難抖掉,AI難以跟上生命體的學習進程。 狗的叫聲在一定歷史時期並不是一成不變的,狗憑藉自身的靈性以及主人的後天馴養,具備有學習能力,例如狗類中智商排名第一的邊境牧羊犬智力水平已經相當於6歲~8 歲的小孩,經過學習,在放牧時它會用不同的叫聲來驅使羊群,控制羊群走向。 還有一些寵物狗,甚至會在人類的刻意訓練下發出類似“媽媽”的叫聲,寵物語言在日新月異的變化,計算機卻很難抖掉語言的“歷史包袱”,這些也造成了寵物語言翻譯 的困境。
動物語言和人語之間的代溝是客觀存在的,AI所能做的,只能是不斷改進自身的功能,用科學手段完善數據庫、內容、語料和場景。 形式和內容雙管齊下,才能將這條橫亙在動物語言和人語之間的代溝填平,在堅實的地基上建立起實現人和動物“有效溝通”的“巴別塔”。
本文由 智能相對論 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文章須經作者同意,並請附上出處( 虎嗅網 )及本頁鏈接。 原文鏈接https://www.huxiu.com/article/230857.html