有一種說法,2018年,智能音箱一準爆發。 的確,在2017年,BAT輪番推出智能音箱,Rokid、出門問問等創業公司也趁勢佈局,國內智能音箱的出貨量也從十幾萬上升到百萬級,資金高速湧入,中國“百 箱大戰”將正式拉開序幕。
儘管,整體看好智能音箱未來市場,甚至有預測稱2018年全球出貨量將達到5630萬台;但也有相對保守派認為,2018年智能音箱行業並不會爆發,主要依據智能音箱的語音交互能力 較弱、內容服務生態不足、跨場景跨任務對話能力較差等因素。
思必馳的CMO龍夢竹,就持後一種觀點。 思必馳是國內為數不多擁有自主知識產權中英文綜合語音技術的公司,其客戶包括阿里、騰訊、小米、海爾、聯想等,對於語音識別技術的現狀,思必馳是具備發言權的。
眼下,智能音箱市場有點冰火兩重天的意味。 在不久前剛過去的2018CES上,智能音箱頗受矚目,被視為家庭場景的最佳智能入口,可國內,雖然BAT、小米等巨頭紛紛入局,但出貨量並不可觀,這讓智能音箱 在國內的處境有了幾絲尷尬。
到底智能音箱是否是偽需求,語音交互是否符合中國的國情?
的確,基於家庭場景的智能生活正在燃爆下一個消費級市場,至於這個場景是不是由智能音箱來帶動,卻是個未知數。
由此,虎嗅“大咖私房話”邀請到思必馳CMO龍夢竹與虎嗅會員進行了一場2小時的圓桌對談,分享了她對當前智能音箱發展、機遇的理解,剖析了 未來智能音箱發展趨勢以及在聲紋識別上的技術突破與當下瓶頸。 我們將現場錄音整理出來,復現了這場對話,乾貨滿滿。
Echo成為爆款的背後,反映的是國內音箱市場崛起面臨的問題
首先一點,無論是百度Raven H,還是亞馬遜Echo,在一定程度上都是為了展現背後的對話定制平台。 在這樣的戰略目標下,他們做這樣的硬件根本沒有考慮盈利。
至於說Echo,Echo是集亞馬遜生態與資源優勢為一體的集大成者,其成功並非偶然,成功的因素也未必能為國內音箱市場崛起帶來普適性的借鑒,但其快速的發展必然會推動 語音技術應用落地。
第一,音質是選購音箱的首要條件, 包括很多媒體都會做相關的評測,首先就是從音質開始,低音、高音、杜比音效等等。
第二,性價比是用戶購買的關鍵因素, Echo在正式上市前,硬件已經迭代了很多版本,成本投入很大,是沒太多收益的,只能是量產之後薄利多銷,而對終端消費者來講,需要的只是高性價比。 比如去年有一款“折衣服機器人”,不管多亂的衣服,在十幾秒种時間都能迅速疊放整齊,但售價高達十萬塊,幾乎無人購買,所以,在價格與技術投入之 間去掌握好平衡點才是關鍵所在。
第三,銷售渠道; Echo依靠的渠道是整個亞馬遜的生態服務,亞馬遜把AWS雲服務、Kindle跟Echo進行整合,鋪設了很廣的銷售渠道。
第四,內容服務; 亞馬遜將音頻服務,包括Kindle、有聲讀物,全部融入到Echo內容服務上,內容資源得到充分積累。
第五,語音交互; Echo在技術上最顯著的代表性意義,則是把語音的遠場交互迅速落地,率先將遠場麥克風陣列集成在產品裡,無論聲源定位、遠場喚醒、語音交互,都帶給用戶極其 新鮮的產品體驗。
但Echo在中國的銷量還不理想,當然大部分原因是Echo目前沒有支持中文,以及在整個生態和內容服務上沒有完全打通,這也給中國的音箱發展創造了非常好的條件。
眼前中國智能音箱的瓶頸在於:音箱們的智能交互體驗,跟語音交互技術、後端服務和生態合作都是相關的,而這幾點也恰恰是國內音箱的劣勢。
以語音技術為例,當技術落地應用,語音其實只是交互的手段,並不是產品功能,效果的優劣主要是由是否最終能滿足用戶需求來決定的,簡單說,好不好用是由語音技術 ,內容打通能力等綜合決定的。
比如有些人買了某音箱,覺得還是不好用,就會問是不是語音技術有問題? 語音技術什麼時候能夠成熟? 比如,當用戶對著音箱說“我要聽趙雷的《成都》”而產品反饋“對不起找不到您要的歌曲”,消費者下意識會認為是語音識別不好,搜不到歌曲,但 這背後很有可能是音樂內容提供商沒有這首歌的版權;或者產品本身某個硬件模塊沒有選得特別好,比如芯片選擇不好可能會延長語音識別的時間。
對用戶來講,語音是用戶跟產品發生關係最直接的感受,於是所有的鍋,最後都是由語音技術來背。
國內智能音箱整體上還未到爆發節點
很多人都在問2018年音箱能火起來嗎?
從語音交互、內容服務,包括用戶的接受能力,其實還達不到音箱真正爆發的節點,音箱帶動的更多的是大眾對智能家居的認知,讓大家看到物聯網的發展及智能家居 的未來,而真正能火起來的可能不一定是音箱,有可能是智能門鎖,智能路由等。
2018年應該會有中國本土的創業企業研發的智能門鎖大規模鋪向C端市場;再比如電視,電視在2018年、2019年會是個分水嶺,之後所有的電視應該全部都有語音功能。
但音箱目前還不具備成為剛需的條件,那為什麼音箱會成為目前商家探路市場的首選? 這是因為音箱本身是一個天然的、最好的音頻載體,第二,音箱比較輕量化,進入門檻相對較親民。
也許明年,市場上會出現更多類似於智能音箱的變體,比如音箱大部分是圓柱體,是為了收音和識音,還有音頻播放。 但如果把音箱中部挖空,把它拔高,做成花瓶,那是不是就可以不用叫智能音箱了?
所以未來真正會爆發的是“智能助理終端”,真正能夠解決用戶交互需求,家居的控制等等,而不在乎是什麼形態。
另外,中國作為一個農業大國,對爆款產品的定義一定不是說產品體驗多好、價格多低,而在於賣的多好。 要賣得好,渠道是很重要的因素。 只有打入三四線市場,比如現在的手機,蘋果、華為炒的較熱,但OPPO、vivo,的市場佔有率卻是非常大的,它們走的就是打入中國廣大的三四線市場, 因為這一塊才是最有消費潛力的,而音箱如果在一兩年內想打入三四線市場,可能沒有那麼容易。
我們再說回今天的主題,智能音箱。
智能音箱只是外在的終端形態,我們要評價智能音箱的好壞,就需要關注其背後的綜合能力,首當其衝的是智能語音技術。
從互聯網時代到移動互聯網,再到物聯網時代,設備數量呈現指數級的增長,信息獲取也從文本信息處理髮展到對話搜索。
隨著對語音技術、新場景的挖掘,物聯網市場迅速發展,智能硬件設備數量將達到100億量級,文本信息交互變得越來越弱,而語音和對話交互成為發展的需要,信息獲取 也從終端為中心轉移到以用戶和場景為中心,這是整個時代的變革。
比如,在2014年的時候,以智能手環為代表的可穿戴市場開始興起,短時間內國內出現了幾千家做智能手環的企業,但又迅速的銷聲匿跡。 再到2016年基本上很少看到手環或者可穿戴產品的存在,而今年隨著整個AI技術,尤其是語音技術,還有新場景的挖掘,穿戴設備市場又將會慢慢地恢復起來。
聲紋識別雖是趨勢,但大規模商用還需時日
最近關於聲紋識別的討論很多,那我也來講一下這個事情。 。
我認為聲紋識別大規模商用的時機還遠遠不到。 我說一下我的理由——
目前,聲紋識別目前分為兩種形式,一種叫說話人辨認-SI
,屬於一對多的關係,就是在一群說話人中,通過去識別其中一個人音頻和信號去確認這個人是誰,應用的場景包括刑偵破案、罪犯跟踪等;另一種叫說話人確認- SV,屬於一對一的關係,通過採集的數據來確認說話人,應用場景包括證券交易、支付購買、聲紋鎖等,民用場景應用性更強。
但目前在做聲紋識別方案的時候,通常是將聲紋作為一種輔助認證,把聲紋和人臉進行結合,雙重驗證,或者把聲紋跟傳統的密碼支付來進行綁定。 但對於聲紋識別大規模的商業應用還需要時日,做好產品的交互體驗也是關鍵所在。
在聲紋識別裡邊最大的難點,首先語言是一種時變的一維信號,語音聲音信號本身的問題,在於說話人語速、情緒、感官,甚至包括採集音頻的設備、變聲器的應用都會 對聲音有一定影響,讓聲音的可信度有存疑;從算法上來說,包括建模、運算的能力,尤其是做聲紋數據庫的時候,去做什麼樣的用戶聲紋驗證,有關年齡、 職業分佈、發音特質都需要做建模,並且建立數據庫對樣本量的獲取都是難點。
尤其是智能家居大環境下,將會面臨以下幾個方向的挑戰:
首先是噪音的干擾, 也就是魯棒識別,未來將會從算法降噪和硬件降噪來綜合提升體驗;
第二是家居環境下的遠場交互, 目前主要是基於理想的家居環境中3~5米的距離來做核心優化,之後會針對於酒店,甚至銀行大廳去做點對點的降噪嘗試;
第三是迴聲消除、在設備播放聲音時的喚醒、打斷和交互。 最後是提升交互體驗的其他必須技術點,包括聲源定位、聲紋識別等。
本文由 虎嗅會員小秘書 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文章須經作者同意,並請附上出處( 虎嗅網 )及本頁鏈接。 原文鏈接https://www.huxiu.com/article/234783.html