歡迎光臨
我們一直在努力

也談“AI主播”

11月8日,新華社和搜狗在烏鎮峰會現場發布的“AI主播”可以說是確確實實地在全世界範圍內引起了反響。

有些國內產品會找一些“不入流”的外文網站出稿,假裝獲得了“全球媒體”關注,但這次的“AI主播”不在此列。 CNN、BBC、The Verge、CNET、南華早報等都在主要的版面給了這兩位“主播”一席之地。

這倒並不是因為新華社版“AI主播”在技術上有多先進,而是說, 更多是因為一個國家級主流媒體運用虛擬主播技術,這項舉動本身俱有強烈的象徵性意義。

就像之前曾經被沙特授予“公民權”的那位女性機器人“索菲亞”一樣,“她”也不一定是當今世界上技術最先進的機器人,只不過是說這件事情可以成為時代進步的一個強烈 的隱喻。

沒準,未來再回顧21世紀第二個十年的時候,這個鏡頭可以作為無數關鍵時刻其中的驚鴻一瞥。

低級失誤

兩位“AI主播”的外觀和聲音是分別取材自新華網絡電視(CNC)中文台和英文台的兩個主持人,其中被廣泛傳播到全世界的演示視頻,是以新華英文台的主持人 形象示人的英語“AI主播”所播報的一則關於進口博覽會的新聞。

在這則兩三分鐘的新聞當中,還是不可避免地出現了比較低級的失誤:將阿里巴巴創始人馬雲的名字“Jack Ma”誤讀成了“Jack Massachusetts”,這是因為語音合成系統讀到 這部分文字稿的時候,判斷“MA”兩個字母是美國馬薩諸塞州的縮寫。

在很多情況下,需要讀到美國某個小地方地名的時候,就需要把“MA”理解為“馬薩諸塞州”,但預防此類問題,既可以通過將“Jack Ma”一詞特殊化處理, 也可以通過將美國地方地名特殊化處理的方法來化解。 在對外演示的視頻中出現這樣的錯誤,恰恰證明了新華社和搜狗並未針對主播們的“處女秀”而對演示“弄虛作假”,完全是以真面目示人。

開始跨越“恐怖谷”

世界各國媒體在觀察這對“AI主播”的時候,都說“他們”暫時還沒有實現新華社本身所宣傳的那樣,能夠百分之百的替代真人的效果,同時還是被卡在了所謂“恐怖谷” 當中。 也就是說, 當類人形象的擬真度達到90%左右,尚未能夠100%以假亂真的情況之下,會產生一種不自然的機械感,甚至會令人毛骨悚然。

早幾年,人們都是在達到“恐怖谷”級別後,稍微往後退縮一點,即進一步的增強機器與人之間的差異,用一個本來就知道是機器人,或是卡通形象的臉,就 可以規避讓人害怕的麻煩,也創造出初音未來,或是“會說話的湯姆貓”這樣的角色。

因此,早在大概2013~14年,使用機械聲音味道很濃重的合成語音,加上明顯不像是真人的卡通形象,替代人類去做一些資訊播報的做法,已經在普通的電腦和手機用戶中 普及氾濫。

在YouTube上,世界各國的上傳者為了爭取(騙取)點擊和貼片廣告費,會在一些突發新聞出來的時候,搶著發一些“混淆視聽”的視頻內容。 最開始,網上可能只有圖文消息出來,暫時還缺乏電視台或廣播電台的真人播報錄像,或者這些錄像會因為版權問題被清理掉。 那麼,這一段時間之內如果有人去YouTube試圖尋找新聞報導,就會遇到一個“空窗期”。

做假視頻內容的人會將圖文報導貼入“谷歌翻譯”等文本轉語音(TTS)軟件,生成配音,再把隨便什麼地方找的配圖一搭配,輔以花花綠綠的字體,最重要 的是配上“突發新聞、最新報導、現場直播”這樣的有利於搜索引擎抓取(SEO)的標題,本來想看電視台報導的觀眾就會遇到這些招搖撞騙的垃圾信息,從而上當受騙。

某個專門上傳這種“騙點擊”(Clickbait)視頻的號長這樣:

航通社在《都8102年了,機器人還是“靜若癱瘓,動如癲癇”》一文中曾提到過:

“研發更像人的交互界面始終存在風險,所以更多的服務型機器人從‘肉體’到‘靈魂’——即內置的AI操作系統——都在恐怖谷前停下了腳步。

大家寧可表現得像‘面癱’版喜羊羊,也不願意冒產品滯銷的風險,向著真正像人一樣的終極目標邁出那一步。 ”

新華社和搜狗共同努力做的“機器人播報員”,卻並沒有選擇一個卡通賣萌形象充數,而是鼓起勇氣,用真人建模,再一次對“恐怖谷”發起了勇敢的衝擊。

日趨成熟的技術

這並非巧合——2018年,多家企業的同時起跑和開源解決方案的湧現,標誌著用技術模擬真人的簡單化、普及化進程已經拉開序幕。

在圖像技術方面,主機遊戲的機能和圖形引擎一同進化,可以在光照、皮膚、毛髮、布料等方面達到媲美真人的效果,而動作捕捉和實時渲染技術可以加速數字影像生成的進度。

而最為著名的開源方案Deepfakes更是以“換臉術”為人所知,Deepfakes在Reddit和PornHub等地引發了一場“狂歡”,直到被平台禁止之前,人們瘋狂地把女明星的臉“P ”到色情影片女主角的身上。

此後,Deepfakes進化為在任何PC機都能運行的FaceApp,借助它作為後期處理,有人做出了奧巴馬罵特朗普是“笨蛋”的一段視頻,這段錄像現實中並未發生過,完全是 “AI對口型”的產物。

在聲音技術方面,進步更快。 谷歌的“谷歌助手”、微軟的“小冰”都可以實時生成流暢的語音,跟真人“打電話”聊天,或者充當AI客服。 高德地圖的各種明星語音包已經投入商用三四年了。

而今年1月央視紀錄頻道播放的紀錄片《創新中國》,邀請科大訊飛對2013年去世的著名播音員李易聲音建模,完全使用合成的“李易原聲”為紀錄片做了配音。 訊飛在圓滿完成任務的同時,還藉此擁有了李易老師的聲音庫。

可以發現,圖像和聲音擬真技術的齊頭並進,都是沿著這樣一條確定的路線行進——先做出來,再一邊效果調優,一邊降低成本,提高效率。

本次搜狗在“AI主播”案例中演示的實時合成技術,以及前幾天獵豹移動旗下“獵戶星空”展示的超快速“真人語音包”建模技術,都同時說明了,在效果上暫時無法 取得決定性突破的同時,AI擬真技術在成本和效率方面進化神速,基本可以做到“實時生成”和“任何人都可以生成”。

雖然現在的主播仍然呈現動作僵硬,語音語調不協調等問題,但任何一個報導這件事情的國內外媒體其實都心知肚明,這是AI向真人進攻路上的一個里程碑或標誌性事件,但絕對 不是一場努力的終點,而在未來還將會以更快的速度進化。 現在這些小問題將會逐漸被攻克,直到屏幕上主播的表現和真人沒有什麼區別。

“AI主播”上崗的意義

全球媒體報導新華社率先上崗“AI主播”的時候,也有各種各樣的擔憂,但首先都給予了肯定。 最重要的一點是,官方媒體率先垂範採用這類仿真技術,有助於自上而下地對抗“假新聞”。

即使是上面所說的粗製濫造的假新聞視頻,對於一些信息閉塞地方的人來說,可能已經是足夠“說服”他們的。 不同人分辨信息真偽的能力是有區別的,有些人可能會始終分不清什麼才是真正的電視台播報,而因此影響他們的政治傾向,投票結果,或造成財物損失等等。

諸如為色情電影“換頭”這種對AI擬真的濫用也值得擔憂,這當然不是因為它們不符合對“真實”的追求,而是有可能會成為網絡暴力的起源,或者是分手後報復 性羞辱前任的手段,影響當事人的正常生活。

從這個角度上來說,像新華社這樣正規的官方媒體,先行一步採用機器人朗讀方式,就可以在突發事件傳播中占得先機,搶在“謠言”的前面到達社會公眾。

至於國外媒體的擔憂,主要集中於這一行為對傳統媒體的嚴肅性、公信力形象的“無形消解”。

牛津大學計算機科學教授伍爾德里奇(Michael Wooldridge)在接受英國廣播公司(BBC)採訪時提到,在很多時候,新聞播音員都是社會高度信賴的公眾形象。 “如果你看著一段動畫,你將完全失去和主播之間的這樣一種聯繫。”

在中國,《新聞聯播》的數位主播被譽為“國臉”,有說他們換髮型都需要組織批准。 在發達國家,主播不僅僅是照本宣科念稿子的人,他們會作為整個媒體公信力的一部分,一個典型的象徵而存在。 所以各大媒體的首席主播,往往是最賺錢的媒體人之一。

《南華早報》統計稱,在美國的主播薪酬排行榜上,CNN的安德森·庫珀(Anderson Cooper)以年薪1億美元排位第一,而美國廣播公司的戴安·索耶(Diane Sawyer) 以及福克斯新聞的主播肖恩·漢尼迪(Sean Hannity)以年薪8000萬美元並列其後。

上面提到的王牌主播,都是從地方台記者開始一路晉升的,而不是像中國這樣,擁有一個“播音主持”的專業學科,播音員、主持人和記者、編輯之間是區分的很開 的,前者幾乎沒有經過任何採訪方面的訓練。

欲戴皇冠,必承其重。 對國外主播們來說,他們不僅僅要對自己所宣讀的文本內容負責,而且還要在一些獨家的,原創性的採訪當中,展現自己作為一個記者的才華。 主播們如果有內容後來被驗證為錯誤,或者有不適當的言行舉止,都會受到嚴重的懲罰,斷送職業生涯。

這從美國全國廣播公司(NBC)兩位新聞主播的隕落上就可見一斑。 2015年,晚間黃金時間新聞節目長期培養的主持人布萊恩·威廉姆斯(Brian Williams)因為在一檔伊拉克戰爭隨軍採訪中誇大其詞,虛假描述了自己隨軍報導的角色,導致公信力喪失,被雪藏半年 之後降格來到MSNBC頻道的政論節目。

2017年11月美國興起#MeToo 運動期間,至少三位NBC女員工舉報早間節目《今日秀》主持人馬特·勞爾(Matt Lauer)性騷擾,勞爾“閃電”離開主播台,現在處於銷聲匿跡 的狀態。

有血有肉的、人格化的主持人對電視媒體的重要性, 由此可見一斑。 他們是媒體公信力的一個重要的組成部分——至少現在是這樣的。

部分國外媒體因此擔心,以假亂真的AI主播上崗後,可以“想讓他說什麼就說什麼”,而不用擔心有真人主播“鬧情緒”,不配合。 不過,如果他們在中國呆一段時間,應該就知道他們其實想多了。 中國的新聞播音員現在承擔的角色,跟隻字不差的AI還真差不了多少。

在中國,虛擬主播的存在,倒是的確可以幫助一些預算上不充裕的電視台,讓他們把“好鋼用在刀刃上”,通過更精簡的預算,實現一些原來在全國性大台才有條件實現 的項目——例如開設24小時不間斷的新聞台。

很長一段時間,全國范圍內只有中央電視台擁有一個24小時的新聞頻道,加上少數沿海省份能收看到香港的鳳凰衛視。 國內的幾家電視台也曾或多或少有過“新聞立台”的心思,但是很可惜都沒有堅持住。

上海是各地電視台中做新聞最成功的其中一家。 2016年7月,上海文廣推出“看看新聞”客戶端和配套的24小時新聞頻道KNews24,除央視之外,第二個建立起24小時不間斷的新聞頻道。 但是該頻道只能通過機頂盒和網站等OTT形式播放,不能上星及進入有線電視網絡。 受到資金和人員的限制,該台也只能在上下午新聞之間的空閒時段,採用實習播音員坐鎮口播新聞,其他時間段都是重播。

最近,KNews24頻道更是乾脆取消了在非東方衛視新聞時段以外的主播坐檯直播,改以重播節目《看東方》等當日已播出的新聞片段,以及短視頻剪輯等代替,不復當年24 小時新聞台的風采。

此外,奇虎360也曾在與北京廣播電視台合辦的“北京時間”網站,開設一個專門在網絡播出的新聞頻道,回放北京衛視和北京新聞頻道的一些節目,最近該頻道也下線了 。

所以我們完全可以想像,一旦新華社和搜狗推出的這一虛擬主播技術,推廣到全國一些省市甚至是地方台,他們就可以用非常低的成本,開一個服務器,就實現24小時不間斷的 播報本市及全國新聞的目的,為自己家的融媒體“中央廚房”再增添一道菜,也不費甚麼事。

我們很容易想到真正的播音主持專業學生和老師們,聽到“AI主播”的消息時,內心當然是拒絕的。 但他們可能多少都已經有了心理準備。 早在《創新中國》復原已逝的李易聲音時,播音圈裡已經有過討論。 樂觀者如丁龍江先生,他是中國傳媒大學播音主持藝術學院口語傳播系主任。 他說:

“《創新中國》模仿李易音色智能解說,雖走出可喜第一步,但仍處於句法關係層面的邏輯重音處理,距離播音學掌握的重音表現手法尚且差距很遠,更別說落實話語本質的 內在語。人在表達溝通上使用語音幽渺難知,估計得量子計算。我們等著那一天。”

但不到一年時間,新華社“AI主播”已經不需要人工修音,在自動實時生成的基礎上,效果也正變得越來越好,因此播音主持從業者也很難再保持平靜。 有一位老師的朋友圈寫道:

“今晚因為這個新聞,朋友圈的氣氛有點低,大家都有點擔心AI會取代主持人的崗位,有學生說要沒飯吃了,心裡慌慌的,也有人說AI不能做現場報導,不能 處理突發新聞。”

這位老師說:

“主持人行業近年來本身發展進入了瓶頸期,不可否認,AI播報員的出現會給這個行業帶來衝擊。畢竟,寫幾個代碼就可以超越你大學四年苦練得來的好口條 ,誰不恐慌?這就給播音主持的教學和人才培養敲響了警鐘。傳統的人才培養目標和教學,很快就不適應市場的需求了,得做好變天的準備,這個時間或短 或長,只要這個行業不那麼堅守陣地,也許明天,也許明年。”

確實,中國的播音主持培養體系,應該從此開始有一個根本性的變化,也向世界各國的實踐看齊,從前方記者中出人才。 我們播報新聞的人,也應該具有自己的“自由之精神”和“獨立之思想”,才能區別於一個“念稿子的機器”。 他們需要從現有的有快速反應能力的記者隊伍當中遴選出來,他們應該做一個現實生活當中的多面手,而不是只會以端正的坐姿完成任務。

興許,在技術的倒逼之下,中國的電視新聞事業,將有可能會比全世界其他任何一個地方,都更多、更快的迎來革命性的變化。

*文章為作者獨立觀點,不代表虎嗅網立場

本文由 航通社 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文請於文首標明作者姓名,保持文章完整性(包括虎嗅注及其餘作者身份信息),並請附上出處(虎嗅網)及本頁鏈接。 原文鏈接:https://www.huxiu.com/article/271073.html

未按照規範轉載者,虎嗅保留追究相應責任的權利
未來面前,你我還都是孩子,還不去下載 虎嗅App 猛嗅創新!

未經允許不得轉載:頭條楓林網 » 也談“AI主播”