歡迎光臨
我們一直在努力

奧巴馬吐槽川普“笨蛋”的視頻火了,這又得“歸功”於AI

一段吐槽視頻今天在美國火了。

也就半天的工夫,這段視頻在Twitter上有200多萬次播放,1300多條評論,被轉發了2萬6000多次,還收穫了5萬多個贊。

什麼視頻這麼萬人矚目? 主角是前總統奧巴馬。 這麼受關注,當然是因為內容非常勁爆,特別是這一句: President Trump is total and complete dipshit(川普總統完全就是個笨蛋)

不過,這些勁爆的話都不是奧巴馬自己說的,視頻裡的聲音來自剛剛在今年的奧斯卡上以《Get Out》拿下最佳原創劇本獎的導演Jordan Peele。

他和BuzzFeed CEO Jonah Peretti一起,自導自演了這麼一出大戲,戲裡的奧巴馬,對口型能力強大到讓所有假唱精英敗下陣來。

搬出奧巴馬,就是為了向全美國(甚至全球)人民傳達視頻開頭的那句話:“我們已經進入了這樣一個時代,我們的敵人可以做出看起來像任何人在任何時候說任何話的東西。 ”

未來的假新聞可能就是這個樣。

視頻中,Peele還放出了奧巴馬和自己的對比環節

右邊就是Jordan Peele,這段視頻的(部分)替身演員和聲優。 視頻製作的主力工具則是Adobe AE和FakeApp。

此次的臉部搬家工作,具體是這樣的。 首先,找出一段奧巴馬真正的演講視頻,將Peele的嘴粗暴地粘貼到奧巴馬臉上。 然後,再把奧巴馬的下巴,換成一個可以隨著演員嘴部動作一同運動的下巴。

下一步,FakeApp登場,負責把拼貼好的視頻做一些平滑和細化處理。 聽起來像是收尾工作,但這一步任重道遠。

據BuzzFeed透露,一開始搬家的效果蠢蠢的。 可能用整容失敗都不足以形容。 但,訓練時間長了之後,Peele的嘴部動作和奧巴馬的臉融合得越來越自然。

最後發出來的視頻,是56小時辛苦訓練、以及特效專家現場指導的結晶。

又見FakeApp

是的,又見FakeApp。

去年底,一位不願透露姓名的用戶deepfakes,利用業餘時間搞出了這個機器學習算法,主要的功效就是兩個字:換臉。

只要給這個AI一些照片,就能出色的給視頻中的主角換臉。

後來他的網名,就成了這個技術的代名詞。 作者本人透露,這個系統是基於像TensorFlow後端的Keras等多個開源庫完成的。

這個開源系統發布之後,立刻引發了轟動。 國外網友在reddit上創建了專門的討論區,用來交流和發布研究成果。

簡單實用效果好,deepfakes快速流行開來。 很多人開始用這個技術,把色情片主角的臉換成自己喜歡的明星。

再後來,deepfakes進化成FaceApp。

從此換臉的流程進一步簡化。 FaceApp被定義為一個社區開發的桌面應用,可以運行deepfakes算法,無需安裝Python、TensorFlow等,並且如果想要運行,僅需要“CUDA支持的高性能GPU”。

炸裂的效果引發了巨大的爭議,後來reddit上這個版塊也不得不關閉了事。

雖然互聯網公司幾乎集體封禁了deepfake相關社群,不想讓網民們再到處傳播換上赫敏臉的小片片。 但是,這個技術的超低門檻軟件FakeApp悄然迭代著,目前已經到了2.2版。

這裡,我們放一段之前的演示:將希特勒的臉“嫁接”到阿根廷總統Mauricio Macri身上,體會一下效果。

無需配音

在FakeApp的幫助下,換臉這件事變得非常簡單。

那聲音怎麼辦? 嚴絲合縫的聲優在哪裡? 還是讓AI來吧。

上週,有Reddit小伙伴發布了,川普演講的韓文版,是AI自動生成的。

樓下,就有韓國友人鑑定,嗯,流利得可以。

這還不算,會說韓文的群眾紛紛表示,美國人說韓文,基本就是這個口音。

本週,還是那個小伙伴,又放出了帶有you-know-who嗓音的韓式英文,AI調教成果上佳。

視頻那一頭的神秘團隊Icepick,到底對他們的AI做了什麼,目前並沒有相關信息公開。

不過,我們依然可以看看,AI獲得語音生成技能之前,到底需要經受怎樣的調教?

氣質如何調教

不管是谷歌娘,Siri,或是Alexa,說的話聽上去都不太像真人。 這是因為,我們說話時有一些平常不容易察覺的細節,比如字與字之間的連接、呼吸聲、氣音、嘴唇碰撞時發出的聲音等等。

所以,把多個語音片段直接拼接合成 (Concatenative Synthesis) 一段話 (即鬼畜本畜),或者用參數合成 (Statistical Parametric Synthesis) ,都很難產生非常接近人聲的語音。

第一個用神經網絡來生成人類自然語音的,就是DeepMind的WaveNet。

從前,人們很少為原始音頻的聲波直接建模,因為每秒有超過16,000個採樣點,讓模型過於復雜,難於訓練。

但當PixelRNN和PixelCNN發布之後,DeepMind便有了“借助二維圖像的處理方式,來處理一維聲波”的想法。

WaveNet是全卷積神經網絡,卷積層裡的擴張因子 (dilation factors) ,能讓感受野 (receptive field) 隨深度變化呈指數增長,並且覆蓋數千個時間步 (timestep)。

有了延時採樣機制,只要增加一層,就可以多關聯一倍的時間範圍,訓練效果更佳。 

通過層層卷積,WaveNet便可以把PS痕跡明顯的機器語音,轉換成更加流暢自然的語音,與人類聲音之間的差異大幅降低。

1. 嗓音如何調教?

去年,Lyrebird也發布了語音合成技術,基於音色、音調、音節、停頓等多種特徵,來定義某個人的聲音,然後藉用ta的聲音來說話。

據公司官方表示,通過大量的樣本學習,神經網絡只需要聽一分鐘的音頻,就可以模仿裡面的陌生人說話了。 Lyrebird系統生成一段語音,比同一時期的WaveNet要快得多。

2. 口音如何調教?

說一句話很容易,但語音就是一門複雜的學科了。 同樣一個“啊”字從不同的人嘴裡發出來,也會因為口型大小、發音位置 (這並不是官方特徵分類) 等習慣的不同,讓身為聽眾的人類或計算機感受到差異。

百度的語音合成系統DeepVoice,可以輕鬆訓練AI合成百種英文口音。 研發團隊發現,AI把不同口音的演講者,對應到嵌入空間的不同區域裡。 比如來自大不列顛島和北美大陸的人,在嵌入空間裡佔據的區域也有明顯的不同。

如果是處理中文,什麼樣的聲線和口音,才比較適合騙大神帶你吃雞呢?

隨口一說

也有人不喜歡用政治噱頭來包裝科學研究的做法,並表達了強烈的反胃之情。

不過我倒覺得,如果有人發糖,還是要盡量分享給周圍的人。 下面是正確示範—— 川川當選之際,和希拉里的深you情du對唱 (誤) ,無奈視頻上傳有難度,就改成了傳送門。

以後,AI說不定能幫我們,把天衣無縫的南腔北調,P給鬼畜區的任何一位主角。

那麼,我心心念念的雷布斯同款仙桃普通話,感覺指日可待啊。

*文章為作者獨立觀點,不代表虎嗅網立場

本文由 量子位© 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文章須經作者同意,並請附上出處( 虎嗅網 )及本頁鏈接。 原文鏈接https://www.huxiu.com/article/240601.html
未來面前,你我還都是孩子,還不去下載 虎嗅App 猛嗅創新!

未經允許不得轉載:頭條楓林網 » 奧巴馬吐槽川普“笨蛋”的視頻火了,這又得“歸功”於AI