聲音鑑黃師飽受摧殘，AI也愛莫能助

人民對性的態度向來很奇怪，父母和長輩期待子女能無師自通，教育者三緘其口，最後少男少女通過其他渠道實現了對性的初級摸索，當然這個摸索過程就很曲折了，文字，圖片，視頻和音頻遍地開花，“學習資料”越來越方便傳播。

食也性也，但傳播色情內容卻有極大的負外部效應，懵懂少男少女極易受其蠱惑，鑑黃師的重要性可想而知。在蘋果商店的社交App中，有超過1/10的應用主打聲音社交功能，由此催生出了一個新興職業——聲音鑑黃師。聲音鑑黃師是一個讓身心飽受摧殘的職業，一位女性聲音鑑黃師稱，“一個人平均一天需要鑑定4000條信息，24小時輪班監控，各種葷段子、曖昧語音，有時（聽到）噁心想吐。”

由於這份工作實在是太過於枯燥，很多男生都受不了，因此聲音鑑黃師多為女性且離職率高。一般枯燥且重複率高的工作都是AI的拿手好戲，那麼AI有沒有辦法實現聲音鑑黃呢？

聲音鑑黃之殤，AI難以克服雞尾酒效應

視頻，圖片和語音是色情內容常見的三種形式，多數公司的鑑黃都是立足於視頻和圖片，比如阿里的阿里綠網、騰訊的萬象優圖等等。有人可能會疑問，這幾年科大訊飛、百度、騰訊等公司先後對外公佈語音識別準確率均達到“97%”，那為什麼在AI語音鑑黃上那麼難？

這是因為社交平台的語音環境十分複雜，機器很難從龐大雜亂的語音中揪出涉黃涉暴人員，而這就不得不提雞尾酒效應了。所謂雞尾酒效應是指，在雞尾酒會嘈雜的人群中，儘管周圍噪聲很大，兩人可以順利交談，你們似乎聽不到談話內容以外的各種噪音。這是因為我們的大腦對聲音都進行了某種程度的預判，然後才決定聽或不聽。

用特瑞斯曼的注意衰減理論來解釋就是，當人的聽覺注意集中於某一事物時，意識將一些無關聲音刺激排除在外，而無意識卻監察外界的刺激，一旦一些特殊的刺激與己有關，就能立即引起注意的現象。

但是機器卻不具備這樣意識和無意識，因此難以實現在嘈雜環境下的語音識別，這樣看來AI語音鑑黃貌似已經走進了死胡同。

實際上，已有公司在解決雞尾酒效應上做出了努力。今年 4 月，Google 曾在博客上發文稱，谷歌研究人員開發出了一種深度學習系統，可識別和分離出嘈雜環境中的個體聲音。

研究人員從YouTube上10萬段“講座和談話”視頻中提取了近2000小時的視頻片段，然後混合音頻與人工背景噪聲，創造“雞尾酒派對”。訓練技術人員將混合音頻進行拆分，谷歌的系統能夠分辨出哪個音頻源在給定的時間內屬於哪張人臉，並為每個揚聲器創建單獨的語音軌跡。

但Google 的技術集中在視頻處理上，主要是對數段聲音的分離，而人工聲音鑑黃僅僅依靠聲音，有所不同。前不久，阿里AI語音反垃圾服務上線公測，它可以通過聲紋識別技術，識別語音中存在的涉黃、廣告等違規信息，不管是中日英俄等語言，還是東北，四川，廣東的方言，甚至連無意義的呻吟聲都可以輕鬆判別。

具體辦法是，對那些有語義的內容，系統先將語音識別轉成文字，然後再將這些文字跟文本反垃圾模型或關鍵詞庫比對，判斷是否涉黃，對那些無語義的聲音，通過聲紋也能識別出來。但有一點值得注意的是，在語音識別的過程中，識別是哪種語言比內容更難，機器翻譯也存在這樣的問題，因此還需要大量數據來進行訓練學習。

做好嘈雜環境的語音識別，難點是如何將雜音與人聲分離。但對於聲音鑑黃而言，一開始並不知道哪一個音源涉黃，很難說誰是噪音，這需要機器具有全局觀。而上面提到的技術，聲音分離或者將語音識別轉成文字都只是基本，由於尚未在語音複雜的環境下試驗過，因此這個結果嘛……退一萬步講，社交黑話也並不是那麼好破譯的。

社交黑話難解，語音識別障礙重重

時代要拋棄你，它只會讓你看不懂，而我們也不能指望人工智能聽懂。

就像你爹媽當初看不懂你的那句簽名：” ァ亊實證明，鱤綪桱淂起fеηɡ雨，卻桱囨起平啖；伖綪桱淂起平啖，卻桱囨起fеηɡ雨。ヤ”（沒亂碼），新一代社交黑話崛起一般人也很難看懂，比如XSWL（笑死我了，相當於一連串哈哈哈），NSS（暖說說，指幫點贊評論轉發說說，增進感情），CQY（處Q友的縮寫，想在QQ上找朋友的意思）。

當然這也還算好的，無非就是縮寫。除了縮寫，還有一些只能強記的詞語。比如養火（互發消息三天出現小火花，互發消息超過三十天出現大火花，養火就是經常聯繫的意思），歐洲（想要什麼就得到什麼的人）……

估計研究人員在錄入數據時就陣亡了，畢竟這玩意看上去也不算有章可循。值得注意的是，當人們在說話的時候，如果省略一兩個字不說，懂得的人自然也懂，但機器不一定能識別人們甚至為了混淆視聽，會多語夾雜，這就給機器識別增添了難度。

這種輸入標準的不統一，是導致語音識別錯誤率高的首要原因。我們常用的鼠標和鍵盤雖然看似簡單，但它具備統一的輸入標準和精準的視覺反饋這兩點，而這正是語音識別技術不具備的，也是困擾現階段AI鑑黃的一大挑戰。

毫不意外，現階段的聲音鑑黃師依然是以人為主。早在互聯網發展早期，黃色內容主要是圖片和文字，靠人工就可以淨化網絡環境的目的，但是隨著互聯網帶來的數據爆炸，人工已經遠遠不能勝任。

雖然聲音鑑黃以人為本，但這並不意味著AI鑑黃師沒有價值。它能在特定的場景實現鑑定也無疑算是一種進步，而現階段它所呈現的問題，也無疑是技術發展過程中難以避免的陣痛。

全球經濟學家和諮詢公司的主流研究課題，總少不了人工智能會引發的失業規模，但是中國的互聯網已經跑出了一條獨特的路線，因此針對中國的研究少之又少。聲音鑑黃師作為互聯網發展過程中的獨特產物，顯然會存在相當長一段時間，而現行的人工智能鑑黃也多為輔助人。

一句正確但無用的話是，可以想見未來AI鑑黃會佔據主流，但這個未來應該以哪個時間節點為基準，誰也無法預料。

*文章為作者獨立觀點，不代表虎嗅網立場

本文由智能相對論授權虎嗅網發表，並經虎嗅網編輯。轉載此文章須經作者同意，並請附上出處( 虎嗅網 )及本頁鏈接。原文鏈接：https://www.huxiu.com/article/265476.html

未來面前，你我還都是孩子，還不去下載虎嗅App 猛嗅創新！

相關推薦