長按識別二維碼,報名2018十大突破技術全球直播首發
聊天是一門藝術,自進入大數據時代後,AI也學會了這門藝術。 儘管 AI 聊天機器人已經屢見不鮮了,但 是 Facebook 人工智能研究實驗室(FAIR)依然在該領域努力鑽研。 最近他們又有了新成果,這是一種通過自然語言處理、對話、神經模型等技術構造的全新 AI 聊天技術。
FAIR 稱這是一種可以用來閒聊的聊天 AI 技術。 相較以往,這項技術最大的突破就是在於它的“性格”。 傳統聊天 AI 的性格都是統一的,並不能滿足於所有的用戶。 而 FAIR 則為這個閒聊 AI 添加了一道塑造性格的措施: 1.收集用戶的個人公開資料;2.收集這些用戶的關係網。 再把這些數據放進模型之中,便可以模擬出用戶喜歡的性格,並以此和用戶進行閒聊。
事實上基於神經模型的聊天AI是最近才誕生的,然而這些 AI 技術往往不能和用戶進行長時間的溝通。 因為 AI 需要在響應用戶回話的同時訪問數據網絡,還必須要有足夠龐大的數據集支撐。 不過這兩點,也正是 Facebook 的優勢。
FAIR 實驗室通過他們的數據網絡先創造了一個可以定制的基礎 AI 性格,被稱為 配置文件 。 再將配置文件置於內存擴充式神經網絡之中。 根據上述的用戶資料,將這個配置文件進行調整,使其變成另外一個更適合用戶的性格,以貼合用戶需求。
依照此步驟,FAIR 一共創建了 1155 個 獨立性格,每個性格都擁有最少 5 個配置文件。 不僅如此,他們還有 100 個用於測試的性格和 100 個等待測試的性格。 當然,為了讓這 1155 個性格更加獨特, FAIR 把這些性格所有重合的句子(比如口頭禪)全都重新調整,使之成為真正意義上的獨立性格。
但是這還沒完,閒聊機器人的性格建立完成後會向用戶提一些問題,或者發起一些話題。 這項功能不僅僅是為了區別傳統Q&A;式聊天機器人,還有一個更重要的原因: 分析用戶聊天意向,建立用戶模型。
FAIR在論文中給出了這樣一則演示,上邊為原始性格(配置文件),下邊為基於用戶的公開資料所調整的性格。
※ 基礎性格:
我愛沙灘。
我爸有個4S店。
我剛剛做完指甲。
我正在節食。
我最喜歡的動物是馬。
※ 調整性格:
沒有什麼比在在海邊悠閒地呆上一天更讓人心曠神怡。
我爸以賣車為生。
我總是定期關心我自己。
我必須要減肥了!
我很喜歡馬術。
圖丨作為配置文件性格 , 右為調整後性格
性格數據集
對此,FAIR 創建了一種新的數據集,將其命名為性格數據集。 這 個數據集由隨機配對的 164,35 6 條對話組成,每個對話都要求對話雙方進行“角色扮演” ,同時雙方會在對話之中逐漸了解。 FAIR 表示,這一過程產生了許多引人入勝的談話內容,這對閒聊 AI 的幫助非常大。
性格數據集分為兩層,即基礎性格層(又稱性格層)和調整性格層。 在基礎性格層,FAIR 會用 4 個句子來描述一個性格,比如“我是素食者”、“我喜歡游泳”、“我父親在福特工作”、“我最喜歡的樂隊是 Maroon5 ”。
圖丨兩個閒聊AI進行角色扮演
基礎性格層的每個句子的長度不能超過15個單詞,這是為了讓性格數據集能夠更迅速地理解性格,每個句子單詞過多,則會導致性格數據集無法和用戶保持長時間聊天。 同時,簡單的句子也能夠讓用戶更直觀地理解閒聊 AI 的性格。
調整性格層則是對這些句子進行修改,並且單詞的數量也有所放寬。 但是該層需要面對另外一個問題——重疊。 FAIR 實驗室表示,這是一個人類也會犯的錯誤。 有些時候,這些調整過的句子只是把單詞換了,但是整個句子的輪廓沒有改變,這就使得兩個獨立的性格出現了重疊的地方。 正如上文所說, FAIR 對所有重疊的性格進行了調整。
他們的做法是把這些輪廓相同的句子拿去給一支外包語言團隊進行改寫,比如把“我喜歡籃球”改寫成“我很崇拜 Micheal Jordan ”。這樣的改寫很大一定程度上偏離了句子的本意,但即便如此,改寫前後仍存在相互重合的地方。
不過調整性格層的工作遠沒有那麼簡單。 外包團隊很有可能把“我爸爸在福特工作”改寫成“福特僱傭了我爸爸”。 這樣的改寫在 FAIR 眼中是不合格的,因為這樣的改寫並沒有調整輪廓。
在所有外包團隊的工作都完成後,FAIR 還要進行一個步驟,就是把句子調整地更自然。 比如,調整性格層有這樣一個句子“我喜歡咀嚼鹽”“我喜歡吞下扭曲的麵包”。 這樣的句子並不合理,即使地球上會有小部分有如此獵奇的愛好,但是這並不是性格數據集應該呈現給用戶的樣子。
實踐出真知
FAIR 還將性格數據集和用電影腳本訓練的 OpenSubtitles 數據集進行比對,用戶的反饋是前者更能提出一些引人入勝的話題,還能長時間溝通。 這對於 FAIR 來說還不夠,畢竟他們不能把數據集拿出來給用戶,而是要把它植入進閒聊 AI 才行。
圖丨閒聊AI模型
最終,FAIR利用生成模型和判別模型進行檢測,發現無論在怎樣的前提下,具有性格的閒聊 AI ,都要比傳統性格統一的聊天 AI 更讓用戶喜歡。
這個結果對於 Facebook 來說無疑是大喜歡,因為這項研究不僅讓該企業突破了自然語言理解的研究深度,也改善了 Facebook 自家的聊天 AI 。 不過 FAIR 實驗室並不滿足於這個結果,他們表示, 未來將會用這個閒聊 AI 和性格數據集來訓練其他聊天 AI 。 同時他們也認為,未來的聊天 AI 絕對不是像傳統聊天 AI 一樣,對所有用戶都保持著相同的性格。
其實閒聊AI和微軟小冰有異曲同工之處,不過閒聊 AI 的性格更多樣化一些,而小冰則是偏向於花季少女的性格。 FAIR指出,閒聊 AI 可能會用於改善 Facebook 聊天機器人,除此之外並沒有明確的應用方向。 若以小冰作為參考,該 AI 出過有版權的詩集《陽光濕了玻璃窗》,也演奏過原創版權樂曲,還和小米生態鏈產品共同推出過智能音箱。
考慮到閒聊 AI 的功能來看,它的應用範圍應該比小冰還要廣。
2015年時, Facebook 曾宣布他們要開發一個虛擬助手 M,就像《鋼鐵俠》中的“賈維斯”一樣。 虛擬助手 M 可以陪用戶聊天,還可以幫用戶打理智能家居產品。 不過 2018 年 1 月時, Facebook 就宣布要關閉智能助手 M 了。 這是因智能助手 M 並不是合格的人工智能,該產品還是需要依賴大量的人力才能實現全部功能。
不過智能助手 M 並不是真的“死了”,它的一些功能,如聊天,得以保留,並被整合至 Facebook 的信息功能之中。 而智能助手 M 的結束也並不代表Facebook 在語言處理上落後於其他企業,事實上,該公司旗下兩款聊天AI“ Alice ”和“ Bob ”已經通過對話創造出了新的語言。
至於 Facebook 會把閒聊 AI 放到什麼樣 的位置,這點無從而知, 不過這項研究讓 Facebook 在語言上的造詣邁上新階梯是肯定的了。
-End-