谷歌發布AI搜索引擎"Talk to Books"，不用關鍵詞也能"撩書"

》。

作為搜索引擎起家的科技巨頭，谷歌曾推出過很多有意思的搜索工具。昨天，這家公司的研究機構發布了一款基於人工智能的搜索引擎，該實驗項目可以讓普通人也能感受最新語義理解和自然語言處理技術的強大能力：它們是目前人工智能技術發展的重要方向。

值得一提的是，《奇點臨近》一書的作者，谷歌研究院工程總監雷·庫茲韋爾也參與了這一工作。

這一項目目前包含交互式 AI 語言工具，它展示的主要人工智能技術是“詞向量”。詞向量是一種自然語言處理形式，向量的一些幾何性質能夠很好的反映詞的句法或者句義。

例如，兩個詞向量的差值對應詞的關係，詞向量的距離則對應詞的相關或者相似性。對於選定的一組詞，將其向量投影到空間中，詞義相近的詞向量在向量空間中表現出了有趣的聚類現象。例如國家名詞聚成一類，大學名稱則形成另一個聚類。

自然語言理解在過去幾年發展迅速，部分要歸功於詞向量的發展，詞向量使算法能夠根據實際語言的使用實例了解詞與詞之間的關係。這些向量模型基於概念和語言的對等性、相似性或關聯性將語義相似的詞組映射到鄰近點。去年，谷歌使用語言的層次向量模型對 Gmail 的 Smart Reply 進行了改進。最近，谷歌一直在探索這些方法的其他應用。

今天，谷歌向公眾分享了 Semantic Experiences 網站，該網站上有兩個示例，展示了這些新的方法如何驅動之前不可能的應用。 Talk to Books 是一種探索書籍的全新方式，它從句子層面入手，而不是作者或主題層面。

Semantris 是一個由機器學習提供支持的單詞聯想遊戲，你可以在其中鍵入與給定提示相關聯的詞彙。此外，谷歌還發布了論文“ Universal Sentence Encoder ”，詳細地介紹了這些示例所使用的模型。最後，谷歌為社區提供了一個預訓練語義 TensorFlow 模塊，社區可以使用自己的句子或詞組編碼進行實驗。

建模方法

谷歌提出的方法通過為較大的語言塊創建向量，擴展了在向量空間中表徵語言的想法。語言是由概念的層次結構組成的，因此谷歌使用模塊的層次結構來創建向量，每個模塊都要考慮與不同時間尺度上的序列所對應的特徵。

關聯、同義、反義、部分關係、整體關係以及許多其他類型的關係都可以用向量空間語言模型來表示，只要我們以正確的方式進行訓練，並且提出正確的“問題”。谷歌在論文“Efficient Natural Language Response for Smart Reply”中介紹了這種方法。

Talk to Books

通過 Talk to Books，谷歌提供了一種全新的圖書搜索方式。 你陳述一件事或提出一個問題，這個工具就會在書中找出能回答你的句子，這種方法不依賴關鍵詞匹配。 從某種意義上來說，你在和書“交談”，得到的回答可以幫助你確定自己是否有興趣閱讀它們。

該模型在十億聊天句對上訓練而成，學習識別哪些可能是好的回复。一旦你問問題，工具就在搜索十萬本書中的所有句子，根據句子層面的語義找到與輸入語句對應的內容；沒有限制輸入和輸出結果之間關係的預置規則。

這是一種獨特的能力，可以幫助你找到關鍵詞搜索未必找得到的有趣書籍，但是仍有改進空間。 例如，上述實驗在句子層面有作用，那麼“完美”匹配的句子可能仍屬“斷章取義”。你可能會發現找到的書或文章並非自己想要的，或者選中某篇文章的理由並不明顯。你還可能注意到著名的書籍未必排序靠前；該實驗僅觀察了單個句子的匹配程度。

不過，它有一個好處，就是這個工具可以幫助人們發現意想不到的作者和書籍，以及 surface book。

Semantris

谷歌還發布了 Semantris，一個由該技術支持的單詞聯想遊戲。你輸入一個單詞或詞組，遊戲屏幕上會排列出所有單詞，排序根據這些單詞與輸入內容的對應程度。使用該語義模型，近義詞、反義詞和鄰近概念都不在話下。

Arcade 版本的時間壓力使得你輸入單個單詞作為提示。而 Blocks 版本沒有時間壓力，你可以盡情嘗試輸入詞組和句子。

本文分享的示例僅僅是使用這些新工具的幾個可能方式。其他潛在應用還包括分類、語義相似度、語義聚類、白名單應用和語義搜索。期待社區提出更多想法和更多有創意的應用案例。

*文章為作者獨立觀點，不代表虎嗅網立場

本文由機器之心授權虎嗅網發表，並經虎嗅網編輯。轉載此文章須經作者同意，並請附上出處( 虎嗅網 )及本頁鏈接。原文鏈接https://www.huxiu.com/article/240038.html

未來面前，你我還都是孩子，還不去下載虎嗅App 猛嗅創新！

谷歌發布AI搜索引擎“Talk to Books”，不用關鍵詞也能“撩書”

相關推薦