機器學習進入公眾視野已經有四五年了,幾乎達到了婦孺皆知的地步。 不僅每天都有各種初創公司湧現,大型科技平台公司也正圍繞機器學習進行自我改造:科技行業以外的所有人大都讀過《經濟學人》或《商業周刊》的封面故事,很多大公司也有 一些項目正在進行。 我們都知道,這會是下一個風口。
更進一步,理論上我們大多了解神經網絡是什麼,它可能與模式和數據有關。 機器學習讓我們在數據中找到模式或結構,這些模式或結構是隱式和概率性的,而不是顯式的,這在以前只有人類才能找到,計算機是無法找到的。 機器學習解決了這類問題:那些以前“對計算機而言很難,但對人類來說很容易”的問題,或者說“對計算機來說很難描述”的問題。
不過,我認為我們還沒有一個明確的概念,即機器學習對科技公司或更廣泛的經濟體系中的公司意味著什麼,如何在結構上思考它能夠帶來什麼新事物,或者機器學習對我們所有 人意味著什麼,以及它實際上能夠解決什麼重要問題。
“人工智能”一詞並沒有起到什麼幫助作用,它只會讓討論進行不下去,或者早早結束。 當我們說起“人工智能”時,就好像 2001 年初的黑色巨石出現了一樣,我們都變成了猿類,對著它尖叫,揮舞著拳頭。 結果就是,我們無法真正分析“人工智能”。
事實上,我可以列舉一長串無助於討論當前機器學習發展的方式,例如:
數據是新的“石油”
Google 和中國擁有所有的數據
人工智能將承擔所有的工作
把機器學習稱為人工智能
當然,也有其他更有益的方式:
自動化
技術賦能層
關係數據庫
為什麼提到關係數據庫? 因為它是一個新的基礎賦能層,改變了計算機所能勝任的事情。 在於上世紀 70 年代末關係數據庫出現之前,如果你想讓數據庫顯示你希望的東西,比如“所有已購買此產品且居住在此城市的客戶”,通常需要一個專門的工程項目才能實現。 數據庫不是用結構化的,因此任何任意交叉引用查詢都非比尋常的困難。 數據庫是記錄保存系統,而關係數據庫則把它們變成了商業智能係統。
這樣一來就極大地改變了數據庫的用途,從而創建了新的用例,催生了市值高達數十億美元的新公司。 關係數據庫不僅為我們帶來了 Oracle,也帶來了 SAP。 而 SAP 和它的同行們給我們帶來了全球即時供應鏈——蘋果和星巴克。 到了 90 年代,幾乎所有的企業軟件無一例外都是關係數據庫:PeopleSoft、CRM 和 SuccessFactors 等數十種軟件都是運行在關係數據庫之上。 沒有人指著 SuccessFactors 或 Salesforce 說,“這玩意兒將永遠不會起作用,因為 Oracle 擁有所有的數據庫”——相反,這項技術成了一個賦能層,它成了所有東西的一部分。
所以,這也是如今我們思考機器學習的一個很好的方式——它是我們利用計算機所能做的進一步改進,它將成為許多各家公司不同產品的一部分。 最終,幾乎所有的東西都有機器學習在裡面,沒人關心,也沒人驚奇。
兩者之間重要的相似之處在於,儘管關係數據庫具有規模效應,但別忘了網絡是有限的,或者說“贏家通吃”的效應,機器學習也一樣。 如果 B 公司和 A 公司一樣,從同一家供應商購買相同的數據庫軟件,那麼 A 公司使用的數據庫並不會因此變得更好。
機器學習實際上也是差不多的情況:機器學習都是數據相關的,但是特定應用需要的數據卻是不同的。 更多的手寫數據會使手寫體識別器變得更好,而更多的燃氣輪機數據也會使系統更好地預測燃氣輪機的故障,但是其中一套數據對另一個系統卻毫無幫助。 記住,數據是不可替代的。
這就觸及了在談論機器學習時最常見的誤解的核心:在某種程度上,機器學習是通往HAL 9000 道路上一種單一的、通用的東西;或者Google 或微軟各自建立了“一個” ;或者Google “擁有所有的數據”;或者IBM 已經擁有了一個真實的東西,叫作Waston。
的確,人們在看待自動化時總會犯相同的錯誤:每一波自動化浪潮,我們都會想像人們正在創造一些擬人化的東西,或者俱有通用智能的玩意。 要知道,這可是有前車之鑑的:在 1920-1930 年代,我們想像的是,鋼鐵機器人拿著錘子在工廠裡走來走去;而在 50 年代,我們想像的是人形機器人在廚房里幹家務。 然而我們並沒有得到機器僕人,但好在我們有了洗衣機。
你可以說洗衣機就是機器人,但它們沒有“智能”。 它們並不知道水和衣服是什麼。 此外,就算在洗滌領域中,洗衣機也並不是通用的:你不能把盤子放進洗衣機裡,也不能把衣服放進洗碗機裡。 它們只是另一種形式的自動化罷了,在概念上,與傳送帶或送料機並沒有什麼不同。
同樣,機器學習讓我們得以解決以前計算機無法解決的問題,但是這些問題中,每個問題都需要不同的實現、不同的數據、不同的市場路線以及不同的公司才能解決。 這些都是自動化的一部分,你可以把它們看作一台台“洗衣機”。
因此,我們談論機器學習的挑戰之一,就是在數學的機械解釋與幻想之間找到一個平衡點。 機器學習並不會創造出 HAL 9000,但認為它“只是統計數據”對於理解也沒有幫助。
讓我們重新審視與關係數據庫的相似之處,這可能更像是在 1980 年討論 SQL 一樣:如何從解釋表連接到思考 Salesforce.com? 如果你說“這可以讓你問些新問題”,這當然是非常好的,但是問題並不總是清晰明了。 你可以製作一些令人印象深刻的語音識別和圖像識別的演示,但是,如果是一家普通的公司會怎麼做呢? 就像美國一家大型媒體公司的一個團隊不久前對我說的那樣:“我們知道,我們可以使用機器學習來索引十年來的運動員採訪視頻,但是,我們尋找的究竟是什麼呢?”
那麼,對於真正的公司來說,機器學習的“洗衣機”到底是什麼呢? 我認為有兩套工具可以用來幫助思考這個問題。
首先是考慮數據類型和問題類型的流程:
-
對於擁有相關數據的問題,機器學習可以提供更好的結果,這僅僅是作為一種分析或優化技術。
-
機器學習可以讓你基於已有數據提出新的問題。
-
機器學習為分析領域開闢了新的數據類型:以前計算機無法真正“讀取”音頻、圖像和視頻,而現在這種可能性越來越大了。
在這方面中,我發現最令人興奮的是影像領域。 以往,只要我們有計算機,就能夠處理文本和數字,但圖像對它們而言,大多都是盲區。 現在,它們可以“看到”了,就像它們可以讀文本和數字一樣。 這意味著圖像傳感器將成為一個全新的輸入機制:與其說是一個“攝像頭”,還不如說就是一個全新的、強大的、靈活的傳感器,它可以生成機器可讀的數據流。 未來各種各樣的問題,最終都會演變成計算機視覺問題,儘管今天看上去並不像是計算機視覺方面的問題。
最近我遇到了一家為汽車行業提供座椅的公司,該公司已經在廉價的 DSP 芯片上部署了神經網絡,並與廉價的智能手機圖像傳感器相結合,以檢測織物是否有起皺的現象。 它實際上就是把以前無法自動化的任務自動化,因此將它描述為“人工智能”是不利於我們理解的。
這種自動化的概念是思考機器學習的第二個工具。 發現織物上是否存在起皺的現象並不需要 20 年的經驗:做到這一點,真的只需要哺乳動物的大腦就夠了。 事實上,有位同事跟我說,你可以訓練狗狗做的事情,機器學習也可以做到,這也是思考人工智能偏見的一個有用途徑,但是它也有限制,因為狗狗確實具備一般的智力 和常識,並不像我們知道的任何神經網絡。
吳恩達表示機器學習在不到一秒內就可以做任何你所能做的事情。 談論機器學習確實是在尋找隱喻,但我更喜歡這個隱喻: 機器學習給你的其實是無限數量的“實習生”,或者無限數量的“十歲孩童”。
五年前,如果你給一台計算機一堆照片,它所能做的,只是按照片尺寸大小排序。 而一個十歲孩童,可以把這堆照片按男人和女人來分組,一個十五歲的少年可以按照“酷”和“不酷”來進行劃分照片,一個實習生可以指著某張照片說“ 這個人真的很有趣”。
今天,有了機器學習的加持,計算機的能力將會與十歲孩童或者十五歲少年相仿,但它可能永遠不會達到實習生的水平。 但是如果你有一百萬名十五歲的少年來一起來查看數據,你將會怎麼做呢? 你會接聽什麼樣的電話,會瀏覽什麼樣的圖像,會檢查哪些文件傳輸或用信用卡付款呢?
也就是說,機器學習不必與專家或者數十年的經驗或判斷相匹配,我們不是自動化專家。 相反,我們要求的是:接聽所有的電話,找到那些憤怒的人;瀏覽十萬張照片,找到那些看上去很酷的人。
從某種意義上說,這就是自動化始終在做的事情;正如Excel 並沒有給我們帶來人工會計師,Photoshop 和Indesign 也沒有給我們帶來人工平面設計師,實際上,蒸汽機也沒有給我們帶 來人造馬匹。 相反,我們將一項離散任務大規模地自動化了。
如果這個隱喻被打破,那麼,在某些領域中,機器學習不僅能找到我們已經能夠識別的東西,而且還能找到人類無法識別的東西。 DeepMind 的 AlphaGo 就是最好的例子。 AlphaGo 不會像下國際象棋的計算機那樣去下圍棋:按照順序分析每一種可能的棋步。 相反,它被賦予了規則,讓它自己嘗試制定策略,與自己下棋的次數,要比人類在有生之年所能下的棋還要多。 也就是說,這並不是一千名實習生,而是一名非常非常快的實習生。 如果你給實習生一千萬張照片,他們瀏覽完會說:“這很有趣,但當我看到第三百萬張照片時,這種模式才真正開始出現。”
那麼,哪些領域足夠窄又足夠深,以至於我們可以告訴一個機器學習系統規則,只要查看所有數據,就能得出人類無法得出的新結果?
我花了很多時間去了解大公司,討論他們的技術需求,他們在機器學習方面通常有一些非常明顯的、可輕易實現的目標。 既有很多明顯的分析和優化問題,也有很多明顯的圖像識別問題或音頻分析問題。
同樣,我們討論自動駕駛汽車和混合現實的唯一原因就是機器學習讓它們能夠得以實現。 但當我們討論織物上的起皺情況或客戶服務中心的情緒分析之後,這些公司接下來往往問道:“還有什麼呢?”這將帶來什麼其他的東西嗎? 它會發現哪些我們不知道的未知事物呢?
在機器學習變得稀鬆平常之前,我們可能還有十到十五年的時間。
本文由 AI科技大本營 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文章須經作者同意,並請附上出處( 虎嗅網 )及本頁鏈接。 原文鏈接https://www.huxiu.com/article/250158.html