在“All in AI”的策略指導下,百度交出了一份這幾年來最漂亮的成績單。
截至3月31日的第一季度財報顯示,百度第一季總營收猛增31%,至209 億元人民幣(33.3億美元),淨利潤67 億元(11億美元),每股收益16.6 人民幣(2.60 美元),均高於市場預期。
數據是一片大好,看起來百度正走出低谷期。
這得益於兩個方面,一是組織的優化,百度壯士斷腕,拋棄了不少累贅業務;另外,也是因為在 AI 方面的押注取得了回報。
AI 帶來的盈利,最直接還是體現在了廣告上。 陸奇表示這一季度裡,百度首次在廣告系統鳳巢裡,部署了強化學習技術,能實現更精準的營銷。 這達到了一個工程上的新里程碑。
強化學習其實不是個新鮮概念了,那麼它具體是乾啥? 百度如何用它賺錢的?
真正意義上的自學成才
強化學習是機器學習的一個分支,相對應的是監督學習,還是拿 Alpha Go 舉例:
過去採用監督學習的 Alpha Go,需要輸入大量人類棋手的下法、對弈棋局等數據,然後通過模擬完成“左右互搏”,最終不斷尋得更科學的下法,也就是說,它其實還是 在“模仿”人類。
而採取了強化學習的最強版本 Alpha Go Zero 不同,它不需要對著人類的玩法照貓畫虎。 了解到基本的規則以及最終要達到的目標後,就開始“隨便下”,如果下贏了,就會得到獎勵,然後指導下一步的決策;如果輸了,就會有懲罰。 在這種嘗試——反饋——學習的過程中,完成自我進化。
某種角度來看,強化學習更接近智慧生命體的思維模式。 通過不斷地試錯,獲得來自環境的反饋,從而獲取到更多地知識和數據。
那麼,它能帶來什麼好處呢? 顯而易見,一是無需在前期輸入大量的數據,減少準備的時間和成本,畢竟優質的大數據並不是隨時都能獲取的;二是適應性強,它是真正意義上的“完全自學”,幾乎 能被應用在任何領域,理論上講,如果算力跟得上,它能解決任何問題。
當然問題也出在這兒,因為完全是“兩眼一抹黑”式的自我探索,所以強化學習的運算量要遠遠超過監督式自我學習;另外,它的過程也完全不可控,失之毫釐謬 以千里,所謂“蝴蝶效應”,這導致結果的隨機性太強,容易跑偏。
百度是如何應用的?
說回到百度本身,原理上邊都說了,那麼百度是如何用它優化廣告投放效率的?
如何實現?
百度沒有過多的介紹,不過其實原理也很簡單。 在廣告系統中加入強化學習模型,它會實時記錄瀏覽、點擊、轉化等關鍵數據,並通過自我學習對投放進行優化,讓廣告能更精準地匹配到目標客群。
帶來的效果就是,客戶爸爸們的錢能花在刀刃上,花更少的錢,得到更精準的曝光。 當然,百度和 Google 們過去一直都是這麼做的,只不過這是技術的有一次升級而已。
為什麼要用強化學習?
就像之前提到的,它的優勢在於:無需在前期就輸入大量數據,直接可以上線,並在線完成學習的過程。
因為對於許多廣告來說,它並沒有太多可以參照的數據,前人雖有成功案例,但時間、平台、目標人群的不同,都會導致過去的經驗沒法直接套用, 監督式的機器學習算法,學無可學。
這時候,強化學習就有用武之地了,它可以分析投放廣告本身的效果,而無需去尋找其他大數據作為參考,即插即用,方便快捷。
據量子位報導,長安汽車就在使用之後發現CTR(點擊通過率)顯著提高,轉化價格明顯降低,於是將每日投放預算提高了5倍。
不過,就像上文提到的,強化學習也有其自身的問題。 如何優化模型,使最終結果更快、更可信,是百度要面臨的技術考驗。
就像前Facebook 工程師Jeff Hammerbacher 的那句名言“我們這一代最聰明的人,竟然都在這裡思考著怎樣讓人們去大量的點擊廣告”一樣,百度的技術說得頭頭是道,結果最後還是投廣告的 事,肯定免不了被批判一番。
但其實,人類歷史上,任何技術的誕生初衷,都是為了商業服務的,而商業帶來的資本也能反哺技術的迭代。 這個過程循環反复,社會和文明自然而然就實現了進步。
競價醫療廣告除外。
本文由 古泉君 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文章須經作者同意,並請附上出處( 虎嗅網 )及本頁鏈接。 原文鏈接https://www.huxiu.com/article/241976.html