幫助百度提高廣告收入的"強化學習"，了解一下

在“All in AI”的策略指導下，百度交出了一份這幾年來最漂亮的成績單。

截至3月31日的第一季度財報顯示，百度第一季總營收猛增31%，至209 億元人民幣(33.3億美元)，淨利潤67 億元（11億美元），每股收益16.6 人民幣（2.60 美元），均高於市場預期。

數據是一片大好，看起來百度正走出低谷期。

這得益於兩個方面，一是組織的優化，百度壯士斷腕，拋棄了不少累贅業務；另外，也是因為在 AI 方面的押注取得了回報。

AI 帶來的盈利，最直接還是體現在了廣告上。陸奇表示這一季度裡，百度首次在廣告系統鳳巢裡，部署了強化學習技術，能實現更精準的營銷。這達到了一個工程上的新里程碑。

強化學習其實不是個新鮮概念了，那麼它具體是乾啥？百度如何用它賺錢的？

真正意義上的自學成才

強化學習是機器學習的一個分支，相對應的是監督學習，還是拿 Alpha Go 舉例：

過去採用監督學習的 Alpha Go，需要輸入大量人類棋手的下法、對弈棋局等數據，然後通過模擬完成“左右互搏”，最終不斷尋得更科學的下法，也就是說，它其實還是在“模仿”人類。

而採取了強化學習的最強版本 Alpha Go Zero 不同，它不需要對著人類的玩法照貓畫虎。了解到基本的規則以及最終要達到的目標後，就開始“隨便下”，如果下贏了，就會得到獎勵，然後指導下一步的決策；如果輸了，就會有懲罰。在這種嘗試——反饋——學習的過程中，完成自我進化。

某種角度來看，強化學習更接近智慧生命體的思維模式。 通過不斷地試錯，獲得來自環境的反饋，從而獲取到更多地知識和數據。

那麼，它能帶來什麼好處呢？顯而易見，一是無需在前期輸入大量的數據，減少準備的時間和成本，畢竟優質的大數據並不是隨時都能獲取的；二是適應性強，它是真正意義上的“完全自學”，幾乎能被應用在任何領域，理論上講，如果算力跟得上，它能解決任何問題。

當然問題也出在這兒，因為完全是“兩眼一抹黑”式的自我探索，所以強化學習的運算量要遠遠超過監督式自我學習；另外，它的過程也完全不可控，失之毫釐謬以千里，所謂“蝴蝶效應”，這導致結果的隨機性太強，容易跑偏。

百度是如何應用的？

說回到百度本身，原理上邊都說了，那麼百度是如何用它優化廣告投放效率的？

如何實現？

百度沒有過多的介紹，不過其實原理也很簡單。在廣告系統中加入強化學習模型，它會實時記錄瀏覽、點擊、轉化等關鍵數據，並通過自我學習對投放進行優化，讓廣告能更精準地匹配到目標客群。

帶來的效果就是，客戶爸爸們的錢能花在刀刃上，花更少的錢，得到更精準的曝光。當然，百度和 Google 們過去一直都是這麼做的，只不過這是技術的有一次升級而已。

為什麼要用強化學習？

就像之前提到的，它的優勢在於：無需在前期就輸入大量數據，直接可以上線，並在線完成學習的過程。

因為對於許多廣告來說，它並沒有太多可以參照的數據，前人雖有成功案例，但時間、平台、目標人群的不同，都會導致過去的經驗沒法直接套用， 監督式的機器學習算法，學無可學。

這時候，強化學習就有用武之地了，它可以分析投放廣告本身的效果，而無需去尋找其他大數據作為參考，即插即用，方便快捷。

據量子位報導，長安汽車就在使用之後發現CTR（點擊通過率）顯著提高，轉化價格明顯降低，於是將每日投放預算提高了5倍。

不過，就像上文提到的，強化學習也有其自身的問題。如何優化模型，使最終結果更快、更可信，是百度要面臨的技術考驗。

就像前Facebook 工程師Jeff Hammerbacher 的那句名言“我們這一代最聰明的人，竟然都在這裡思考著怎樣讓人們去大量的點擊廣告”一樣，百度的技術說得頭頭是道，結果最後還是投廣告的事，肯定免不了被批判一番。

但其實，人類歷史上，任何技術的誕生初衷，都是為了商業服務的，而商業帶來的資本也能反哺技術的迭代。這個過程循環反复，社會和文明自然而然就實現了進步。

競價醫療廣告除外。

*文章為作者獨立觀點，不代表虎嗅網立場

本文由古泉君授權虎嗅網發表，並經虎嗅網編輯。轉載此文章須經作者同意，並請附上出處( 虎嗅網 )及本頁鏈接。原文鏈接https://www.huxiu.com/article/241976.html

未來面前，你我還都是孩子，還不去下載虎嗅App 猛嗅創新！

幫助百度提高廣告收入的“強化學習”，了解一下