歡迎光臨
我們一直在努力

化學界誕生了一個“AlphaGo”,居然來自中國,對製藥業影響深遠

2018年3月29日,國際頂尖學術期刊Nature在線發表了上海大學教授Mark P. Waller團隊利用深度學習的逆向合成路線設計藥物的研究論文。

 

我和Mark曾在藥明康德的小型會議上有過交流,知道他的工作早在一年前已發佈在預印本arXiv上,現在終於正式發表,表示祝賀。 該工作是Nature雜誌繼2016年發表的基於機器學習技術進行晶體製備策略預測的封面文章之後[1],再次發表的一項基於人工智能技術進行藥物自動化開發的研究成果。 基於AI加速藥物研發,正越來越受到業內廣泛的關注。

 

相比於《自然》雜誌2016年發表的晶體合成反應預測工作,本次工作關注於計算機輔助的合成設計,其核心又被稱為反合成分析。

 

反合成分析可認為是小分子正向反應預測的逆過程。 有機合成大師埃里亞斯·科里於20世紀60年代首次提出反合成設計的思想,並據此設計了第一個初步實現CASP的軟件LHASA。 1990年,科里教授由此獲得了諾貝爾化學獎。

 

實現反合成分析有兩個關鍵點:

1)對有機化學反應的深刻了解,即規則的掌握;

2)基於這些規則,對目標分子進行遞歸式拆分,最終獲得易得原料,即路線的設計。

傳統的CASP通常是基於規則的專家系統,這些規則可人為地進行編碼或者從數據庫中用算法進行自動提取,而路線的設計則主要依賴於啟發式算法評估拆分的合理性。 傳統反合成分析方法存在著諸多問題制約其廣泛應用,包括泛化能力差、缺乏化學合理性等,常令合成化學家望而卻步。

 

在這項研究工作中,Waller團隊將深度神經網絡及強化學習等概念整合至一個通用的架構中,提出了採用三種不同的神經網絡結合蒙特卡洛樹搜索的算法框架。 這三種神經網絡分別為:

拓展策略網絡 ——用來搜索當前位置可能存在的單步逆向化學變換路徑;

篩選網絡 ——用來對反應的可行性做出判斷;

展示策略網絡 ——用來在展示步驟中應用多次採樣方法對搜索節點進行定量評價。

該工作相對於傳統基於規則的反合成設計來說,大量借鑒了深度神經網絡及強化學習的思想 ,是對傳統方法的一次重要的改進,這也是該工作能夠發表於Nature的原因之一。

 

蒙特卡洛樹搜索是逆合成路線規劃的核心框架,分成四個步驟:選擇、拓展、展示、更新。 其中:拓展策略網絡與篩選網絡組成一個流水線,應用在拓展步驟;展示策略網絡則應用在展示步驟。 這四個步驟中,選擇和拓展步驟非常容易理解,即首先選擇當前最適合拓展的化合物節點,進行可能的合成策略預測。

其中拓展策略網絡是基於深度神經網絡進行合成策略預測,篩選網絡是將前一步預測的合成策略進一步進行可行性判定。 展示和更新步驟的核心思想為馬爾可夫決策過程 ,我們可將該過程類比於機器下棋,機器在展示步驟並不做真正的分支延展,而是通過反复的採樣對局來探索可能的狀態空間。

 

所不同的是,在逆合成分析中,機器並沒有對手,其探索結束的標準也不是輸贏,而是探索所獲得的所有合成原料均可歸屬於事先定義好的一個易得原料集合,在文中 被稱之為All molecules are solved,或探索達到了事先定義的樹最大深度值。 其展示的過程將依次從展示策略網絡預測的rollout rules中進行選擇,同時探索結束後將根據不同的探索結果獲得不同的反饋。 在更新步驟中,將根據展示步驟的多次模擬,進行通過節點的訪問次數計數以及位置權重更新。 直觀來說,模擬過程中訪問次數越多的節點,其位置權重越大,那麼在下一次探索中也就更可能被訪問,這個過程可以用一句俗語總結: “世上本無路,走的人多 了,也就成了路!”,這也是MCTS核心思想的一種體現。

 

如果讀者對於DeepMind的AlphaGO有所了解的話,一定會驚奇的發現,該工作的四個步驟,可類比於AlphaGO一文中所提出的四個步驟。 2016年,DeepMind團隊在Nature雜誌發表AlphaGO研究成果[2],其升級版本AlphaGOZero以封面文章形式於2017年在Nature雜誌發表[3]。 頂級雜誌連續三年發表四篇AI的應用,並且兩次均為封面文章,說明AI技術的應用受到了極大的關注。

 

3N-MCTS的驗證以2015年之前發布的化學反應作為訓練數據,以2015年之後發布的化學反應作為測試數據。 在雙盲AB測試中,來自中國和德國的45位有機化學家對9個不同目標分子的文獻報導的合成路線和3N-MCTS生成的合成路線進行判斷,有57%的化學家選擇3N-MCTS 生成的路線,43%的化學家選擇了文獻報導路線,並且雙方沒有選擇上的統計顯著性差異,表明3N-MCTS生成合成路線的水平與文獻報導路線水平相當。 同時在對於3N-MCTS生成的合成路線和廣度優先搜索生成的合成路線的比較中,受試科學家顯著傾向於選擇前者,表明3N-MCTS生成合成路線的水平顯著優於BFS的基線水平。

 

最後,Waller團隊進一步論證了上述四個步驟對反合成分析整體性能的提升均有貢獻,這一點上,大家也可以類比於AlphaGO一文進行理解。

 

此次,Waller團隊的研究成果是當前化學合成領域的一個重要的突破,對於化合物合成特別是藥物合成具有重要的意義。 目前,計算機輔助化合物逆向合成主要有兩種解決方案:

1)基於人工規則的逆向合成路線設計,這種方案目前的典型代表為韓國蔚山國立科學技術研究所Bartosz Grzybowski教授團隊開發的Chematica系統,該系統遵循50000條有機合成規則並基於這些合成規則進行合成 路線的設計;

2)基於深度學習的逆向合成路線設計,Waller團隊的3N-MCTS算法框架即為該方案的典型代表。

 

縱觀3N-MCTS的整個設計方案,和AlphaGo的整體思路非常類似,均採用了深度神經網絡+蒙特卡洛樹的實現方式,將合成路徑的選擇類比於圍棋對弈中落子路徑的選擇。 這種方法值得肯定,也取得了令人滿意的結果。 最後我對該工作做一個總結和展望:

 

首先 ,該工作能發表在Nature雜誌,可以說既是“意外”, 又“驚喜”。 “意外”係指其整個設計框架借鑒於AlphaGO, 故可能從方法學角度來說並未做實質性的創新;“驚喜”係指該工作做了一個非常巧妙的類比和應用,嘗試解決化學合成 領域的一個重要的問題,並取得了理想的結果,對該領域產生了重要的貢獻。

 

其次 ,3N-MCTS的整個方案基於深度神經網絡構建,故需要大量的高質量標記樣本進行訓練。 而化學合成反應的標記樣本並不容易獲得。 該工作所用的訓練樣本均來自於Reaxys數據庫,該數據庫是商業數據庫,不可公開獲取。 進一步擴充相關的化學反應標記數據,將能夠獲得更好的預測效果。

 

再者 ,前述所說的篩選網絡是一個二分類的深度神經網絡,它基於數據庫中的陽性數據和陰性數據進行訓練。 而數據庫中的陽性數據遠多於陰性數據。 為了解決這個問題, Waller團隊採用了data sampling 和data augmentation的方法進行負樣本生成,但並不能夠窮盡所有的陰性數據,並且陰性樣本的選擇和生成將對整個系統的預測性能產生重要的影響, 這一點值得未來進行系統的討論。

 

最後 ,目前其輸入化合物預測的編碼均採用基於Smile格式的ECFP4指紋編碼,該指紋編碼維度很高,易造成過擬合,未來的方向可以考慮進一步嘗試其他的化合物編碼方式進行預測。 Waller團隊也提到其目前的模型基於已有的訓練數據,對某些特定反應機理、三維結構或互變異構體對複雜化合物合成的影響還無法考慮,在復雜天然產物的逆合成以及立體 化學選擇性預測方面有很大改進空間。 同時,目前的方法只提供了可能的設計路線,而對反應的條件還無法做出準確的預測。

 

總體來說, Waller團隊的工作是基於AI對於藥物逆合成路線設計的一次有益嘗試,同時也存在諸多改進空間。 另外,我們注意到該文的第二作者Mike Preuss來自於英國BenevolentAI公司,該公司目前是也已基於AI進行藥物研發的獨角獸公司, 說明學術界和工業界均對於AI加速新藥研發產生了 關注。 我們期待未來AI技術在該領域再次獲得激動人心的研究成果。

*文章為作者獨立觀點,不代表虎嗅網立場

本文由 知識分子 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文章須經作者同意,並請附上出處( 虎嗅網 )及本頁鏈接。 原文鏈接https://www.huxiu.com/article/240697.html
未來面前,你我還都是孩子,還不去下載 虎嗅App 猛嗅創新!

未經允許不得轉載:頭條楓林網 » 化學界誕生了一個“AlphaGo”,居然來自中國,對製藥業影響深遠