化工醫藥原料搜索,用化學加百科專業

導讀

北京時間2019年4月19日,來自北京大學分子設計實驗室的MDL團隊獲得“默克杯”逆合成反應預測大賽的總決賽冠軍。該比賽包括初賽、複賽和總決賽,吸引了來自高校、中國科學院相關研究所和從事人工智能研發的公司和專業人士組成的371支參賽隊伍參加。

跳轉閱讀→北大中科院神仙打架現場!2019 “默克”杯 逆合成反應預測大賽決賽名單出爐

團隊成員領取一等獎獎盃和獎金

在傳統的化學合成研究中,化學家們設計反應路線耗時耗力:需先從目標產物的分子式開始分析,再利用Scifinder等工具搜索相似的結構和文獻報道過的合成路徑,確認需要的試劑和反應條件,甚至要依據自己的化學合成經驗知識制定幾十個化學反應,通過這些反應逐步生成目標產物。傳統的合成路線設計對合成人員化學知識背景要求很高,而一個準確實用的逆合成分析程序,可以大大節省化學家的時間和精力。現有的逆向合成程序中以默克的Synthia表現最爲突出。Synthia所使用的7萬多個化學反應規則數據庫是由人類專家經過長年積累編寫的,數據庫需要耗費很多人力物力進行更新,且不能通過學習來預測新的反應類型。近年來,人工智能(AI)新技術在化學和製藥領域嶄露頭角,也逐漸被用於預測化學反應產物和逆向合成路線分析,有望突破現有逆向合成分析技術的瓶頸。

本次大賽由默克集團(Merck KGaA)旗下默克生命科學主辦、鯨科技(前身科賽)協辦。比賽使用的數據分爲訓練集和測試集兩部分,分別包含609,946和238,282個反應。

北京大學MDL團隊由前沿交叉學科研究院定量生物學中心博士生徐優俊、化學與分子工程學院博士研究生林康傑和北京望石智慧科技有限公司的殷實秋組成。他們利用深度學習方法發展了逆合成反應預測模型DeepRetroReact,通過學習大量的化學反應數據來預測反應物,並基於反應規則預測可能的候選反應物,再對候選的反應物進行打分,選取最佳的反應物組合。MDL團隊使用了最新的自然語言處理技術Transformer作爲核心框架,根據產物和反應物來預測化學反應的反應類型標籤,並考慮了反應式中原子信息特徵以使預測結果更加合理且有效。

林康傑在路演講解中

北京大學化學與分子工程學院來魯華教授和北京大學前沿交叉學科研究院定量生物學中心裴劍鋒研究員是該團隊的指導老師。北京大學分子設計實驗室(MDL)負責人爲來魯華教授,由來自化學與分子工程學院和前沿交叉學科研究院定量生物學中心的教師和研究生及博士後組成,主要研究方向爲藥物設計和蛋白質設計,近年來將人工智能用於化學信息學和藥物設計研究,取得了系列進展。


“默克”逆合成反應預測大賽合照


默克生命科學數據科學家鄒傳新(Robin Zou)表示:

本次大賽是默克結合自身業務,以開放的姿態與國內頂尖高校、企業的人才共同探索 AI 在化學領域的應用。大賽湧現了很多優秀作品,我們共同見證了 AI 前沿技術在化學合成分析上展現出的巨大潛力,也更加期待 AI + Chemistry 技術能在未來更好地融合。


默克生命科學科研解決方案市場部產品經理楊微娜(Weina Yang)表示:

默克生命科學的 Synthia 可以被認爲是在模仿人類化學家的思維模式工作,而且這個化學家的腦容量非常大,但目前尚不具備自我學習能力,無法發現新的有機反應。如果可以結合Al的深度自我學習能力,相信未來可以爲更多目標分子提供更多的創新型策略。


 大賽英雄榜

一等獎

MDL 團隊


二等獎

DDDC 團隊


三等獎

楊lab的六學小分隊

Fudan-Panacea



· 一等獎 ·


MDL 團隊


一等獎由來自北京大學“分子設計實驗室”和北京望石智慧科技有限公司的 MDL 團隊摘得,成員的背景涵蓋化學、化學信息學、藥物信息學與計算機。


他們的作品基於深度學習模型 DeepRetroReact,直接來預測反應物,並基於反應規則來預測可能的候選反應物,再對生成的反應物進行打分,設計策略選取最佳的反應物組合。團隊採用機器翻譯的 Transformer 模型作爲核心架構,根據 product 和 reagent 爲每個反應加上反應類型標籤,並加入了 atom 的信息,確保得到的結果在化學形式上更加合理。


MDL 團隊表示:

首先要感謝隊友進行的模型構建和協作,也非常感謝這次比賽,大賽競爭動力很足,大家也一直在靠團隊的力量解決問題,最後還要感謝老師的支持。

用計算去理解生物和化學的世界,會大幅提升研究效率,如今技術的提升更是讓我們能夠認識化學世界,並對真實行業發展有所改變,也希望有更多和默克一樣有實力和社會責任感的公司開展結合學術和工業生產的探索。



· 二等獎 ·


DDDC 團隊


二等獎由來自中國科學院上海藥物研究所藥物發現與設計中心的 DDDC 團隊摘得。團隊成員長期致力於探索機器學習與人工智能前沿技術在藥物設計方法學及計算機輔助藥物設計中的應用。


DDDC 團隊使用了圖卷積神經網絡,將反應條件作爲信息引入模型指導逆合成預測,使每個原子的特徵編碼存有周圍環境的信息,之後對每一種反應試劑組合進行了可訓練的特徵編碼,再將原子對中兩個原子的特徵及反應試劑特徵整合在一起,對每一種可能的原子對變化的概率進行預測,進而預測出反應物。



· 三等獎 ·


楊lab的六學小分隊


Fudan-Panacea


三等獎楊lab的六學小分隊團隊和 Fudan-Panacea 團隊共同摘得。


楊lab的六學小分隊成員來自中山大學,具備信息技術與科學和生物統計背景;Fudan-Panacea 團隊成員來自復旦大學,具備計算機科學與技術和藥物化學背景。


楊lab的六學小分隊的方案首先對數據進行了標準化,轉化成 SMILES 格式,再構建字典,得到分子向量;在算法模型方面,他們選擇了基於 Attention 的 Encoder - Decoder 模型,增加了 Attention 機制,以期在預測過程中更好地注意到化合物分隔符“."的存在,得到更多的正確的化合物個數。


Fudan-Panacea 團隊設計了基於 Seq2Seq 模型的逆合成反應預測算法,它以 Seq2Seq 模型爲基礎,結合了數據處理、數據編碼以及結果改善等方面的功能創新。該團隊也使用了 Attention 機制,增強模型的精度;同時採用原子編碼的方式,提高訓練速度,並使用 teacher forcing 技術對模型進行訓練,有效加速了 Seq2Seq 模型的收斂速度。




回溯遠古時代,人類便已經開始摸索生命、探索自我。幹細胞治療、基因組療法、精準醫療等近年來興起的新技術,讓人類對生命科學的發展有了新的認識,但它與人工智能的結合依然路漫漫。換個角度來說,這也是孕育新機會的沃土。歷時近三個月的比賽結束了,大賽組委會選擇這一個難度高且冷門的主題時,從未預料到大家的似火熱情,而選手們也交出了這份令人驚喜的答卷,我們有理由相信,人工智能與生命科學的未來將會在你們手中熠熠生輝。



來源 | 北京大學新聞網、默克生命科學微電商

 入駐化學加網快速通道,將與微信小程序同步展示 

2萬多家化工醫藥企業已入駐 

(長按識別二維碼立即註冊入駐)

投稿分享 | 轉載聯繫  | 廣告推廣 | 商務合作 

聯繫化學加編輯部 :18676881059(手機/微信

郵箱:[email protected]

拓展閱讀


更多精彩,關注本號後,點擊菜單欄或回覆字母查看

回覆 VNature/Science    回覆 W有機化學

回覆 T科研動態    回覆 i美麗化學

回覆 P化工應用    回覆 L科普知識

回覆 C漫畫化學    回覆 D化學趣史

回覆 F化學視頻    回覆 Z科技名人


相關文章