北大分子設計實驗室博士生團隊在“默克杯”逆合成反應預測比賽中奪冠

化工醫藥原料搜索，用化學加百科專業

導讀

北京時間2019年4月19日，來自北京大學分子設計實驗室的MDL團隊獲得“默克杯”逆合成反應預測大賽的總決賽冠軍。該比賽包括初賽、複賽和總決賽，吸引了來自高校、中國科學院相關研究所和從事人工智能研發的公司和專業人士組成的371支參賽隊伍參加。

跳轉閱讀→北大中科院神仙打架現場！2019 “默克”杯逆合成反應預測大賽決賽名單出爐

團隊成員領取一等獎獎盃和獎金

在傳統的化學合成研究中，化學家們設計反應路線耗時耗力：需先從目標產物的分子式開始分析，再利用Scifinder等工具搜索相似的結構和文獻報道過的合成路徑，確認需要的試劑和反應條件，甚至要依據自己的化學合成經驗知識制定幾十個化學反應，通過這些反應逐步生成目標產物。傳統的合成路線設計對合成人員化學知識背景要求很高，而一個準確實用的逆合成分析程序，可以大大節省化學家的時間和精力。現有的逆向合成程序中以默克的Synthia表現最爲突出。Synthia所使用的7萬多個化學反應規則數據庫是由人類專家經過長年積累編寫的，數據庫需要耗費很多人力物力進行更新，且不能通過學習來預測新的反應類型。近年來，人工智能（AI）新技術在化學和製藥領域嶄露頭角，也逐漸被用於預測化學反應產物和逆向合成路線分析，有望突破現有逆向合成分析技術的瓶頸。

本次大賽由默克集團（Merck KGaA）旗下默克生命科學主辦、鯨科技（前身科賽）協辦。比賽使用的數據分爲訓練集和測試集兩部分，分別包含609,946和238,282個反應。

北京大學MDL團隊由前沿交叉學科研究院定量生物學中心博士生徐優俊、化學與分子工程學院博士研究生林康傑和北京望石智慧科技有限公司的殷實秋組成。他們利用深度學習方法發展了逆合成反應預測模型DeepRetroReact，通過學習大量的化學反應數據來預測反應物，並基於反應規則預測可能的候選反應物，再對候選的反應物進行打分，選取最佳的反應物組合。MDL團隊使用了最新的自然語言處理技術Transformer作爲核心框架，根據產物和反應物來預測化學反應的反應類型標籤，並考慮了反應式中原子信息特徵以使預測結果更加合理且有效。

林康傑在路演講解中

北京大學化學與分子工程學院來魯華教授和北京大學前沿交叉學科研究院定量生物學中心裴劍鋒研究員是該團隊的指導老師。北京大學分子設計實驗室（MDL）負責人爲來魯華教授，由來自化學與分子工程學院和前沿交叉學科研究院定量生物學中心的教師和研究生及博士後組成，主要研究方向爲藥物設計和蛋白質設計，近年來將人工智能用於化學信息學和藥物設計研究，取得了系列進展。

“默克”逆合成反應預測大賽合照

默克生命科學數據科學家鄒傳新(Robin Zou)表示：

本次大賽是默克結合自身業務，以開放的姿態與國內頂尖高校、企業的人才共同探索 AI 在化學領域的應用。大賽湧現了很多優秀作品，我們共同見證了 AI 前沿技術在化學合成分析上展現出的巨大潛力，也更加期待 AI + Chemistry 技術能在未來更好地融合。

默克生命科學科研解決方案市場部產品經理楊微娜(Weina Yang)表示：

默克生命科學的 Synthia 可以被認爲是在模仿人類化學家的思維模式工作，而且這個化學家的腦容量非常大，但目前尚不具備自我學習能力，無法發現新的有機反應。如果可以結合Al的深度自我學習能力，相信未來可以爲更多目標分子提供更多的創新型策略。

大賽英雄榜

一等獎

MDL 團隊

二等獎

DDDC 團隊

三等獎

楊lab的六學小分隊

Fudan-Panacea

· 一等獎 ·

MDL 團隊

一等獎由來自北京大學“分子設計實驗室”和北京望石智慧科技有限公司的 MDL 團隊摘得，成員的背景涵蓋化學、化學信息學、藥物信息學與計算機。

他們的作品基於深度學習模型 DeepRetroReact，直接來預測反應物，並基於反應規則來預測可能的候選反應物，再對生成的反應物進行打分，設計策略選取最佳的反應物組合。團隊採用機器翻譯的 Transformer 模型作爲核心架構，根據 product 和 reagent 爲每個反應加上反應類型標籤，並加入了 atom 的信息，確保得到的結果在化學形式上更加合理。

MDL 團隊表示：

首先要感謝隊友進行的模型構建和協作，也非常感謝這次比賽，大賽競爭動力很足，大家也一直在靠團隊的力量解決問題，最後還要感謝老師的支持。
用計算去理解生物和化學的世界，會大幅提升研究效率，如今技術的提升更是讓我們能夠認識化學世界，並對真實行業發展有所改變，也希望有更多和默克一樣有實力和社會責任感的公司開展結合學術和工業生產的探索。

· 二等獎 ·

DDDC 團隊

二等獎由來自中國科學院上海藥物研究所藥物發現與設計中心的 DDDC 團隊摘得。團隊成員長期致力於探索機器學習與人工智能前沿技術在藥物設計方法學及計算機輔助藥物設計中的應用。

DDDC 團隊使用了圖卷積神經網絡，將反應條件作爲信息引入模型指導逆合成預測，使每個原子的特徵編碼存有周圍環境的信息，之後對每一種反應試劑組合進行了可訓練的特徵編碼，再將原子對中兩個原子的特徵及反應試劑特徵整合在一起，對每一種可能的原子對變化的概率進行預測，進而預測出反應物。

· 三等獎 ·

楊lab的六學小分隊

Fudan-Panacea

三等獎由楊lab的六學小分隊團隊和 Fudan-Panacea 團隊共同摘得。

楊lab的六學小分隊成員來自中山大學，具備信息技術與科學和生物統計背景；Fudan-Panacea 團隊成員來自復旦大學，具備計算機科學與技術和藥物化學背景。

楊lab的六學小分隊的方案首先對數據進行了標準化，轉化成 SMILES 格式，再構建字典，得到分子向量；在算法模型方面，他們選擇了基於 Attention 的 Encoder - Decoder 模型，增加了 Attention 機制，以期在預測過程中更好地注意到化合物分隔符“."的存在，得到更多的正確的化合物個數。

Fudan-Panacea 團隊設計了基於 Seq2Seq 模型的逆合成反應預測算法，它以 Seq2Seq 模型爲基礎，結合了數據處理、數據編碼以及結果改善等方面的功能創新。該團隊也使用了 Attention 機制，增強模型的精度；同時採用原子編碼的方式，提高訓練速度，並使用 teacher forcing 技術對模型進行訓練，有效加速了 Seq2Seq 模型的收斂速度。

回溯遠古時代，人類便已經開始摸索生命、探索自我。幹細胞治療、基因組療法、精準醫療等近年來興起的新技術，讓人類對生命科學的發展有了新的認識，但它與人工智能的結合依然路漫漫。換個角度來說，這也是孕育新機會的沃土。歷時近三個月的比賽結束了，大賽組委會選擇這一個難度高且冷門的主題時，從未預料到大家的似火熱情，而選手們也交出了這份令人驚喜的答卷，我們有理由相信，人工智能與生命科學的未來將會在你們手中熠熠生輝。

來源 | 北京大學新聞網、默克生命科學微電商

入駐化學加網快速通道，將與微信小程序同步展示

2萬多家化工醫藥企業已入駐

（長按識別二維碼立即註冊入駐）

投稿分享 | 轉載聯繫 | 廣告推廣 | 商務合作

聯繫化學加編輯部 :18676881059（手機/微信）

郵箱：[email protected]

拓展閱讀

更多精彩，關注本號後，點擊菜單欄或回覆字母查看

回覆 V：Nature/Science 回覆 W：有機化學

回覆 T：科研動態回覆 i：美麗化學

回覆 P：化工應用回覆 L：科普知識

回覆 C：漫畫化學回覆 D：化學趣史

回覆 F：化學視頻回覆 Z：科技名人

北大分子設計實驗室博士生團隊在“默克杯”逆合成反應預測比賽中奪冠

熱門新聞

週熱門

北大分子設計實驗室博士生團隊在“默克杯”逆合成反應預測比賽中奪冠

赤峯教師招聘，模考大賽敖漢站，重磅來襲！

“各盡所能，展教師風采”教師專業技能大賽【東方劍橋幼兒園開平海倫堡校區】

【公告】2019廣東教師大公告！招聘崗位有哪些？

成都教師招聘| 成都天府國際生物城諾博幼兒園教師招聘

【深圳教育】任正非：一個國家的強盛，是在小學教師的講臺上完成的

教師招聘：近代中國教育學的“四大學制”

溫州教師招聘大公告！！龍灣區招聘160人！

關於教師資格證的十大謠言，總有一條你信過！

教師招聘1200題，備考大禮包，免費領取！

職業技術學院、政府購崗教師、農商行...大駐馬多地招聘，找工作的速看

近22萬人參加考試，難怪山東教師招聘競爭那麼大！

樸新瀋陽學校各大校區招聘（教師/職能崗）

【乾貨】2019教師招聘考試面試通關十大技巧！

大美育人 與你同行——鳳鳴山小學教師招聘通知

我校教師在“滬江醫教杯”上海市高校教師心理知識大賽中獲獎

熱門新聞

週熱門

大美育人與你同行——鳳鳴山小學教師招聘通知