机器学习如何大展手脚,更有效地协助医药研

                            

机器之心

机器之心分析师网络

作者:仵冀颖

编辑:JoniZhong

数月以来,COVID-19病毒在全球范围内肆虐。建立在数十年来对冠状病毒家族特征的基础研究之上,科学界对最近的COVID-19病毒爆发作出了快速反应,众多前沿实验室开放共享关于病毒的基因组数据库,从而使得研究人员能够快速开展针对这种新病原体的测试。本文以DeepMind开发的AlphaFoldSystem为引子,探讨了机器学习领域的一个专门方向,即如何利用机器学习协助药物开发。希望为有志于此的读者提供一份参考性指南。

最近,Deepmind发布了利用其基于机器学习的AlphaFoldSystem所实现的与引起COVID-19的病毒有关的蛋白质结构的预测结果[25][26]。DeepMind强调,这些结构预测尚未得到实验验证,但希望它们能有助于科学界解释病毒是如何发挥作用的,以及为今后开展治疗学的实验工作提供一个假设的生成平台。我们知道,了解病毒的蛋白质结构是了解其功能的重要资源,但受限于复杂的蛋白质结构和实验流程,确定蛋白质结构的实验可能需要数月或更长的时间。为此,研究人员一直在开发从氨基酸序列预测蛋白质结构的计算方法。

这次,DeepMind的工作(AlphaFold)是在没有类似蛋白质的结构可用时,利用称为「自由模型」的机器学习模型精确预测蛋白质结构。一般情况下,研究人员会等到披露具体研究方法的文章被学术期刊同行评议后再公布方法或模型。然而,考虑到COVID-19的潜在严重性和时间敏感性,DeepMind在一个开放的许可证下提前发布了预测结构,以便任何人都可以利用它们开展相关科学研究。

在这篇文章中,我们并不具体分析AlphaFold的结构和应用,感兴趣的读者可以阅读我们机器之心相关的资料。在DeepMind这项工作的启发下,本文探讨机器学习的一个专门的应用方向,即「如何利用机器学习协助药物研发」。实际上,在药物发现领域,近年来,机器学习技术已经实现了一定程度的应用,例如预测药物早期阶段的分子特性等。我们一起来在这篇文章中对主要的应用情况进行回顾,主要内容参考了三篇综述的文章[27][28][32]。

一、应用于药物研发的机器学习方法概览

得益于强大的CPU和GPU硬件,深度神经网络(DNNs)在药物发现中的应用非常广泛,包括生物化合物活性预测、化学结构设计、合成预测等,这其中不同的DNN结构,包括经典的卷积神经网络CNNs、循环神经网络RNN、长短期记忆神经网络LSTM、深度自编码神经网络DAEN、生成性对抗网络GAN等都被应用在不同的药物发现任务中。

应用于药物发现领域中的机器学习的工作是由至少80%的数据处理和清理以及20%的算法应用组成的,数据处理所占的比例远高于其它机器学习的应用任务。因此,机器学习在药物发现领域的应用效果取决于高质量的大量数据的可用性,训练数据需要准确、有组织性和尽可能完整,以便最大限度地提高可预测性。实验设计通常涉及到对理想样本大小的讨论和正确估计该参数的适当功率计算。在训练数据系统性好、标注质量高、噪声小的情况下,机器学习方法往往能在药物发现应用中获得很好的效果。

二、应用领域分析

在本小节中,我们选取了几个应用机器学习算法的药物研发领域进行介绍。

1、化合物活性预测

包括人工神经网络在内的机器学习方法在药物研发的化合物活性预测中应用已久。具体来说,化合物的活性直接反映在它的分子描述符(moleculardescriptors),因此可以使用DNN进行建模来预测活性。Dahl等在Merck-Kagglechallenge数据库上针对二维拓扑描述符使用DNN获得了较好的效果[1],Dahl的实验发现:(i)DNNs可以处理数千个药物相关的描述符。由于DNN的特性,无需进行预先的特征选择。(ii)使用dropout可以避免传统人工神经网络存在的过度拟合问题。(iii)对超参数(层数、每层节点数、激活函数类型等)进行优化调整可以改进DNN性能。(iv)多任务DNN模型的性能优于单任务模型。Mayr等提出了一种多任务DNN[2],该多任务DNN同样使用了dropout和ReLU激活函数,同时基于GPU实现了并行计算,大大提升了计算速度。他们使用一个带有静态描述符(对于预定义毒物的3D,2D描述符)和动态生成的扩展连接指纹描述符(extendedconnectivityfingerprintdescriptors,ECFP)的大特征集,使DNN能够在训练期间进行自我特征推断,此外,利用ECFP对DNN模型进行统计关联分析,可以识别出与各隐层已知毒物显著相关的亚结构。

另一类用于化合物活性预测的方法是图卷积模型(graphconvolutionmodels),其基本思想是利用神经网络NNs自动生成一个分子描述向量,通过训练NN来学习向量值。受Morgan的圆形指纹方法(circularfingerprintmethod)启发[31],Duvenaud等人提出了神经指纹方法(neuralfingerprintmethod),通过引入图卷积模型将神经指纹作为分子描述向量,该方法的工作流程如图1所示[3]。首先,读取2D分子结构以形成状态矩阵,其中包含每个原子的原子和键信息(基于与原子相连的键)。然后,状态矩阵通过单层神经网络进行卷积运算,生成固定长度的矢量作为分子表示。通过考虑相邻原子的贡献,卷积运算可以在不同的层级上进行,这相当于在不同的相邻层级上的圆形指纹。由不同卷积运算产生的向量首先经过一个softmax变换,然后求和形成化合物的最终载体,它是编码分子水平信息的神经指纹。神经指纹通过另一个全连接的神经网络层来产生最终的输出。神经指纹中的比特值是通过训练学习的,并且是可微的。

图1:图卷积神经网络(GCNNs)图解。

2、预测反应和逆合成分析

在该领域中,两类问题可以通过机器学习来解决。一种是正向反应预测(forwardreactionprediction),即在给定一组反应物的情况下预测产物;另一种是逆向合成预测(retrosyntheticprediction),即在给定最终产物的情况下,预测生成产物的反应步骤。如图2,从机器学习本质上,逆向合成和反应预测所需要的是在可能的几十条或数百条匹配规则中选择正确的规则。

图2:预测反映和逆向合成挑战。

Coley等人利用神经网络对15,个反应的训练库中的一组反应的候选产品进行排序,这些候选产品来自于美国专利。将产生的不同反应划分为模板,训练后的模型对于主要产品等级为1的情况实现了71.8%的正确分类,对于主要产品等级为3的情况实现了86.7%的正确分类,而对于主要产品等级为5的情况实现了90.8%的正确分类。为了克服经典基于模板的反应预测方法(template-based)所面临的覆盖率和效率问题,在同一研究组的后续研究中提出了一种无模板的方法。他们使用Weisfeiler-Lehman差分网络对生成的候选反应进行评分,与之前基于反应模板的方法相比,获得了更好的性能[30]。Liu等人使用神经序列到序列模型进行反向合成预测,他们使用从美国专利获得的50,个反应来训练网络,并获得与基于规则的方法相似的精度[29]。

在另一项工作中,Segler等人将策略网络和蒙特卡罗树搜索相结合,以实现逆向合成。具体来说,研究人员利用由万科学文献反应组成的训练库进行预测的[6]。为了自动提取规则,Segler等人使用了Reaxys数据库(约万个反应和约30万条规则),并执行了蒙特卡罗树搜索(MonteCarlotreesearch,MCTS),以结合DNN对树节点进行评分,以将搜索引导到最有希望的概率反应方向。该方法可以完成与经典基于规则的方法(rule-based)相比约两倍的分子逆向合成计划。在定量分析中,该方法优于黄金标准,即最佳优先搜索,并且可以有两种不同的实现方式(启发式方法和神经网络)。此外,对于几乎三分之二的被检查的分子,MCTS比传统的计算机辅助搜索方法快30倍。定性测试也是在一项双盲研究中进行的。有机化学家被要求在基于文献的合成路线和预测的合成路线之间进行选择,而不知道路线是如何获得的。在这里,所访问的化学家们认为预测路线的质量平均而言与文献中的路线一样好。该方法的流程如图3所示,其中,使用的机器学习方法是DNN。

图3:神经符号方法流程示例。

3、药物靶点识别和验证

开发药物(小分子、肽、抗体或包括短RNAs或细胞疗法在内的新模式)是药物研发领域中最重要的任务,其目的是开发出能通过调节分子靶点的活性来改变疾病状态的药物,即通过靶点的调节实现对疾病状态的调节。首先,根据现有医学证据确定靶点,之后,使用生理相关的体内外模型来验证所选靶点在疾病中的作用(靶点验证)。早期靶点确认对于将研发精力集中在可能成功的项目上是至关重要的。

机器学习的方法可用于分析具有假定目标函数信息的大型数据库以预测潜在因果关系,目前,机器学习已经以这种方式应用于靶点识别的几个方面。Costa等人构建了一个基于决策树的元分类器[7],该分类器训练了蛋白质-蛋白质、代谢和转录相互作用的网络拓扑,以及组织表达和亚细胞定位,目的是预测与发病率相关的基因,而这些基因可用于药物治疗。通过对决策树的研究,他们将多转录因子(transcriptionfactors,TFs)、代谢途径的中心性和细胞外定位确定为关键的分类特征。Jeon等人建立了一个支持向量机(SVM)分类器,使用各种基因组数据集将蛋白质分类为乳腺癌、胰腺癌和卵巢癌的药物靶点和非药物靶点。主要分类特征为基因必要性、mRNA表达、DNA拷贝数、突变发生率和蛋白质相互作用网络拓扑结构[8]。

文献是了解靶点与疾病关联的主要来源。自然语言处理(NLP)是一种应用于文本挖掘的机器学习方法,基于NLP的最新进展,数据挖掘能够更有效地识别相关论文。BeFree等应用NLP核方法识别Medline摘要中的药物-疾病、基因-疾病和靶向药物关联[9]。这种监督学习方法依赖于人工标注的欧盟药品不良反应(EU-ADR)关系数据库语料库和基于遗传关联数据库的半自动标注语料库。

Medline是美国国立医学图书馆生产的国际性综合生物医学信息书目数据库,是当前国际上最权威的生物医学文献数据库。内容包括美国《医学索引》(IndexMedicus,IM)的全部内容和《牙科文献索引》(IndextoDentalLiterature)、《国际护理索引》(InternationalNursingIndex)的部分内容,涉及基础医学、临床医学、环境医学、营养卫生、职业病学、卫生管理、医疗保健、微生物、药学、社会医学等等领域。

了解剪接信号(splicingsignals)的遗传变异能够找到替代模式或新靶点来确定治疗时机。最新的机器学习集成剪接模型将剪接因子在体内结合的CLiP-seq分析数据与这些剪接因子被敲除或过度表达的RNA测序实验结合起来[10],结合剪接编码模型和对从头开始和复杂剪接变化的预测,可以识别特定于阿尔茨海默病的剪接变体[11]。

机器学习还可以预测肿瘤特异性药物效应。Iorio等从种抗癌药物中筛选了株癌细胞株,研究了全基因组基因表达、DNA甲基化、基因拷贝数和体细胞突变数据对药物反应的影响[12]。他们使用方差分析、逻辑模型和机器学习算法(弹性网络回归和随机森林)来识别预测药物反应的分子特征。癌症类型中最具预测性的数据类型是基因表达,而最具预测性的癌症特异性模型包括基因组特征(驱动基因突变或拷贝数改变),如果包括DNA甲基化数据,则效果更好。

对药物开发人员来说,另一个重要的问题是一种药物有多大可能被用于任何给定的靶点。对于小分子药物来说,这就需要识别出具有表明这些蛋白质可以结合小分子的特征。一些研究从已知药物和非药物靶点的蛋白质序列中获得了各种物理化学性质,并将SVM或有偏SVM与叠层自编码(stackedautoencoders,一种深度学习模型)一起应用于预测药物靶点[13]。这些机器学习方法的例子生成了一组预期可能与药物结合的靶点,从而减少了潜在的搜索空间,当然,这些靶点仍需要进一步的验证。

4、小分子设计与优化

发现能够阻断或激活感兴趣的目标蛋白的候选药物涉及对大型化合物文库进行广泛的虚拟和实验性的高通量筛选。然后进一步提纯和修饰候选结构,以提高靶标专一性和选择性,同时优化药效学、药代动力学和毒理学特性。然而,由于缺乏足够的高质量的新化学数据,如蛋白质水解靶向分裂(PROTAC)和大环,可能会限制应用机器学习方法对这些化学的影响。

当推断小分子的性质和活性时,DNNs可以显著提高预测能力[14]。单样本学习(one-shotlearning)技术可以用来减少在新的实验装置中对分子读数进行有意义的预测所需的数据量。结合机器学习和马尔可夫状态模型,这项技术被用来鉴定以前未知的阿片剂与μ阿片受体结合的机制,揭示了参与其激活的变构位点[15]。

机器学习在化学信息学、药物研发中的另一个有趣的应用是通过NNs产生新的化学结构。GomezBombarelli等人提出了一种利用变分自动编码器(VAE)生成化学结构的新方法(图4)。第一步是使用VAE进行无监督学习将ZINC数据库中的化学结构(SMILES符串)映射到潜在空间。当VAE训练完成,潜在空间中的潜在向量就成为分子结构的连续表示,并且可以通过训练后的VAE可逆地转化为SMILES符串。通过任何一种优化方法(如贝叶斯优化)在连续的潜在空间中搜索最优的潜在解,然后将搜索到的潜在解解码成SMILES符串,就可以生成具有期望性能的新结构。

图4:变分自动编码器(VAE)方法的说明。

基于Kaggle社区的竞赛在推动药物研发领域的方法开发也有着积极的意义。默克夏普(MerckSharp)的研究人员组织了一项Kaggle比赛(


转载请注明:http://www.deepagri.com/nj/19138.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了