3机器学习方法 (machine learning)
机器学习方法主要分为监督学习和非监督学习2种模式。非监督学习[29]是只有输入数据,没有对应的输出数据,因此只能针对输入数据分析和构建模型,例如主成分分析。监督学习[30]是利用已知的输入数据与对应的输出数据产生函数,对新的输入数据使用该函数可以获得预测的输出数据。常用的监督学习模式包括: 贝叶斯法(Bayes法)、支持向量机(support vector machine,SVM法)、神经网络 (artificialneutral networks,ANN or NN)、决策树(decision tree)、K最近邻法(K-nearest neighbor,KNN法)、向 量 空 间 模 型 (vectorspace model,VSM法) 等,以及从而衍生出来的各种方法。基于机器学习算法的靶标预测包括基于配体相似性和药物-靶点间的相互作用进行预测,基于配体相似性将受体分成几个类别,然后对每个靶点类别收集已知的配体建立预测模型,对新的化合物是否可能成为这类靶点的药物进行预测。基于药物-靶点间的相互作用进行靶标预测通过计算小分子与靶点蛋白的描述符,整合成描述配体-受体复合物的组合描述符来进行靶标预测。
李梢等[31]采用网络药理学的方法对六味地黄丸治疗多种疾病的分子机制进行探讨,从Her Bio Map和TCMDatabase@ Taiwan数据库收集方中的化学成分,随后基于化学空间和类药性进行化合物初筛,并用drug CIPHER软件进行靶标预测,构建药物-靶点-通路-疾病及蛋白质相互作用网络(PPI)。网络分析结果表明六味地黄丸主要作用于内分泌、免疫系统相关的通路例如PPAR信号通路等,来治疗骨质疏松症、关节炎等与阴虚症相关的疾病,且能够治疗食道癌、结肠癌等其他类型的疾病。该研究不仅仅阐释了六味地黄丸传统药用功能的分子机制,而且还为老药新用提供依据。drug CI-PHER[32]是李梢课题组开发的靶标预测工具,包括3个线性回归模型drug CIPHER-TS,drug CIPHER-CS,drug CIPHER-MS,即药物治疗相似性(TS)、化学结构相似性(CS) 以及多种相似性信息综合的相似性(MS)。
本课题组[33]搜集了KEGG数据库中小分子药物及其酶、离子通道、G蛋白、核蛋白等4类药靶数据作为训练集,建立基于随机森林法的药物-靶点相互作用模型,利用该模型对川芎26个化学成分进行靶点预测,并构建其成分-靶点-心脑血管疾病网络,所得结果得到了较好的文献验证,从网络的角度揭示了川芎治疗心脑血管疾病的分子机制。程翼宇等[34]根据1 401个美国FDA批准上市药物的分子结构及其相应靶点数据,采用随机森林法建立靶点预测模型,并据此构建及分析附子多成分-多靶点网络,预测出附子的22个化学成分,预测出多个作用靶点,且预测结果得到了文献数据印证。
面对近年快速发展的中药化合物数据库及靶标数据库,机器学习算法以其高准确率及高通量等优势吸引了大量注意力,并被广泛应用到网络药理学研究中。但它的缺点也是显而易见的。机器学习的建模过程是盲目而隐式的,因此无法直接地发现靶标蛋白与化合物之间的相互结合模式。训练模型采用的数据集必须含有精确的注释信息,即要求小分子与靶点有明确的对应关系且靶点命名需要标准化,因此普通的化合物数据库并不适用。且这类方法可能仅仅关注某些蛋白质家族的受体空间或者局限于仅仅使用特定的药物的化合物空间的限制,对非该空间的药物和靶标预测效果并不理想。
4组合应用的靶标筛选
如前所述,无论是化学相似性搜索、药效团模型、分子对接、还是机器学习算法等,都存在不同的问题。因此将多个技术进行组合应用,逐渐成为一种趋势[35].化学相似性搜索和药效团模型具有快速高效等优势,但精度不高。机器学习方法则很难直观地发现蛋白与配体之间相关性,且难以做到定量预测等。因此一般将这3种方法联合应用于初筛,能够快速地在庞大的靶标数据库中找出可能的药物靶点。而分子对接尽管精度较高,但耗用计算资源较多,且所需的准备工作以及对软件的操作都较为繁琐,这些都限制了分子对接的大规模应用,因此一般作为复筛方法对初筛获得的靶标进行确认,这样既能提高虚拟筛选的速度,又能保证其精度,是一种优势互补的药物-靶标筛选策略。
Tao等[36]结合类药性分析,口服生物利用度预测对收集的复方郁金方中化学成分进行初筛,随后采用随机森林和支持向量机算法将Drugbank数据库包含的6 511个化合物和3 987个蛋白质的数据集作为标准数据集进行训练,并将此模型用于预测复方郁金方中成分的潜在靶标,采用分子对接软件Autodock对算法预测的结果进行确认,基于此他们发现了复方郁金方中治疗心血管疾病的58个活性成分及其32个潜在靶标,随后通过构建药物-靶标网络及网络分析发现君药姜黄和臣药栀子共享了15个靶标,而与佐药冰片和麝香只分别共享了8个和1个靶标,且网络分析表明治疗心血管疾病的化合物主要来自君药姜黄,其他3味药主要起佐药作用,最终尝试从网络靶标的角度阐明中药复方君臣佐使的配伍机制。
Zhang等[37]基于网络药理学方法包括药代动力学初筛,靶点预测和网络分析来阐释10种常用治疗脑中风中药包括丹参、银杏、麻黄等的作用机制,作者从Tcm SP数据库收集这10味 中 药 的 化 学 成 分,组 合 了SEA,随 机 森 林 算 法 和GOLD5. 1分子对接软件进行靶标预测和确认,最终他们预测了168种化合物的196个靶标。随后作者构建药物-靶点-通路网络及网络分析,发现这10种中药主要通过抑制炎症反应和细胞凋亡、抗氧化应激、抑制血小板聚集等多个脑中风发病环节来治疗疾病,体现了中药多成分、多靶点、多环节作用的优势。中药化合物数据库见表1,各种靶标预测技术在中药网络药理学中的应用见表2.