Bioinformatics｜利用药物描述和分子结构从文献中提取药物-药物相互作用

时间：2015-03-11

本文指出，基于深度神经网络的药物药物反应DDI提取方法由于其高性能而受到广泛关注

友情提示：本文共有 3652 个字，阅读大概需要 8 分钟。

作者 | 黄紫阳

审核 | 王宏准

今天介绍的是日本丰田工业大学的Masaki Asada团队发表在Bioinformatics上的一篇文章“Using drug descriptions and molecular structures fordrug–drug interaction extraction from literature”。本文指出，基于深度神经网络的药物-药物反应(DDI)提取方法由于其高性能而受到广泛关注。这些方法需要大量的文本，并由生物医学专家进行注释。由于注释工作成本高且耗时，所以准备足够数量的注释数据是不现实的。另外，由于对DDI描述的深入理解往往需要药物领域知识，仅借助有限的注释文本很难从文本中提取DDI。药物数据库中记载了各种药物信息，如药物的详细描述和分子结构信息。有效地利用这些外部信息对减少注释文本的依赖很有必要。

在本文中，作者提出了一种有效利用外部药物数据库信息和大规模纯文本信息进行DDI提取的新方法。具体来说，就是将药物描述信息和分子结构信息作为药物数据库信息。利用SciBERT模型得到目标药物的药物描述表示，利用分子图神经网络模型得到目标药物的分子结构表示，然后将这些药物描述和分子结构表示与丰富的输入句子表示结合起来，将目标药物对分类为特定的DDI类型。

1.摘要

当同时给病人服用两种或两种以上药物时，药物的作用可能会增强或减弱，这也可能会引起副作用。这些相互作用称为药物-药物相互作用(DDIs)。目前已建立了DrugBank、Therapeutic Target DB、PharmGKB)等药物数据库，为研究人员和专业人员整合包括DDI信息在内的药物信息。然而，并不是所有的交互都被记录在数据库中，有价值的结果仍然隐藏在生物医学文章中。因此，需要对生物医学文献进行DDI自动提取。神经网络方法从文献中提取DDI需要大量的注释。在本文中，作者提出了一种有效利用外部药物数据库信息和大规模纯文本信息进行DDI提取的新方法。

作者在DDIExtraction 2013共享任务数据集上评估了他们的方法。得到了以下结果。首先，结合现有模型，大规模的原始文本信息可以极大地提高DDI提取的性能，并显示出最优的结果。其次，每种药物的描述和分子结构信息都有助于进一步提高预测某些特定DDI类型的性能。最后，同时使用药物描述和分子结构信息可以显著提高所有DDI类型的性能。结果表明，纯文本、药物描述信息和分子结构信息具有互补性，三者的有效结合对药物的改进至关重要。

2.模型介绍

本文模型如上图所示，作者通过预先训练的上下文嵌入(即BERT和CNN)来获得输入句子的表示。将上下文中的目标药物与药物数据库中的药物条目连接起来，获得这些药物的描述信息和分子结构信息。利用BERT和CNN学习药物的描述信息。用GNN学习药物的分子结构信息。

2.1 从文本中提取DDI

DDI提取的任务是在输入句子中识别药物对，并对药物对的相互作用进行描述，并为这些药物对分配正确的相互作用类型。DDI的提取包括命名实体识别和关系提取(RE)两部分。在本研究中，将重点放在RE部分。作者将从文本中提取DDI作为一个多分类问题，其中一部分目标药物的提及和其余的药物的提及在输入句子中指定。

当一个输入句子中出现三个或更多的药物提及时，模型为每个药物对复制该句子。对每个输入句子进行预处理，以指定目标药物对和其他药物。其中以句子顺序将目标药物对替换为DRUG1和DRUG2，将其他药物替换为DRUGOTHER。例如句子Exposure to oral S-ketamine is unaffected by itraconazole but greatly increased by ticlopidine 预处理如下：

给定一个输入句子，句子中包含药物m1和m2，首先通过WordPiece算法把句子分成几个词。然后通过BERT模型将每个词转换为一个实值预训练上下文嵌入(图1A中浅蓝色向量)。此外给每个句子学习一个-维位置嵌入和，分别对应于第一个和第二个目标药物的相对位置(图1A中的绿色向量)。将以上三个嵌入连接起来：

首先引入，它是周围k个输入嵌入的拼接：

接下来将卷积应用到嵌入中，如下所示:

然后使用max-pooling将卷积层中的输出转换为固定大小的向量，如下所示：

2.2 药物描述表示

与输入句子相似，药物的描述句子通过BERT和CNN转换为实值固定大小的向量。我们直接使用BERT的词块嵌入而不使用词位置嵌入来得到卷积层的输入。定义卷积权重和偏置，与处理输入句子一样，采用卷积和最大池的方法得到药物m1和m2的描述表示和。

2.3 分子结构表示

本文用GNN表示药物的分子图结构。GNN将药物分子图G转换成一个固定大小的矢量。在图中，以节点表示原子，以边表示键。分子GNN方法使用相对较大的片段(称为r-半径子图或分子指纹)来表示原子及其在图中的上下文。分子GNN采用指纹矢量作为原子矢量，根据分子的图结构对矢量进行随机初始化和更新。定义药物分子中第i个原子的向量为，其相邻原子的集合定义为。向量在第l步更新如下:

表示ReLU函数。药物分子向量是将所有原子向量加起来，然后将得到的向量送入线性层：

其中M为指纹个数。

2.4 使用数据库信息进行DDI提取

当使用药物描述信息进行DDI提取时，将输入句子表示和两个描述表示拼接为：

同样地，两个分子结构表示与输入句子表示拼接为：

使用结果向量作为预测层的输入：

，其中O表示DDI种类的数量。再利用softmax函数得到每个种类的预测值：

作者采用集成方法将不同模型的预测结合起来。具体来说，将每个模型单独训练后，对集成的不同模型的预测得分进行相加。例如，将模型的预测与描述信息和分子结构信息相结合时，最终预测得分如下：

3.实验结果

作者采用了DDIExtract 2013共享任务数据集。该数据集由带有药物提及及其相互作用注释的文档组成。数据集由两部分组成:MEDLINE和DrugBank。MEDLINE由MEDLINE/PubMed文章中的摘要组成，而DrugBank由DrugBank的FDA标签参考中的药物相互作用文本组成。

上表显示了DDI提取模型的性能，包括不同设置的本文模型和最先进的模型。可以看到，使用SciBERT的基线文本模型(SciBERT CNN)是强大的。在F指标上，使用SciBERT模型比不使用(word2vec CNN)提高了11.04%的性能。通过这种改进，当我们将SciBERT模型与表中最上面几行中最先进的模型进行比较时，它已经实现了最先进的性能。当我们从基线模型(SciBERT linear)中省略CNN时，我们使用第一个特殊标记[CLS]作为句子的聚合表示，并将[CLS]嵌入到线性分类器层。由于这个操作，性能略有下降，但差异是可以忽略的。这表明BERT模型足够强大，可以捕获与CNN相似的信息。

通过使用药物描述和分子结构信息，我们观察到了F指标的增加，如表格底部所示。这表明SciBERT的大规模原始文本信息和数据库信息是互补的，它们都有助于从文本中提取DDI。分子指纹半径为1或2的GNN性能优于无分子指纹半径为0的GNN，其中半径为1的GNN性能最高。

上表显示了测试集的两个不同子集MEDLINE和DrugBank的F得分比较。有描述和有分子结构(半径1)的模型降低了MEDLINE的F分数，而描述和分子结构信息都提高了DrugBank的f分数。对于这两个子集，集成模型都大大提高了F值。这些结果也表明，描述信息和分子结构信息是互补的。

上图显示了验证数据集中不同句子长度的F分数。由于较长句子长度的实例相对较少，我们在官方训练数据集上使用了5倍交叉验证。在这里，句子长度被定义为子词数除以SciBERT词汇量。基线模型显示，含有80个或更多子词的长句表现较差，这一结果与之前的分析显示了相同的趋势。我们的模型比基准模型表现出更高的性能，特别是对于包含100个以上子词的句子。这表明，当输入的句子较长且复杂，难以考虑整个上下文时，DrugBank信息有助于预测DDI。

4.总结

本文提出了一种利用大规模原始文本信息和药物数据库信息，特别是药物描述信息和药物分子结构信息，从文本中提取DDI的神经网络方法。结果表明，在DDIExtraction 2013共享任务数据集上，大规模原始文本信息SciBERT大大提高了从文本中提取DDI的性能。此外，药物描述和分子结构信息都可以进一步提高对特定DDI类型的性能，同时使用它们可以提高对所有DDI类型的性能。

参考文献

文章地址

https://academic.oup.com/bioinformatics/article/37/12/1739/5938075

代码地址

https://github.com/tticoin/DESC_MOL-DDIE

本文如果对你有帮助，请点赞收藏《Bioinformatics｜利用药物描述和分子结构从文献中提取药物-药物相互作用》，同时在此感谢原作者。

Bioinformatics 中提药物文献利用

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。