基于大数据整合与文本挖掘的中药生物分子信息(2)
2.3 系统检索与推理模型
2.3.1 系统检索 由上述数据库可知各数据子库之间至少有一个字段是关联字段,因此在中药、化学成份小分子、蛋白基因、生物通路、文献信息任意一个数据子库输入检索信息,与其关联的其他数据子库的信息可检索获得。由于每个中药包含许多化学成份(小分子化合物),每个化学成份可能对应数千个靶蛋白(靶点),大量的靶蛋白又参与人体许多不同的生物通路,所以从宏观到微观层次的检索数据量非常大。因此采用双向大数据驱动检索策略,即以某一信息子库层次为分界点,分别创建线程向宏观和微观两个层次方向的数据子库同时检索,通过ADO.NET连接SQL Server数据库,在线程同步控制模块的协同下进行数据整合,将最终检索结果返回用户界面。大数据双向多层次检索模块,见图2。
图2 大数据双向多层次检索模块
2.3.2 知识发现推理 与西药相比,中药对疾病的作用具有多成份、多靶点特性,也就是说药物的功效是对多个靶点共同调控的综合结果。然而化学成份与目标靶点或者多靶点之间往往不一定是直接作用的,因此成份与目标靶点或者多靶点之间的作用路径对中药机制的研究或相关的药物实验设计具有重要的揭示和启发作用。知识发现推理功能示例,见图3。如用户要分析化学成份E与基因H之间的关联路径,按照常规检索只能分别获取化学成份E以及基因H单独的信息。但由于E、F、G、H之间在本系统数据库中存在关联性,通过本系统的知识发现推理功能能够生成成份E与基因F、G、H之间的拓扑网络。通过系统的网络图输出即可知道化学成份E与基因H之间的作用路径有两条,一是作用于基因F而调控基因H,二是作用于基因G而调控基因H。基因F和基因G就是本系统发现的化学成份E到基因H的作用中介。具体而言,通过该系统的中药生物分子信息大数据库中的化学成份-靶蛋白数据库以及靶蛋白-靶蛋白相互作用数据库,检索用户输入的两个或多个目标信息与其他信息间的所有关联生成两两关联对,给定一个阈值N, 对于每个关联对,重新检索上述数据库,根据存在的关联将每个关联对扩展为多个N元关联信息链,在所有N元关联信息链中检索同时存在用户输入的两个或多个目标的信息链,将所有这些满足条件的信息链中的关联通过html5语言中的 画布对象功能在页面上将关联网络图画出,可通过集群跨库检索精确获取相关目标关联文献信息。
图3 知识发现推理功能示例
3 系统特色与创新
3.1 专业精准的结构化数据
与现有的数据检索系统平台相比,目前较缺乏专业精准和结构化的中药生物分子信息检索平台。而本系统基于多个著名的国际生物学数据库,将大量的药物﹑化学成份﹑蛋白﹑基因﹑生物通路等生物信息大数据进行多层次的结构化关联整合,形成从宏观到微观的药物-化学成份-蛋白(基因)-生物通路的多层次中药生物分子关联信息数据。
3.2 相关科技文献数据库
虽然目前的文献检索系统平台种类繁多,但大多是某个领域的大范围文献数据库。用户需要根据自身感兴趣知识逐步进行多次组合检索和筛选,得出最终的相关文献。而本系统基于整合的多层次中药生物分子关联信息数据生成内在的知识(检索词)关联复杂网络,除能够直接检索某个知识的相关科技文献外,还能通过关联功能检索与该知识密切相关的其他知识点的科技文献。
3.3 知识发现推理功能
知识发现推理能力是目前大部分检索系统平台所缺乏的,是本系统的重要创新点之一。系统不但能够检索信息数据,而且能够智能推理知识数据之间的关联,这是大数据技术和人工智能算法在中医药数据库应用的未来发展趋势。对用户输入的两个检索词,本系统能够基于生物信息中的蛋白相互作用数据库发现推理这两个检索词之间的内在关联,形成完整的关联路径。该推理功能有助于中药药理机制的发现以及多成份、多靶点相互作用路径的深入研究。
4 结语
中药药理研究是中医药现代化的重要途径,通过大数据和文本挖掘技术整合并挖掘巨量的中药生物分子数据信息以及文献数据,以计算机检索系统的形式将其有机组织联系起来,建立中药生物分子信息文献系统,具有科学性和创新性。该系统功能涵盖中药功效性能等一般信息、有效化学成份,靶点及相关生物通路信息、中药生物分子文献信息查询以及靶点相互作用路径推理等多方面,极大方便科研人员对中药生物分子数据的搜集与分析,有助于推进中药药理科学研究,为中医药研究提供方便可靠的基础数据支撑。因此中药生物分子信息文献系统具有广阔的应用前景。
文章来源:《中药药理与临床》 网址: http://www.zyylylc.cn/qikandaodu/2020/1023/365.html
上一篇:仙茅治疗不孕不育症的临床应用概述
下一篇:蛇莓抗肿瘤作用及临床应用