协同与分布式数据库技术在高通量组学研究中的应用.pdf
APPLICATION e-Science 应用 协同与分布式数据库技术在高通量组 学研究中的应用 崔球 徐健 中国科学院青岛生物能源与过程研究所,青岛 266101 摘 要:本文通过已开展或正在开展的应用实例来着重说明协同与分布式数据库技术 在组学研究领域中的重点应用,具体阐述了在远程跨地域实验室信息管理、 组学数据的协同注释和分布式计算分析、分布式数据整合和挖掘等方面的应 用,向读者展示了信息化技术可以为生物学研究提供的各种便利和必不可少 的分析工具。 关键词: 系统生物学;代谢组学;分布式数据库;协同注释 The Application of Concurrent and Distributed Database Technique to High-Throughput “Omics” Research Cui Qiu,Xu Jian Qingdao Institute of BioEnergy and Bioprocess Technology,Chinese Academy of Sciences,Qingdao China,266101 Abstract: This paper presents the application of concurrent and distributed database technique to “omics” research by case studies. To demonstrate the essential power that informatics techniques brought in, we specifically focused on the systems designed for: remote lab informatics management, concurrent annotation of “omics” data and distribution of computational tasks, information integration and data mining from distributed, semantically heterogeneous data sources. Keywords: System biology;Metabolomics;Distributed database;Concurrent annotation e-Science 总第6期 37 技 术 e-Science 应用 e-Science APPLICATION 息化系统上,包括仪器预约、样 品可能需要依次在不同实验室流 品准备、数据采集存储、数据分 通,分别进行不同的分析实验。 现代生物技术研究正处于一 析等一系列过程。如果这个信息 因此能够提供远程跨地域协同工 个大规模变革的时期。组学学科 系统出现了问题,整个中心的运 作环境的实验室信息管理平台是 的技术进步,例如基因组测序技 作都会瘫痪。然而,目前我国信 非常重要的,这个平台首先需要 术的进步,得到一个物种的全基 息化技术在生物学研究过程中的 协调各实验室,各合作者间的活 因组序列不再是一个大的限速步 应用远远滞后于国际同行,至今 动,例如提供样品处理状态查 骤,加上Solexa测序技术应用于 为止,在系统生物学的各个组成 询、仪器预约等功能,方便不同 转录组学,多维色谱-质谱联用 学科中,几乎没有一个主流数据 实验室间流通及协作。由于项目 技术应用于蛋白质组和代谢物组 库位于我国境内,例如从基因 分工通常在不同阶段涉及不同的 等方法学上的进步促使从系统生 组学的GenBank到代谢物组学的 研究人员,每个研究人员或研究 物学角度研究生物体系成为一个 KEGG、BioCyc等国际一流组学数 组对项目的视角和数据要求是不 必然趋势。组学学科已经渗透到 据库中,看不到中国的身影,让 一样的,因此还要求信息管理平 生物学的各个角落,成为现代生 人感到非常遗憾,也和我国的大 台应该对不同用户作出不同的反 物学研究的常规首选手段。 国地位极不相称。 应,以最适合用户需要的方式呈 1.引言 由于组学学科本身的特点, 从为科研提供服务角度来 递数据,提供不同的数据视角; 和信息化技术的结合非常深入紧 看,信息化技术中强调了科研活 信息管理平台还需要跟踪系统历 密。组学学科具有内在的高通 动在各个环节里需要协同和整 史,如样品来源、处理历史、存 量、海量数据处理特性。要求通 合,实现自动化、标准化和信 放位置、中间数据等,有利于流 过信息化手段,建立共享服务, 息共享,某些应用还需要利用 程标准化和质量控制。另外还要 需要在组学技术各个环节实现协 现代计算机系统强大的并行运算 求实现地域位置无关地输入及查 同和整合。信息化技术对于组学 能力。采取实验室信息管理、工 询数据,真正实现异地多用户多 学科的工作进程管理、多用户协 作流控制、数据整合等方式,帮 实验室之间的无缝协作。 同注释、网格计算、数据整合服 助提高效率和服务水平,促进不 运用协同注释分布式数据 务等环节都非常重要。如同没有 同合作机构之间的纵向和横向交 库系统可以很方便地实现上述的 人会质疑基因组学在现代生物学 流。下面就笔者所在的实验室和 功能,其技术关键是在同一界面 中的作用一样,也没有人会质疑 科研经历,通过已开展或正在开 实现多用户同时编辑、输入、分 信息化技术如GenBank数据库在基 展的应用实例来着重说明协同与 析跨地域分布的异质数据网络。 因组学中的作用和地位,由此不 分布式数据库系统在组学研究领 我们通过扩展和改良在本实验室 难发现信息化技术将成为现代高 域中的一些应用。 一直沿用的sesame实验室信息管 理系统来帮助克服上述高通量组 通量组学学科的必备武器装备。 国际同行在部署大项目时,把对 信息化技术的需求摆在整个业务 2. 提供远程跨地域实 验室信息管理 规划中的非常重要位置,而且也 学研究中的各实验室/合作者之 间的协调难题 [1] 。整个系统基于 JAVA,以CORBA为中间件,使用 对信息技术应用提出了很高的期 一个项目通常涉及很多分工 Oracle作为后台数据库管理系统 望。比如现在大的基因组中心或 合作步骤,大型合作项目甚至要 (RDBMS)。系统设计为管理及 结构基因组实验室,几乎所有的 求跨地域、多学科的协作。在高 联接复杂项目中的各个有机组成 实验相关过程都是建立在电脑信 通量组学研究项目中,大量的样 部分,采集尽可能完整的中间数 38 e-Science 2009年 APPLICATION e-Science 应用 据,包括实验操作方案、标准步 辑,处理及分析,从而以最适合 报表,极大地方便了用户,提高 骤、背景信息、实验数据等,允 用户需要的方式呈现与分析数 了仪器的使用效率,减轻了管理 许数据跟踪及条形码读取,用来 据,它可以提供各步骤进程和人 人员的负担,通过规范化和标准 组织和协调各实验室、各合作者 员需要的不同横向数据视角及纵 化流程,同时还减少了管理上的 间的活动。以代谢物组学模块为 向的项目进度视角,还可以提供 出错几率。 例,我们的协同信息管理系统可 方便的自动报表生成。 以提供标准代谢物样品、质谱样 以仪器预约模块为例,大 品、核磁样品、核磁实验、软 型珍贵仪器费用高昂,往往需要 件、厂家、详细实验操作步骤、 多家单位合用一台仪器,例如核 具体实验条件等方面的详细信 磁共振仪。因此需要一种协调机 当实验测定了组学学科数据 息,样品可以打上条形码标签, 制,能够预约及统筹安排机时, 之后,需要建立相应的注释数据 登记到系统,自动跟踪样品信 避免撞车行为;方便管理及收 库以方便研究者的查询和使用。 息,例如可以追溯样品的来源、 费,提高工作效率和减少管理人 传统上,数据库尤其是模式生物 处理步骤和历史、当前位置等, 员的工作强度。图1是仪器预约模 的注释数据库,如酵母SGD,老 以方便不同实验室间流通及协 块的屏幕截图,该模块实现了管 鼠MGI,果蝇Fly等,都是遵循专 作。用户可以在任何时候,任何 理自动化,提供24小时不间断在 家构建、专家管理的模式。这样 地点通过网络进行信息输入及数 线服务,用户可以在任意时刻、 的模式对保证数据库的权威性 据处理,真正实现了多用户多实 任意地点通过网络进行仪器预 和准确性起到了重要的作用。 验室之间的无缝协作。同时提供 约,查看本月仪器使用情况,以 随着组学实验手段的发展,只依 各种工具来便利数据采集,编 及各种费用和使用状况统计分析 赖专业数据库来更新、编辑已有 3. 实现组学数据的协同注释 和分布式计算分析 图1 Sesame的仪器预约模块的用户界面 e-Science 总第6期 39 技 术 e-Science 应用 e-Science APPLICATION 图2 easyMETA分布式代谢物组学分析软件的用户界面 条目及创新新条目已跟不上组学 GeneWiki [3],WikiProteins [4]及 Java2/CORBA客户/服务器架构, 数据扩增的速度。协同注释是因 miRDB微RNA芯片靶基因数据库[5]等 由客户层、服务器层及数据库层 特网普及后的一个新现象。它给 协同数据库。我们正在开发一个 组成。客户层将能够在任意可以 予所有上网的人自由编辑和创新 涵盖各种组学数据类型和数据间 运行Java Web Start的计算机上 的权力。这一新型注释模式的引 相互关系,允许多用户同时分析 运行,或者在安装了Java插件 入极大地促进了数据库的扩增和 与注释,能够自动实时更新数 的任意网络浏览器上运行。客 更新。作为协同注释最有名的例 据,具有智能化、跨数据类型、 户层和服务器层使用对象请求 子,维基百科在2005年就增至 跨地域的组学整合信息管理平台 代理(Object Request Broker 四百万个题目。有趣的是,在极 (及其用户界面),最终目的是 (ORB))进行通讯,对于不同ORB 度扩增的同时,维基百科内容的 在这一平台上通过全球组学工作 间的通讯则使用互联网ORB间协议 准确程度并没有显著降低,其准 者的通力协作,得到具有全球公 (Internet Inter-ORB Protocol 确度甚至近似于大英百科全书[2]。 信力的全面组学注释数据,例如 (IIOP))。服务器层维持与数据 这说明,协同注释并不必然导致 基因功能注释数据、蛋白质相互 库层的联络、组装,执行SQL语 数据库质量的下降。现在,协同 作用网络等需要大规模协作的组 句,并对返回结果进行处理。数 注释的模式也被越来越多的应用 学分析数据。在软件架构上,该 据库编程使用Java2 JDBC API, 于处理和整合各种组学数据,如 整合信息管理平台拟采用三层式 使得数据库管理和客户层隔离, 40 e-Science 2009年 APPLICATION e-Science 应用 数据库管理对用户是屏蔽的,增 接传输到专业分析服务器上需要 向服务器发出协助分析请求。通 加了系统的安全性和可靠性。 较长时间,传统的应对方法是仅 过在服务器和用户计算机之间自 由于组学数据通常情况下 仅传输文本形式的峰列表,而丢 动协调分配计算任务,极大地降 比较庞大,用户的测量数据通过 弃了有价值的峰型等信息。我们 低了服务器的负担,使得服务器 互联网上传到专业分析服务器上 通过开发一个easyMETA分布式代 的运行性能并不随着同时在线用 进行分析往往不具可行性。而且 谢物组学分析软件来有效解决这 户的增加而明显下降。同时还减 随着计算复杂度和同时在线用户 个难题(见图2)。easyMETA使用 少了网络传输的数据量。 数目的增加,服务器迟早会超负 Java Web Start技术,将数据预 easyMETA在服务器和用户计 荷,而分布式计算分析模式则可 处理和核心分析隔离,软件经由 算机间协调分配计算任务,谱图 以满足这些要求。以代谢物组学 web start模式运行在用户的计算 处理和分析在本地进行,代谢产 分析为例,用户测量的色质联用 机上,使用用户本地计算资源来 物的定性搜索则回传到服务器上 数据或NMR谱图数据通常较大,直 分析本地数据,只有在必要时才 执行。 图3 MMCD代谢物组学数据库的各子功能页面 e-Science 总第6期 41 技 术 e-Science 应用 e-Science APPLICATION 庞大,很难做到轻松传输,尤其 以 在 同一界面进行所有组学层次 是通过网络传输往往不具备实际 的各种组合查询及数据分析。按 可行性。需要利用各研究小组固 照用户需求,自动生成报表。后 生物学现在成为一个海量信 定计算点的资源进行本地分析, 台程序则提供与各个步骤所需的 息学科,由基因测序及高通量功 所以整合信息处理平台应该包括 软件工具配合的能力,链接各种 能基因组数据所推动的系统生物 分布式计算处理。 不同的软件的输入输出,在不需 4. 实现分布式数据 整合和挖掘 学方法正在颠覆着生物学研究的 2)数据异质性阻碍数据整 要改动原有软件的基础上,使数 模式。随着基因组、转录组、蛋 合。由于缺乏统一的标识机制, 据在不同阶段不同软件间能进行 白质组、代谢物组等组学学科的 同一对象在不同资源中往往有不 顺畅交流。数据分析存储采用分 兴起与成熟,带来以前难以想象 同标识。各种资源互相隔离独立 布式协同数据库形式,实时分派 的细胞各种分子层面上的研究深 创建,使相互关联和数据整合变 查询或分析任务到各种支持子数 度和广度,同时也催生了数据整 得非常困难。对于本地组学分析 据库系统,使用当前的语义web技 合与挖掘的问题。现代生物学研 资源而言,尽管单个步骤可能已 术如RDF、OWL、SPARQL来整合、 究极大地依赖于信息的获取及利 经有了相关软件来管理或分析数 查询和显示多个来源的数据。 用效率,多种来源的生物学数据 据,但各软件输入/输出数据的不 图3显示了笔者独立开发的MMCD 经常需要进行整合,经过系统性 相容性阻碍了彼此间的交流和数 代谢物组学数据库的用户界面, 的分析来获得对研究体系更全面 据集成。 该数据库采用分布式数据整合模 更深入的认识。通常当数据被组 3)大量的生物学信息是上下 式,自动地从多个数据来源收集 织化存放于专业数据库后,可以 文依赖性的,生物学知识的来源 数据,如基因、蛋白质、代谢网 通过特定的查询语言,如结构查 地信息也很重要。而且组学信息 络、生化反应等信息,实现了从 询语言(对关系数据库而言)或 的积累及更新速度非常快,具有 代谢物到催化其转化的蛋白质到 者对象查询语言(对象数据库) 不确定,不完全,可变等特点, 编码该蛋白的基因整个数据链的无 取出数据。然而,在现代生物学 设计数据整合分析系统时必需充 缝链接。 中,探索一个特定主题的各种不 分考虑这种可变可扩充特点。 同种类的可利用数据极具挑战 基于以上考虑,我们认为分 性,因为数据分散在互联网上, 布式协同数据库系统可以很好承 由大量独立、异质、高度专业化 担这种整合任务,我们将在已有 [6] 5. 结束语 通过本文介绍的一些信息化 的资源构成。为了实现高效的数 MMCD数据库的基础上 ,建立 应用例子,我们希望向读者展示 据整合与利用,必需充分考虑现 一个分布式协同数据库入口应 信息化技术带来的各种便利甚至 代组学学科的一些特殊性质: 用,允许数据查询、可视化,粘 是必不可少的功能。我们坚信随 1)组学学科的信息容量很 合显示,自动化地从各种公共资 着信息化技术的进一步成熟,必 大,往往超出现有普通计算工具 源进行数据挖掘。在用户层提供 将对生物学研究带来革命性的促 的合理处理能力。组学数据都很 一体化组合型查询界面,用户可 进作用。 42 e-Science 2009年 APPLICATION e-Science 应用 参考文献: [1] Markley, J. L., Anderson, M. E., Cui Q., et al. "New for community annotation in WikiProteins." Genome Biol bioinformatics resources for metabolomics." Pac Symp ,2008,9(5): R89. Biocomput,2007: 157-68. [5] Wang, X. "miRDB: a microRNA target prediction and [2] Giles, J. "Internet encyclopaedias go head to head." Nature functional annotation database with a wiki interface." Rna ,2005,438(7070): 900-1. ,2008,14(6): 1012-7. [3] Huss, J. W., 3rd, Orozco, C., et al. "A gene wiki for [6] Cui, Q., Lewis, I. A., et al. "Metabolite identification via community annotation of gene function." PLoS Biol ,2008,6(7): e175. the Madison Metabolomics Consortium Database." Nature [4] Mons, B., Ashburner, M., et al. "Calling on a million minds Biotechnology ,2008,26(2): 162-4. 收稿日期:2009年5月31日 作者信息 崔球 中国科学院青岛生物能源与过程研究所,研究员、博士生导师,研究方向为代谢物组 学及蛋白质结构和功能。 徐健 中国科学院青岛生物能源与过程研究所,研究员、博士生导师,研究方向为通过算法 与软件开发,进行基因组、转录物组和代谢物组水平上对能源微生物功能及调控机制 的认识和模拟,以及基因组解码与分析技术的开发和改进。 e-Science 总第6期 43

协同与分布式数据库技术在高通量组学研究中的应用.pdf




