医药生物技术国家重点实验室(生命科学学院)王进教授、张辰宇教授团队合作建立的microRNA生物信息数据库以“mirTrans: a resource of transcriptional regulation on microRNAs for human cell lines”为题,于2018年1月在分子生物学权威刊物Nucleic Acids Research上正式发表,论文链接为https://academic.oup.com/nar/article/46/D1/D168/4564804。
人类基因组由30亿个碱基对组成,其中蕴含着人体生、老、病、死各种生命活动分子过程的所有信息。解读基因组,全面获得其中所编码的生物功能分子及其相互间的调控关系,不仅有望对人体复杂分子系统的本质与规律产生全新的认识,而且也将为疾病诊疗与健康产业提供丰富而精准的技术创新资源。人基因组中除两万五千多个蛋白质编码基因外,还有功能性RNA基因,它们在生命活动中的作用同样不可或缺。
microRNA是一类新的具有多样功能的小RNA分子,它们通过调控基因表达参与生命活动的重要进程,包括细胞分化、增殖与凋亡、以及代谢过程等,在癌症、心血管疾病、糖尿病等重大疾病发生发展中发挥重要作用,成为生物学、医学基础研究和临床诊疗与新药开发中受到广泛重视的新热点。因而迫切需要完整、准确的microRNA知识库为该领域的研究人员提供数据与信息资源。针对这一需求,课题组研发了mirTrans数据库,旨在构建全基因组尺度的人microRNA转录图谱并提供转录调控注释信息。其中碰到的瓶颈问题是microRNA基因初始转录本测序数据的缺乏,研究人员通过整合基因组、转录组和表观组等高通量组学数据,利用课题组先前设计的基因转录起始位点识别算法,并根据microRNA转录调控具有细胞特异性的特点,对多种细胞系识别了microRNA转录起始位点,并结合文献挖掘获得了microRNA上游调控信号,完成了细胞系特异性microRNA转录调控数据库的构建与开发。
mirTrans库提供了迄今数据量最大的高质量microRNA 细胞特异性转录调控信息,包括microRNA 基因的转录起始位点(TSS)和启动子序列、细胞特异性microRNA 簇群数据、转录因子对miRNA 的调控关系及转录因子结合位点亲和性与保守性数据,以及相关的文献和实验验证信息,并将这些信息数据绘制成基因图谱。在web界面上提供了多种搜索方式,以方便用户查询使用和下载各类数据及数据组合(http://mcube.nju.edu.cn/jwang/lab/soft/mirtrans/)或者(http://120.27.239.192/mirtrans/)(图1)。该数据库目前的版本提供1513 个人pre-miRNA在54细胞系中的信息数据,包括35259个TSS 和超过230 万个TF-miRNA调控关系(图2)。mirTrans数据库所收录的细胞系来源于心脏、脑、肺等17种组织,数据覆盖全基因组范围,因而能广泛适用于microRNA相关的分子生物学实验研究、疾病分子机理研究和数据分析中的信息查询和数据支持,全基因组范围的数据还特别有利于构建完整的基因网络,从系统生物学水平研究生命活动的分子相互作用机理。
生命科学学院华旭博士研究生和汤榕珺硕士研究生为该论文的共同第一作者,李捷、张辰宇、王进为共同通讯作者,另有多名研究生参与了该项研究。该工作由国家自然科学基金资助。

图1 数据库的查询与数据下载界面

图2 mirTrans中各类数据的统计分布(细胞系按照所属组织归类)
