Page 169 - 《广西植物》2023年第7期
P. 169
7 期 韩霜等: 藏茵陈基源植物皱边喉毛花的全长转录组信息分析 1 3 3 7
据库比对ꎬ筛选药用相关成分合成相关的代谢通 行校正ꎬ生成校正序列( corrected consensus)ꎮ 利
路和转录本ꎮ 全长转录组能够为皱边喉毛花药用 用 CD ̄HIT 软件( Fu et al.ꎬ2012) 对校正后的转录
成分合成相关的关键基因的筛选提供重要的遗传 本进行冗余分析ꎮ
资源ꎮ 1.2.3 全长转录组序列分析 对去冗余后的序列进
行基因功能注释ꎬ所使用的数据库包括非冗余蛋白
1 材料与方法 数据库(Non ̄Redundant Protein DatabaseꎬNRꎬ Deng
et al.ꎬ2006)、蛋白质家族域数据库(Protein Families
1.1 试验材料 DatabaseꎬPfamꎬ Finn et al.ꎬ2014)、蛋白质真核同源
新鲜幼叶采集于海南藏族自治州共和县(地理 数据库(Eukaryotic Orthologous GroupsꎬKOGꎬ Koonin
坐标为 100°53′58. 44″ E、36° 22′19. 00″ Nꎬ海拔为 et al.ꎬ2004)、 蛋 白 质 原 核 同 源 数 据 库 ( Cluster of
3 518 m)ꎬ采集后迅速置于液氮罐中保存ꎬ后将其转 Orthologous Groups of ProteinsꎬCOGꎬTatusov et al.ꎬ
移至-80 ℃ 的超低温冰箱中ꎬ用于后续 RNA 提取ꎮ 2003)、 东 京 基 因 与 基 金 组 百 科 全 书 ( Kyoto
凭证标本(Zhang2018026) 存放于中国科学院西北 Encyclopedia of Genes and GenomesꎬKEGGꎬMinoru et
高原生物研究所青藏高原生物标本馆(HNWP)ꎮ al.ꎬ2004)、基因本体论数据库(Gene OntologyꎬGOꎬ
1.2 方法 Ashburner et al.ꎬ2000)、核酸序列数据库(Nucleotide
1.2. 1 RNA 提 取 和 文 库 构 建 采 用 Total RNA Sequence Databaseꎬ NT ) 和 SwissProt 数 据 库 ( a
Extractor( Trizol) 试剂法( Connolly et al.ꎬ2006) 提 manually annotated and reviewed protein sequence
取皱边 喉 毛 花 的 总 RNAꎬ 琼 脂 糖 凝 胶 电 泳 检 测 database)等ꎬ以此获得更全面的基因功能信息ꎮ
RNA 降解程度及污染情况ꎬ并评估其质量和完整 1.2.4 全长转录组结构分析 利用 iTAK v 1.7a 软
性ꎮ 检测合格的 RNA 样品用于构建皱边喉毛花 件(参数设置:-f 3F) 对皱边喉毛花进行转录因子
全长转录组测序文库ꎮ 具体操作如下:在反转录 (transcription factorꎬTF)预测( Zheng et al.ꎬ2016)ꎮ
酶的作用下ꎬ以 Oligo DT 为引物、目标 mRNA 为模 利用 MISA( MIcroSAtellite Identification Tool) v 1.0
板ꎬ进 行 反 转 录ꎬ 通 过 低 循 环 PCR 扩 增 全 长 软件 检 测 简 单 重 复 序 列 标 记 ( simple sequence
cDNAꎬ利用 NEBNext End repair / dA ̄tailing Module repeatsꎬSSR)ꎬ设 置 单 核 苷 酸、 二 核 苷 酸、 三 核 苷
末端修读及加 poly( A) 尾ꎬONT SQKLSK109 试剂 酸、四核苷酸、五核苷酸及六核苷酸的最少重复次
盒及 NEBNext Quick Ligationg Module 用于测序接 数分别为 10、 6、 5、 5、 5、 5ꎬ其余参数默认(Beier et
头的连接ꎮ 建好的文库采用 PromethION( Oxford al.ꎬ 2017 )ꎮ 利 用 CNCI v 2 ( Coding ̄Non ̄Coding
Nanopore Technologies 公司ꎬ英国) 测序平台 进 行 IndexꎬSun et al.ꎬ 2013)、 plek v 1. 2 ( Predictor of
测序ꎮ Long Non ̄coding RNAs and mRNAs Based on k ̄mer
1.2.2 数据处理 测序完成后对原始数据进行过 Schemeꎬ Li et al.ꎬ 2014 )、 CPC2 v 0. 1 ( Coding
滤ꎬ 去 除 接 头 以 及 低 质 量 的 readsꎮ 采 用 软 件 Potential Calculator 2ꎬKang et al.ꎬ2017) 软件以及
SMRTlink v8. 0 ( https: / / www. pacb. com / support/ Pfam 数据库(Finn et al.ꎬ2014)对 PacBio 测序数据
software ̄downloads)进行过滤和处理ꎮ 参数设置: 进行编码潜能预测( 参数设为默认)ꎬ获得的长非
-minLength 50( 最 小 长 度 为 50 bp)ꎬ - maxLength 编码 RNA( long non ̄coding RNAꎬLncRNA) 用于后
15 000(最大长度为 15 000 bp)ꎬ-minPasses 1( 最 续分析ꎮ
小的 fullpass 数为 1)ꎮ 利用 subread.bam 文件得到
环 形 一 致 性 序 列 ( circular consistency sequenceꎬ 2 结果与分析
CCS)ꎬ对其进行分类ꎬ搜寻并聚类 FLNC 序列ꎬ得
到 consensus 序 列ꎮ 利 用 Arrow 软 件 对 得 到 的 2.1 全长转录组测序及组装
consensus 序列进行校正ꎬ获得高质量的全长优化 经 SMRT ( Single ̄Molecule Real ̄Time) 测序共
序列(polished consensus)用于后续分析ꎬ最终统计 获 得 17 Gb 的 原 始 数 据ꎮ 对 其 过 滤 后 获 得
得 到 有 效 数 据ꎮ 为 提 高 数 据 的 准 确 性ꎬ 利 用 17 315 066 个 subreadsꎮ 基于 subread.bam 文件获
LoRDEC 软件(Salmela & Rivalsꎬ2014)对转录本进 得795 698 个 CCS 序列ꎬN50 长度为 2 143 bpꎬ最