Page 169 - 《广西植物》2023年第7期
P. 169

7 期                  韩霜等: 藏茵陈基源植物皱边喉毛花的全长转录组信息分析                                          1 3 3 7

            据库比对ꎬ筛选药用相关成分合成相关的代谢通                              行校正ꎬ生成校正序列( corrected consensus)ꎮ 利
            路和转录本ꎮ 全长转录组能够为皱边喉毛花药用                             用 CD ̄HIT 软件( Fu et al.ꎬ2012) 对校正后的转录
            成分合成相关的关键基因的筛选提供重要的遗传                              本进行冗余分析ꎮ
            资源ꎮ                                                1.2.3 全长转录组序列分析  对去冗余后的序列进
                                                               行基因功能注释ꎬ所使用的数据库包括非冗余蛋白
            1  材料与方法                                           数据库(Non ̄Redundant Protein DatabaseꎬNRꎬ Deng

                                                               et al.ꎬ2006)、蛋白质家族域数据库(Protein Families
            1.1 试验材料                                           DatabaseꎬPfamꎬ Finn et al.ꎬ2014)、蛋白质真核同源
                 新鲜幼叶采集于海南藏族自治州共和县(地理                          数据库(Eukaryotic Orthologous GroupsꎬKOGꎬ Koonin
            坐标为 100°53′58. 44″ E、36° 22′19. 00″ Nꎬ海拔为          et al.ꎬ2004)、 蛋 白 质 原 核 同 源 数 据 库 ( Cluster of
            3 518 m)ꎬ采集后迅速置于液氮罐中保存ꎬ后将其转                        Orthologous Groups of ProteinsꎬCOGꎬTatusov et al.ꎬ

            移至-80 ℃ 的超低温冰箱中ꎬ用于后续 RNA 提取ꎮ                       2003)、 东 京 基 因 与 基 金 组 百 科 全 书 ( Kyoto
            凭证标本(Zhang2018026) 存放于中国科学院西北                      Encyclopedia of Genes and GenomesꎬKEGGꎬMinoru et
            高原生物研究所青藏高原生物标本馆(HNWP)ꎮ                            al.ꎬ2004)、基因本体论数据库(Gene OntologyꎬGOꎬ
            1.2 方法                                             Ashburner et al.ꎬ2000)、核酸序列数据库(Nucleotide
            1.2. 1 RNA 提 取 和 文 库 构 建   采 用 Total RNA           Sequence Databaseꎬ NT ) 和 SwissProt 数 据 库 ( a
            Extractor( Trizol) 试剂法( Connolly et al.ꎬ2006) 提    manually annotated and reviewed protein sequence
            取皱边 喉 毛 花 的 总 RNAꎬ 琼 脂 糖 凝 胶 电 泳 检 测               database)等ꎬ以此获得更全面的基因功能信息ꎮ
            RNA 降解程度及污染情况ꎬ并评估其质量和完整                            1.2.4 全长转录组结构分析  利用 iTAK v 1.7a 软
            性ꎮ 检测合格的 RNA 样品用于构建皱边喉毛花                           件(参数设置:-f 3F) 对皱边喉毛花进行转录因子
            全长转录组测序文库ꎮ 具体操作如下:在反转录                             (transcription factorꎬTF)预测( Zheng et al.ꎬ2016)ꎮ
            酶的作用下ꎬ以 Oligo DT 为引物、目标 mRNA 为模                    利用 MISA( MIcroSAtellite Identification Tool) v 1.0
            板ꎬ进 行 反 转 录ꎬ 通 过 低 循 环 PCR 扩 增 全 长                 软件 检 测 简 单 重 复 序 列 标 记 ( simple sequence
            cDNAꎬ利用 NEBNext End repair / dA ̄tailing Module     repeatsꎬSSR)ꎬ设 置 单 核 苷 酸、 二 核 苷 酸、 三 核 苷
            末端修读及加 poly( A) 尾ꎬONT SQKLSK109 试剂                 酸、四核苷酸、五核苷酸及六核苷酸的最少重复次
            盒及 NEBNext Quick Ligationg Module 用于测序接            数分别为 10、 6、 5、 5、 5、 5ꎬ其余参数默认(Beier et
            头的连接ꎮ 建好的文库采用 PromethION( Oxford                   al.ꎬ 2017 )ꎮ 利 用 CNCI v 2 ( Coding ̄Non ̄Coding
            Nanopore Technologies 公司ꎬ英国) 测序平台 进 行              IndexꎬSun et al.ꎬ 2013)、 plek v 1. 2 ( Predictor of
            测序ꎮ                                                Long Non ̄coding RNAs and mRNAs Based on k ̄mer
            1.2.2 数据处理  测序完成后对原始数据进行过                          Schemeꎬ Li et al.ꎬ 2014 )、 CPC2 v 0. 1 ( Coding
            滤ꎬ 去 除 接 头 以 及 低 质 量 的 readsꎮ 采 用 软 件              Potential Calculator 2ꎬKang et al.ꎬ2017) 软件以及
            SMRTlink v8. 0 ( https: / / www. pacb. com / support/  Pfam 数据库(Finn et al.ꎬ2014)对 PacBio 测序数据
            software ̄downloads)进行过滤和处理ꎮ 参数设置:                  进行编码潜能预测( 参数设为默认)ꎬ获得的长非
            -minLength 50( 最 小 长 度 为 50 bp)ꎬ - maxLength       编码 RNA( long non ̄coding RNAꎬLncRNA) 用于后
            15 000(最大长度为 15 000 bp)ꎬ-minPasses 1( 最            续分析ꎮ
            小的 fullpass 数为 1)ꎮ 利用 subread.bam 文件得到

            环 形 一 致 性 序 列 ( circular consistency sequenceꎬ     2  结果与分析
            CCS)ꎬ对其进行分类ꎬ搜寻并聚类 FLNC 序列ꎬ得
            到 consensus 序 列ꎮ 利 用 Arrow 软 件 对 得 到 的             2.1 全长转录组测序及组装
            consensus 序列进行校正ꎬ获得高质量的全长优化                            经 SMRT ( Single ̄Molecule Real ̄Time) 测序共
            序列(polished consensus)用于后续分析ꎬ最终统计                  获 得 17 Gb 的 原 始 数 据ꎮ 对 其 过 滤 后 获 得
            得 到 有 效 数 据ꎮ 为 提 高 数 据 的 准 确 性ꎬ 利 用                17 315 066 个 subreadsꎮ 基于 subread.bam 文件获
            LoRDEC 软件(Salmela & Rivalsꎬ2014)对转录本进              得795 698 个 CCS 序列ꎬN50 长度为 2 143 bpꎬ最
   164   165   166   167   168   169   170   171   172   173   174