rRNA信息获取

rRNA (ribosomal RNA)

什么是 rRNA?

rRNA (ribosomal RNA) 是核糖体的主要成分,而核糖体是负责细胞蛋白质合成的分子机器。rRNA与mRNA和tRNA相互作用,催化肽键形成,在翻译过程中起着至关重要的作用。rRNA可根据功能和位置分为以下几种类型:

  • 5S rRNA: 存在于核糖体大亚基中,主要参与维持核糖体结构;
  • 16S rRNA (原核生物) / 18S rRNA (真核生物): 存在于核糖体小亚基中,负责mRNA识别和翻译起始;
  • 23S rRNA (原核生物) / 28S rRNA (真核生物): 存在于核糖体大亚基中,参与肽键形成和翻译延伸;
  • 5.8S rRNA (真核生物): 存在于核糖体大亚基中,与 28S 和 5S rRNA 一起维持核糖体功能。

出现于RNA测序中

RNA测序(RNA-seq)实验中,rRNA的出现有以下主要原因:

  • rRNA丰度高:rRNA占细胞总RNA的80%-90%,是含量最丰富的RNA类型。
  • 实验步骤中的非特异性捕获:在RNA提取和文库制备过程中,rRNA可能被非特异性捕获并被纳入测序文库。
  • 未去除或未完全去除rRNA:不使用特定的rRNA去除试剂盒,或者即使使用了此类试剂盒,仍可能残留少量rRNA。

rRNA是细胞中最丰富的RNA类型,在RNA-seq实验中不可避免地存在。因此,其序列在测序数据中占据了相当大的比例。在这些实验中使用rRNA去除试剂盒去除rRNA可以降低测序深度要求,从而降低成本。rRNA序列不包含靶基因表达的信息,可能会干扰靶基因表达的定量和差异表达分析。为了提高测序数据的有效利用率,以及数据分析的准确性,可以选择在实验环节和计算处理步骤中去除rRNA。

RNAcentral获取信息

RNAcentral 由欧洲生物信息学研究所 (EBI) 开发的综合性非编码 RNA (ncRNA) 数据库。它整合了来自多个专业数据库(例如 Ensembl、GENCODE、miRBase、Rfam)的 ncRNA 数据,为 ncRNA 研究提供统一的参考平台。

搜索rRNA信息

The following three search methods are provided on the homepage:

  • "Text search" searches the RNA sequences based on the provided keywords.
  • "Sequence search" aligns the input unknown fragments with databases to retrieve specific RNA information.
  • "Genome browser" provides a genome browser, where analysts can select a species, specify a chromosome location, and view the distribution of genes and sequences within a target interval.

主页提供以下三种检索方式:

  • "Text search" 根据提供的关键词检索RNA序列;
  • "Sequence search" 将输入的未知片段与数据库比对,以检索特定的RNA信息;
  • "Genome browser" 提供了一个基因组浏览器,分析人员可以选择物种,指定染色体位置,并查看目标区间内基因和序列的分布情况。

建议使用 "Text search" 来搜索 rRNA 信息。如果已知目标 rRNA 的名称、物种、组织类型、序列长度、RNA 类型(例如 5S、18S 等)或其他文本信息,请在搜索窗口中输入这些信息。总之,根据分析需求选择合适的限定词。\ 例如:搜索人类的 18S rRNA 时,将显示多条 rRNA 记录。每条搜索记录下方都会显示 RNA 来源的数据库。请下载 FASTA 文件格式的所需 rRNA 信息。

Search in RNAcentral

下载得到的 rRNA FASTA 文件压缩为 *.fasta.gz。请务必先使用 gunzip 解压文件。

包含rRNA信息的预构建索引

为方便使用,STOmics 研发团队已整理了人类(Homo sapiens)和小鼠(Mus musculus)的通用 rRNA 信息,可直接从数据集下载包含 rRNA 信息的 STAR 索引文件和 Bowtie2 索引文件。

Index file Description File information
​reference-data-mouse-rRNA.tar.gz​ Mouse reference with rRNA information for STAR alignment, including genome file, annotation file and index files. File size: 28.03GB md5sum: 6fa47b14dc26321d1cab691baee4fb2f
​reference-data-human-rRNA.tar.gz​ Human reference with rRNA information for STAR alignment, including genome file, annotation file and index files. File size: 31.47GB md5sum: a86ceda324fa300d18f48b77502e5274
##with wget
#mouse
wget -c https://demo.stomicsdb.tech/STOmics_Reference_Released/Transcriptome/reference-data-mouse-rRNA.tar.gz

#human
wget -c https://demo.stomicsdb.tech/STOmics_Reference_Released/Transcriptome/reference-data-human-rRNA.tar.gz

##with curl
#mouse
curl -C - -O https://demo.stomicsdb.tech/STOmics_Reference_Released/Transcriptome/reference-data-mouse-rRNA.tar.gz

#human
curl -C - -O https://demo.stomicsdb.tech/STOmics_Reference_Released/Transcriptome/reference-data-human-rRNA.tar.gz

Remove rRNA

如果计划在 SAW 分析过程中去除 rRNA 片段,请确保以下设置:

  • 已将特定的 rRNA 信息添加到转录组参考;
  • 使用 --rRNA-remove 参数启动 SAW count 分析。

添加rRNA信息至基因组

如果计划在 SAW 分析中去除 rRNA 片段,使用 --rRNA-FASTA 参数来指定 rRNA 信息,将添加其到参考基因组 --fasta 中。

信息处理的关键步骤:

Step 1:鉴于传至 --rRNA-FASTA 参数的 rRNA 信息具有片段短且重复度高的特点,流程首先会对其进行去冗余;

Step 2:将 rRNA 信息添加到 --fasta 文件中,会在染色体信息列上增加“_rRNA”后缀,例如:“1_rRNA”,以区分 rRNA 区域和基本的参考基因组;

Step 3:基于添加了去重 rRNA 信息的参考基因组,构建索引文件。

cd /saw/datasets/reference

saw makeRef \
    --mode=STAR \
    --fasta=/path/to/FASTA \
    --rRNA-fasta=/path/to/rRNA/FASTA \
    --gtf=/path/to/GTF/or/GFF \
    --genome=./transcriptome_with_rRNA

运行count分析

以一个FFPE样本的分析作为示例:

cd /saw/runs

saw count \
    --id=rRNA_removal \
    --sn=<SN> \
    --omics=transcriptomics \
    --kit-version="Stereo-seq N FFPE V1.1" \
    --sequencing-type="PE75_25+62" \
    --chip-mask=/path/to/chip/mask \
    --fastqs=/path/to/fastq/folders \
    --image-tar=/path/to/image/tar \
    --reference=/path/to/reference/transcriptome_with_rRNA \
    --rRNA-remove
© 2025 STOmics Tech. All rights reserved.Modified: 2025-12-29 19:47:43

results matching ""

    No results matching ""