rRNA信息获取
rRNA (ribosomal RNA)
什么是 rRNA?
rRNA (ribosomal RNA) 是核糖体的主要成分,而核糖体是负责细胞蛋白质合成的分子机器。rRNA与mRNA和tRNA相互作用,催化肽键形成,在翻译过程中起着至关重要的作用。rRNA可根据功能和位置分为以下几种类型:
- 5S rRNA: 存在于核糖体大亚基中,主要参与维持核糖体结构;
- 16S rRNA (原核生物) / 18S rRNA (真核生物): 存在于核糖体小亚基中,负责mRNA识别和翻译起始;
- 23S rRNA (原核生物) / 28S rRNA (真核生物): 存在于核糖体大亚基中,参与肽键形成和翻译延伸;
- 5.8S rRNA (真核生物): 存在于核糖体大亚基中,与 28S 和 5S rRNA 一起维持核糖体功能。
出现于RNA测序中
RNA测序(RNA-seq)实验中,rRNA的出现有以下主要原因:
- rRNA丰度高:rRNA占细胞总RNA的80%-90%,是含量最丰富的RNA类型。
- 实验步骤中的非特异性捕获:在RNA提取和文库制备过程中,rRNA可能被非特异性捕获并被纳入测序文库。
- 未去除或未完全去除rRNA:不使用特定的rRNA去除试剂盒,或者即使使用了此类试剂盒,仍可能残留少量rRNA。
rRNA是细胞中最丰富的RNA类型,在RNA-seq实验中不可避免地存在。因此,其序列在测序数据中占据了相当大的比例。在这些实验中使用rRNA去除试剂盒去除rRNA可以降低测序深度要求,从而降低成本。rRNA序列不包含靶基因表达的信息,可能会干扰靶基因表达的定量和差异表达分析。为了提高测序数据的有效利用率,以及数据分析的准确性,可以选择在实验环节和计算处理步骤中去除rRNA。
从RNAcentral获取信息
RNAcentral 由欧洲生物信息学研究所 (EBI) 开发的综合性非编码 RNA (ncRNA) 数据库。它整合了来自多个专业数据库(例如 Ensembl、GENCODE、miRBase、Rfam)的 ncRNA 数据,为 ncRNA 研究提供统一的参考平台。
搜索rRNA信息
The following three search methods are provided on the homepage:
- "Text search" searches the RNA sequences based on the provided keywords.
- "Sequence search" aligns the input unknown fragments with databases to retrieve specific RNA information.
- "Genome browser" provides a genome browser, where analysts can select a species, specify a chromosome location, and view the distribution of genes and sequences within a target interval.
主页提供以下三种检索方式:
- "Text search" 根据提供的关键词检索RNA序列;
- "Sequence search" 将输入的未知片段与数据库比对,以检索特定的RNA信息;
- "Genome browser" 提供了一个基因组浏览器,分析人员可以选择物种,指定染色体位置,并查看目标区间内基因和序列的分布情况。
建议使用 "Text search" 来搜索 rRNA 信息。如果已知目标 rRNA 的名称、物种、组织类型、序列长度、RNA 类型(例如 5S、18S 等)或其他文本信息,请在搜索窗口中输入这些信息。总之,根据分析需求选择合适的限定词。\ 例如:搜索人类的 18S rRNA 时,将显示多条 rRNA 记录。每条搜索记录下方都会显示 RNA 来源的数据库。请下载 FASTA 文件格式的所需 rRNA 信息。
 (1).png)
Search in RNAcentral
下载得到的 rRNA FASTA 文件压缩为 *.fasta.gz。请务必先使用 gunzip 解压文件。
包含rRNA信息的预构建索引
为方便使用,STOmics 研发团队已整理了人类(Homo sapiens)和小鼠(Mus musculus)的通用 rRNA 信息,可直接从数据集下载包含 rRNA 信息的 STAR 索引文件和 Bowtie2 索引文件。
| Index file | Description | File information |
|---|---|---|
| reference-data-mouse-rRNA.tar.gz | Mouse reference with rRNA information for STAR alignment, including genome file, annotation file and index files. | File size: 28.03GB md5sum: 6fa47b14dc26321d1cab691baee4fb2f |
| reference-data-human-rRNA.tar.gz | Human reference with rRNA information for STAR alignment, including genome file, annotation file and index files. | File size: 31.47GB md5sum: a86ceda324fa300d18f48b77502e5274 |
##with wget
#mouse
wget -c https://demo.stomicsdb.tech/STOmics_Reference_Released/Transcriptome/reference-data-mouse-rRNA.tar.gz
#human
wget -c https://demo.stomicsdb.tech/STOmics_Reference_Released/Transcriptome/reference-data-human-rRNA.tar.gz
##with curl
#mouse
curl -C - -O https://demo.stomicsdb.tech/STOmics_Reference_Released/Transcriptome/reference-data-mouse-rRNA.tar.gz
#human
curl -C - -O https://demo.stomicsdb.tech/STOmics_Reference_Released/Transcriptome/reference-data-human-rRNA.tar.gz
Remove rRNA
如果计划在 SAW 分析过程中去除 rRNA 片段,请确保以下设置:
- 已将特定的 rRNA 信息添加到转录组参考;
- 使用
--rRNA-remove参数启动SAW count分析。
添加rRNA信息至基因组
如果计划在 SAW 分析中去除 rRNA 片段,使用 --rRNA-FASTA 参数来指定 rRNA 信息,将添加其到参考基因组 --fasta 中。
信息处理的关键步骤:
Step 1:鉴于传至 --rRNA-FASTA 参数的 rRNA 信息具有片段短且重复度高的特点,流程首先会对其进行去冗余;
Step 2:将 rRNA 信息添加到 --fasta 文件中,会在染色体信息列上增加“_rRNA”后缀,例如:“1_rRNA”,以区分 rRNA 区域和基本的参考基因组;
Step 3:基于添加了去重 rRNA 信息的参考基因组,构建索引文件。
cd /saw/datasets/reference
saw makeRef \
--mode=STAR \
--fasta=/path/to/FASTA \
--rRNA-fasta=/path/to/rRNA/FASTA \
--gtf=/path/to/GTF/or/GFF \
--genome=./transcriptome_with_rRNA
运行count分析
以一个FFPE样本的分析作为示例:
cd /saw/runs
saw count \
--id=rRNA_removal \
--sn=<SN> \
--omics=transcriptomics \
--kit-version="Stereo-seq N FFPE V1.1" \
--sequencing-type="PE75_25+62" \
--chip-mask=/path/to/chip/mask \
--fastqs=/path/to/fastq/folders \
--image-tar=/path/to/image/tar \
--reference=/path/to/reference/transcriptome_with_rRNA \
--rRNA-remove