构建索引文件
SAW makeRef
用于构建SAW count需要参考基因组索引文件的辅助分析流程。
SAW makeRef 支持三种常用生信分析软件的索引构建,使用 --mode 参数来指定运行的模式。
STOmics 研发中心已预先构建了可直接使用的参考基因组索引文件,可直接从从下载中心获取。
转录组比对
STAR 索引文件
需要注释文件 (GTF/GFF) 和参考基因组 (FASTA) 来构建索引文件,用于测序 reads 的比对和注释。STOmics 研究团队和英特尔的开发团队一起重建了索引文件的结构,加快索引的读取、搜索的速度,进而提高比对的效率。
构建转录组索引文件用于STAR比对:
cd /saw/datasets/reference
saw makeRef \
--mode=STAR \
--fasta=/path/to/FASTA \
--gtf=/path/to/GTF/or/GFF \
--genome=./transcriptome
运行命令行后,程序会自动生成 SAW 分析所需的目录结构,在 --genome 目录下生成索引文件和其他相关文件,包括:
./transcriptome/fasta- 所有输入 FASTA 文件./transcriptome/genes- 注释文件./transcriptome/STAR由 STOmics Tech 优化算法后的 STAR 索引文件
SAW 8.2 开始,使用 makeRef 构建 STAR 索引时,将自动执行 checkGTF 检查操作,确保 ./transcriptome/genes 下的输出 GTF/GFF 已进行格式检查,能够符合 SAW count 分析流程中的 read 注释要求。如果输入的 GTF/GFF 文件存在内容或格式的问题,请根据 checkGTF 输出的检查日志进行修改处理。
/saw/datasets/reference/transcriptome
├── fasta
│ └── genome.fa
├── genes
│ ├── checkGTF_YYYYMMDD_HHMMSS.log
│ └── genes.gtf
└── STAR
├── chrLength.txt
├── chrNameLength.txt
├── chrName.txt
├── chrStart.txt
├── exonGeTrInfo.tab
├── exonInfo.tab
├── FMindex
├── geneInfo.tab
├── Genome
├── genomeParameters.txt
├── SA
├── SAindex
├── SAindexAux
├── sjdbInfo.txt
├── sjdbList.fromGTF.out.tab
├── sjdbList.out.tab
└── transcriptInfo.tab
STOmics 开发团队在 makeRef 模块增加了独有的功能参数,使得 SAW makeRef 的功能性和易用性更强大。
--fasta:接受一个或多个 FASTA 基因组文件并合并所有输入文件;--rRNA-fasta:接受 rRNA 信息并将其添加到 --fasta 的基础基因组中。--gtf:接受 GTF/GFF 注释文件并调用 checkGTF 模块检查文件格式。--genome:是构建 SAW 兼容参考文件夹所必需的。请为该参数指定一个不存在的文件夹名称。
需要注意,以上四个参数只能以 SAW makeRef 的模块参数形式输入,而不能通过 --params-config 输入。
添加 rRNA 信息
如果计划在 SAW 分析中去除 rRNA 片段,使用 --rRNA-FASTA 参数来指定 rRNA 信息,将添加其到参考基因组 --fasta 中。
信息处理的关键步骤:
Step 1:鉴于传至 --rRNA-FASTA 参数的 rRNA 信息具有片段短且重复度高的特点,流程首先会对其进行去冗余;
Step 2:将 rRNA 信息添加到 --fasta 文件中,会在染色体信息列上增加“_rRNA”后缀,例如:“1_rRNA”,以区分 rRNA 区域和基本的参考基因组;
Step 3:基于添加了去重 rRNA 信息的参考基因组,构建索引文件。
cd /saw/datasets/reference
saw makeRef \
--mode=STAR \
--fasta=/path/to/FASTA \
--gtf=/path/to/GTF/or/GFF \
--rRNA-fasta=/path/to/rRNA/FASTA \
--genome=./transcriptome_with_rRNA
输出结果和目录结构不变:
/saw/datasets/reference/transcriptome_with_rRNA
├── fasta
│ └── genome.fa
├── genes
│ ├── checkGTF_YYYYMMDD_HHMMSS.log
│ └── genes.gtf
└── STAR
├── chrLength.txt
├── chrNameLength.txt
├── chrName.txt
├── chrStart.txt
├── exonGeTrInfo.tab
├── exonInfo.tab
├── FMindex
├── geneInfo.tab
├── Genome
├── genomeParameters.txt
├── SA
├── SAindex
├── SAindexAux
├── sjdbInfo.txt
├── sjdbList.fromGTF.out.tab
├── sjdbList.out.tab
└── transcriptInfo.tab
特殊参数设置
在处理特定的基因组数据集时,例如:异常大的基因组,默认参数设置可能会导致索引构建失败。或者,在处理小的基因组片段或较长的内含子区域时,makeRef 的默认设置不足以满足进一步的分析需求。
--params-config 参数支持调用和调整更细致的STAR参数,只需将 STAR 中的原始参数以纯字符串形式输入
当基因组包含过多的染色体或 scaffolds时(例如:超过 5,000 个),在构建参考基因组时,计算内存可能会不足。为了减少 RAM 消耗,可以参考如下计算公式进行设置:\
--genomeChrBinNbits= min(18,log2[max(GenomeLength/number of references, ReadLength)])。假设参考基因组 A 的大小为 14 GB,包含 90,000 个染色体或 scaffolds,则根据上述公式计算 --genomeChrBinNbits 的值,得到参数建议值为17。
如果想了解更多关于索引构建的参数使用细节,以及特殊基因组的索引构建的参数设置,请参考STAR用户手册
saw/datasets/reference
saw makeRef \
--mode=STAR \
--fasta=/path/to/FASTA \
--gtf=/path/to/GTF/or/GFF \
--genome=./transcriptome \
--params-config='--genomeChrBinNbints=17 --runThreadN=24'
快速使用
SAW count 分析对所使用的索引文件目录结构有要求,请按如下方式设置 --reference参数:
saw count \
...
--reference=/saw/datasets/reference/transcriptome
or
saw count \
...
--reference=/saw/datasets/reference/transcriptome_with_rRNA
微生物比对
SAW count 支持对 Stereo-seq FFPE 的组织样本开展微生物分析,如果你的样本适用微生物比对分析,请在运行 SAW count 时同时设置 --microorganism-detect 和 --ref-libraries
在启动分析之前,应分别构建所需的索引文件,STAR 用于宿主的转录组比对,Bowtie2 用于去除宿主的基因组, Kraken2 用于微生物的探索和分类。
Bowtie2 索引文件
在 SAW count 分析流程中,在进行微生物比对分析前,需要使用 Bowtie2 工具从 unmapped reads 中去除宿主的基因组信息。
#Scenario 1
cd /saw/datasets/reference
saw makeRef \
--mode=Bowtie2 \
--fasta=/path/to/host/FASTA1,/path/to/host/FASTA2,... \
--basename=mouse_genome_rRNA \
--genome=./Bowtie2
运行命令行后,输出目录包含这些文件:
/saw/dataset/reference/Bowtie2
├── mouse_genome_rRNA.fa #Host FASTA
├── mouse_genome_rRNA.1.bt2 ##Bowtie2 index files, suffixed with .bt2
├── mouse_genome_rRNA.2.bt2
├── mouse_genome_rRNA.3.bt2
├── mouse_genome_rRNA.4.bt2
├── mouse_genome_rRNA.rev.1.bt2
└── mouse_genome_rRNA.rev.2.bt2
# Senario 2
cd /saw/datasets/reference
saw makeRef \
--mode=Bowtie2 \
--params-csv=/path/to/parameter/setting/Bowtie2_build.csv
--params-csv 中的参数设置内容:
Parameter,Value
,/path/to/host/FASTA1,/path/to/host/FASTA2,...
,<basename>
Kraken2 索引文件
Kraken2 是专为基因组的生物分类比对而设计开发的生信工具,在 SAW count 微生物比对分析中,可以快速准确地识别环境样本或复杂微生物群落中存在的微生物,你可以从 Kraken2 数据库网站 下载所需数据库。
#Scenario 1
cd /saw/datasets/reference
##Step 1 (optional) if needed,add FASTAs needed for a customed database
saw makeRef \
--mode=Kraken2 \
--fasta=/path/to/host/FASTA1,/path/to/host/FASTA2,... \
--database=/path/to/Kraken2/database
##Step 2 build
saw makeRef \
--mode=Kraken2 \
--database=/path/to/Kraken2/database
构建 Kraken2 索引文件时,无需指定--genome参数,直接基于 database 数据进行构建。
在构建客制化 database 的 Step 2 之前,需要在 database 目录下构建 ./taxonomy/,具体文件可以从 NCBI/Taxonomy 获取。
运行命令行后,输出目录包含以下文件:
/saw/datasets/reference/Kraken2_db1
├── hash.k2d ##Contains the minimizer to taxon mappings
├── opts.k2d ##Contains information about the options used to build the database
├── taxo.k2d ##Contains taxonomy information used to build the database
├── inspect.txt
├── seqid2taxid.map
├── database100mers.kmer_distrib
├── database150mers.kmer_distrib
├── database200mers.kmer_distrib
├── database250mers.kmer_distrib
├── database300mers.kmer_distrib
├── database50mers.kmer_distrib
└── database75mers.kmer_distrib
#Scenario 2
cd /saw/datasets/reference
saw makeRef \
--mode=Kraken2 \
--params-csv=/path/to/parameter/setting/Kraken2_build.csv
--params-csv 中的参数设置内容:
Parameter,Value
--add-to-library,/path/to/fasta
--db,/path/to/db
Reference libraries
在为 STAR、Bowtie2 和 Kraken2 构建索引文件后,需要构建一个 --ref-libraries 参数所需的配置 CSV,将微生物比对分析需要用到的数据文件进行整合。
Reference,Type
/saw/datasets/reference/transcriptome,STAR
/saw/datasets/reference/Bowtie2,Bowtie2
/saw/datasets/reference/Kraken2_db1,Kraken2
--ref-libraries 与 --reference两个参数不可同时使用!