构建索引文件

SAW makeRef

用于构建SAW count需要参考基因组索引文件的辅助分析流程。

SAW makeRef 支持三种常用生信分析软件的索引构建,使用 --mode 参数来指定运行的模式。

STOmics 研发中心已预先构建了可直接使用的参考基因组索引文件,可直接从从下载中心获取。

转录组比对

STAR 索引文件

需要注释文件 (GTF/GFF) 和参考基因组 (FASTA) 来构建索引文件,用于测序 reads 的比对和注释。STOmics 研究团队和英特尔的开发团队一起重建了索引文件的结构,加快索引的读取、搜索的速度,进而提高比对的效率。

构建转录组索引文件用于STAR比对:

cd /saw/datasets/reference

saw makeRef \
    --mode=STAR \
    --fasta=/path/to/FASTA \
    --gtf=/path/to/GTF/or/GFF \
    --genome=./transcriptome

运行命令行后,程序会自动生成 SAW 分析所需的目录结构,在 --genome 目录下生成索引文件和其他相关文件,包括:

  • ./transcriptome/fasta- 所有输入 FASTA 文件
  • ./transcriptome/genes - 注释文件
  • ./transcriptome/STAR 由 STOmics Tech 优化算法后的 STAR 索引文件

SAW 8.2 开始,使用 makeRef 构建 STAR 索引时,将自动执行 checkGTF 检查操作,确保 ./transcriptome/genes 下的输出 GTF/GFF 已进行格式检查,能够符合 SAW count 分析流程中的 read 注释要求。如果输入的 GTF/GFF 文件存在内容或格式的问题,请根据 checkGTF 输出的检查日志进行修改处理。

/saw/datasets/reference/transcriptome
├── fasta
│     └── genome.fa
├── genes
│     ├── checkGTF_YYYYMMDD_HHMMSS.log
│     └── genes.gtf
└── STAR
      ├── chrLength.txt
      ├── chrNameLength.txt
      ├── chrName.txt
      ├── chrStart.txt
      ├── exonGeTrInfo.tab
      ├── exonInfo.tab
      ├── FMindex
      ├── geneInfo.tab
      ├── Genome
      ├── genomeParameters.txt
      ├── SA
      ├── SAindex
      ├── SAindexAux
      ├── sjdbInfo.txt
      ├── sjdbList.fromGTF.out.tab
      ├── sjdbList.out.tab
      └── transcriptInfo.tab

STOmics 开发团队在 makeRef 模块增加了独有的功能参数,使得 SAW makeRef 的功能性和易用性更强大。

  • --fasta :接受一个或多个 FASTA 基因组文件并合并所有输入文件;
  • --rRNA-fasta :接受 rRNA 信息并将其添加到 --fasta 的基础基因组中。
  • --gtf :接受 GTF/GFF 注释文件并调用 checkGTF 模块检查文件格式。
  • --genome :是构建 SAW 兼容参考文件夹所必需的。请为该参数指定一个不存在的文件夹名称。

需要注意,以上四个参数只能以 SAW makeRef 的模块参数形式输入,而不能通过 --params-config 输入。

添加 rRNA 信息

如果计划在 SAW 分析中去除 rRNA 片段,使用 --rRNA-FASTA 参数来指定 rRNA 信息,将添加其到参考基因组 --fasta 中。

信息处理的关键步骤:

Step 1:鉴于传至 --rRNA-FASTA 参数的 rRNA 信息具有片段短且重复度高的特点,流程首先会对其进行去冗余;

Step 2:将 rRNA 信息添加到 --fasta 文件中,会在染色体信息列上增加“_rRNA”后缀,例如:“1_rRNA”,以区分 rRNA 区域和基本的参考基因组;

Step 3:基于添加了去重 rRNA 信息的参考基因组,构建索引文件。

cd /saw/datasets/reference

saw makeRef \
    --mode=STAR \
    --fasta=/path/to/FASTA \
    --gtf=/path/to/GTF/or/GFF \
    --rRNA-fasta=/path/to/rRNA/FASTA \
    --genome=./transcriptome_with_rRNA

输出结果和目录结构不变:

/saw/datasets/reference/transcriptome_with_rRNA         
├── fasta
│     └── genome.fa
├── genes
│     ├── checkGTF_YYYYMMDD_HHMMSS.log
│     └── genes.gtf
└── STAR
      ├── chrLength.txt
      ├── chrNameLength.txt
      ├── chrName.txt
      ├── chrStart.txt
      ├── exonGeTrInfo.tab
      ├── exonInfo.tab
      ├── FMindex
      ├── geneInfo.tab
      ├── Genome
      ├── genomeParameters.txt
      ├── SA
      ├── SAindex
      ├── SAindexAux
      ├── sjdbInfo.txt
      ├── sjdbList.fromGTF.out.tab
      ├── sjdbList.out.tab
      └── transcriptInfo.tab

特殊参数设置

在处理特定的基因组数据集时,例如:异常大的基因组,默认参数设置可能会导致索引构建失败。或者,在处理小的基因组片段或较长的内含子区域时,makeRef 的默认设置不足以满足进一步的分析需求。

--params-config 参数支持调用和调整更细致的STAR参数,只需将 STAR 中的原始参数以纯字符串形式输入

当基因组包含过多的染色体或 scaffolds时(例如:超过 5,000 个),在构建参考基因组时,计算内存可能会不足。为了减少 RAM 消耗,可以参考如下计算公式进行设置:\ --genomeChrBinNbits= min(18,log2[max(GenomeLength/number of references, ReadLength)])。假设参考基因组 A 的大小为 14 GB,包含 90,000 个染色体或 scaffolds,则根据上述公式计算 --genomeChrBinNbits 的值,得到参数建议值为17。

如果想了解更多关于索引构建的参数使用细节,以及特殊基因组的索引构建的参数设置,请参考STAR用户手册

saw/datasets/reference

saw makeRef \
    --mode=STAR \
    --fasta=/path/to/FASTA \
    --gtf=/path/to/GTF/or/GFF \
    --genome=./transcriptome \
    --params-config='--genomeChrBinNbints=17 --runThreadN=24'

快速使用

SAW count 分析对所使用的索引文件目录结构有要求,请按如下方式设置 --reference参数:

saw count \
...
--reference=/saw/datasets/reference/transcriptome

or

saw count \
...
--reference=/saw/datasets/reference/transcriptome_with_rRNA

微生物比对

SAW count 支持对 Stereo-seq FFPE 的组织样本开展微生物分析,如果你的样本适用微生物比对分析,请在运行 SAW count 时同时设置 --microorganism-detect--ref-libraries

在启动分析之前,应分别构建所需的索引文件,STAR 用于宿主的转录组比对,Bowtie2 用于去除宿主的基因组, Kraken2 用于微生物的探索和分类。

Bowtie2 索引文件

SAW count 分析流程中,在进行微生物比对分析前,需要使用 Bowtie2 工具从 unmapped reads 中去除宿主的基因组信息。

#Scenario 1
cd /saw/datasets/reference

saw makeRef \
    --mode=Bowtie2 \
    --fasta=/path/to/host/FASTA1,/path/to/host/FASTA2,... \
    --basename=mouse_genome_rRNA \
    --genome=./Bowtie2

运行命令行后,输出目录包含这些文件:

/saw/dataset/reference/Bowtie2
├── mouse_genome_rRNA.fa  #Host FASTA
├── mouse_genome_rRNA.1.bt2  ##Bowtie2 index files, suffixed with .bt2
├── mouse_genome_rRNA.2.bt2
├── mouse_genome_rRNA.3.bt2
├── mouse_genome_rRNA.4.bt2
├── mouse_genome_rRNA.rev.1.bt2
└── mouse_genome_rRNA.rev.2.bt2

SAW makeRef 提供了 bowtie2-build 构建索引时用到的基础、必要参数,用于 SAW count 的微生物分析。

有三种方法可以实现 Bowtie2 工具的全部功能:

  • 使用原始 Bowtie2 软件;
  • 使用 --params-config 直接传入原始 Bowtie2的复杂参数,将原始参数以纯字符串形式输入即可。
  • 使用--params-csv 参数,调用 Bowtie2 工具的原始参数命令。

# Senario 2
cd /saw/datasets/reference

saw makeRef \
    --mode=Bowtie2 \
    --params-csv=/path/to/parameter/setting/Bowtie2_build.csv

--params-csv 中的参数设置内容:

Parameter,Value
,/path/to/host/FASTA1,/path/to/host/FASTA2,...
,<basename>

Kraken2 索引文件

Kraken2 是专为基因组的生物分类比对而设计开发的生信工具,在 SAW count 微生物比对分析中,可以快速准确地识别环境样本或复杂微生物群落中存在的微生物,你可以从 Kraken2 数据库网站 下载所需数据库。

#Scenario 1 
cd /saw/datasets/reference

##Step 1 (optional) if needed,add FASTAs needed for a customed database
saw makeRef \
    --mode=Kraken2 \
    --fasta=/path/to/host/FASTA1,/path/to/host/FASTA2,... \
    --database=/path/to/Kraken2/database

##Step 2 build
saw makeRef \
    --mode=Kraken2 \
    --database=/path/to/Kraken2/database

构建 Kraken2 索引文件时,无需指定--genome参数,直接基于 database 数据进行构建。

在构建客制化 database 的 Step 2 之前,需要在 database 目录下构建 ./taxonomy/,具体文件可以从 NCBI/Taxonomy 获取。

运行命令行后,输出目录包含以下文件:

/saw/datasets/reference/Kraken2_db1
├── hash.k2d  ##Contains the minimizer to taxon mappings
├── opts.k2d  ##Contains information about the options used to build the database
├── taxo.k2d  ##Contains taxonomy information used to build the database
├── inspect.txt
├── seqid2taxid.map
├── database100mers.kmer_distrib
├── database150mers.kmer_distrib
├── database200mers.kmer_distrib
├── database250mers.kmer_distrib
├── database300mers.kmer_distrib
├── database50mers.kmer_distrib
└── database75mers.kmer_distrib

SAW makeRef 提构建索引时用到的基础、必要参数,用于 SAW count 的微生物分析。

有两种方法可实现 Kraken2 的全部功能。

  • 使用原始 Kraken2
  • 使用 --params-config 直接传入原始 Kraken2 的复杂参数,将原始参数以纯字符串形式输入即可。
  • 使用--params-csv 参数,调用 Kraken2 工具的原始参数命令。

#Scenario 2
cd /saw/datasets/reference

saw makeRef \
    --mode=Kraken2 \
    --params-csv=/path/to/parameter/setting/Kraken2_build.csv

--params-csv 中的参数设置内容:

Parameter,Value
--add-to-library,/path/to/fasta
--db,/path/to/db

Reference libraries

在为 STAR、Bowtie2 和 Kraken2 构建索引文件后,需要构建一个 --ref-libraries 参数所需的配置 CSV,将微生物比对分析需要用到的数据文件进行整合。

Reference,Type
/saw/datasets/reference/transcriptome,STAR
/saw/datasets/reference/Bowtie2,Bowtie2
/saw/datasets/reference/Kraken2_db1,Kraken2

--ref-libraries--reference两个参数不可同时使用!

© 2025 STOmics Tech. All rights reserved.Modified: 2025-12-29 19:47:43

results matching ""

    No results matching ""