构建索引文件

SAW makeRef

用于构建SAW count需要参考基因组索引文件的辅助分析流程。

SAW makeRef 支持三种常用生信分析软件的索引构建，使用 --mode 参数来指定运行的模式。

STOmics 研发中心已预先构建了可直接使用的参考基因组索引文件，可直接从从下载中心获取。

转录组比对

STAR 索引文件

需要注释文件（GTF/GFF）和参考基因组（FASTA）来构建索引文件，用于测序 reads 的比对和注释。STOmics 研究团队和英特尔的开发团队一起重建了索引文件的结构，加快索引的读取、搜索的速度，进而提高比对的效率。

构建转录组索引文件用于STAR比对：

cd /saw/datasets/reference

saw makeRef \
    --mode=STAR \
    --fasta=/path/to/FASTA \
    --gtf=/path/to/GTF/or/GFF \
    --genome=./transcriptome

运行命令行后，程序会自动生成 SAW 分析所需的目录结构，在 --genome 目录下生成索引文件和其他相关文件，包括:

./transcriptome/fasta- 所有输入 FASTA 文件
./transcriptome/genes - 注释文件
./transcriptome/STAR 由 STOmics Tech 优化算法后的 STAR 索引文件

SAW 8.2 开始，使用 makeRef 构建 STAR 索引时，将自动执行 checkGTF 检查操作，确保 ./transcriptome/genes 下的输出 GTF/GFF 已进行格式检查，能够符合 SAW count 分析流程中的 read 注释要求。如果输入的 GTF/GFF 文件存在内容或格式的问题，请根据 checkGTF 输出的检查日志进行修改处理。

/saw/datasets/reference/transcriptome
├── fasta
│     └── genome.fa
├── genes
│     ├── checkGTF_YYYYMMDD_HHMMSS.log
│     └── genes.gtf
└── STAR
      ├── chrLength.txt
      ├── chrNameLength.txt
      ├── chrName.txt
      ├── chrStart.txt
      ├── exonGeTrInfo.tab
      ├── exonInfo.tab
      ├── FMindex
      ├── geneInfo.tab
      ├── Genome
      ├── genomeParameters.txt
      ├── SA
      ├── SAindex
      ├── SAindexAux
      ├── sjdbInfo.txt
      ├── sjdbList.fromGTF.out.tab
      ├── sjdbList.out.tab
      └── transcriptInfo.tab

STOmics 开发团队在 makeRef 模块增加了独有的功能参数，使得 SAW makeRef 的功能性和易用性更强大。

--fasta ：接受一个或多个 FASTA 基因组文件并合并所有输入文件；
--rRNA-fasta ：接受 rRNA 信息并将其添加到 --fasta 的基础基因组中。
--gtf ：接受 GTF/GFF 注释文件并调用 checkGTF 模块检查文件格式。
--genome ：是构建 SAW 兼容参考文件夹所必需的。请为该参数指定一个不存在的文件夹名称。

需要注意，以上四个参数只能以 SAW makeRef 的模块参数形式输入，而不能通过 --params-config 输入。

添加 rRNA 信息

如果计划在 SAW 分析中去除 rRNA 片段，使用 --rRNA-FASTA 参数来指定 rRNA 信息，将添加其到参考基因组 --fasta 中。

信息处理的关键步骤：

Step 1：鉴于传至 --rRNA-FASTA 参数的 rRNA 信息具有片段短且重复度高的特点，流程首先会对其进行去冗余；

Step 2：将 rRNA 信息添加到 --fasta 文件中，会在染色体信息列上增加“_rRNA”后缀，例如：“1_rRNA”，以区分 rRNA 区域和基本的参考基因组；

Step 3：基于添加了去重 rRNA 信息的参考基因组，构建索引文件。

cd /saw/datasets/reference

saw makeRef \
    --mode=STAR \
    --fasta=/path/to/FASTA \
    --gtf=/path/to/GTF/or/GFF \
    --rRNA-fasta=/path/to/rRNA/FASTA \
    --genome=./transcriptome_with_rRNA

输出结果和目录结构不变：

/saw/datasets/reference/transcriptome_with_rRNA         
├── fasta
│     └── genome.fa
├── genes
│     ├── checkGTF_YYYYMMDD_HHMMSS.log
│     └── genes.gtf
└── STAR
      ├── chrLength.txt
      ├── chrNameLength.txt
      ├── chrName.txt
      ├── chrStart.txt
      ├── exonGeTrInfo.tab
      ├── exonInfo.tab
      ├── FMindex
      ├── geneInfo.tab
      ├── Genome
      ├── genomeParameters.txt
      ├── SA
      ├── SAindex
      ├── SAindexAux
      ├── sjdbInfo.txt
      ├── sjdbList.fromGTF.out.tab
      ├── sjdbList.out.tab
      └── transcriptInfo.tab

特殊参数设置

在处理特定的基因组数据集时，例如：异常大的基因组，默认参数设置可能会导致索引构建失败。或者，在处理小的基因组片段或较长的内含子区域时，makeRef 的默认设置不足以满足进一步的分析需求。

--params-config 参数支持调用和调整更细致的STAR参数，只需将 STAR 中的原始参数以纯字符串形式输入

当基因组包含过多的染色体或 scaffolds时（例如：超过 5,000 个），在构建参考基因组时，计算内存可能会不足。为了减少 RAM 消耗，可以参考如下计算公式进行设置：\ --genomeChrBinNbits= min(18,log2[max(GenomeLength/number of references, ReadLength)])。假设参考基因组 A 的大小为 14 GB，包含 90,000 个染色体或 scaffolds，则根据上述公式计算 --genomeChrBinNbits 的值，得到参数建议值为17。

如果想了解更多关于索引构建的参数使用细节，以及特殊基因组的索引构建的参数设置，请参考STAR用户手册

saw/datasets/reference

saw makeRef \
    --mode=STAR \
    --fasta=/path/to/FASTA \
    --gtf=/path/to/GTF/or/GFF \
    --genome=./transcriptome \
    --params-config='--genomeChrBinNbints=17 --runThreadN=24'

快速使用

SAW count 分析对所使用的索引文件目录结构有要求，请按如下方式设置 --reference参数：

saw count \
...
--reference=/saw/datasets/reference/transcriptome

or

saw count \
...
--reference=/saw/datasets/reference/transcriptome_with_rRNA

微生物比对

SAW count 支持对 Stereo-seq FFPE 的组织样本开展微生物分析，如果你的样本适用微生物比对分析，请在运行 SAW count 时同时设置 --microorganism-detect 和 --ref-libraries

在启动分析之前，应分别构建所需的索引文件，STAR 用于宿主的转录组比对，Bowtie2 用于去除宿主的基因组， Kraken2 用于微生物的探索和分类。

Bowtie2 索引文件

在 SAW count 分析流程中，在进行微生物比对分析前，需要使用 Bowtie2 工具从 unmapped reads 中去除宿主的基因组信息。

#Scenario 1
cd /saw/datasets/reference

saw makeRef \
    --mode=Bowtie2 \
    --fasta=/path/to/host/FASTA1,/path/to/host/FASTA2,... \
    --basename=mouse_genome_rRNA \
    --genome=./Bowtie2

运行命令行后，输出目录包含这些文件：

/saw/dataset/reference/Bowtie2
├── mouse_genome_rRNA.fa  #Host FASTA
├── mouse_genome_rRNA.1.bt2  ##Bowtie2 index files, suffixed with .bt2
├── mouse_genome_rRNA.2.bt2
├── mouse_genome_rRNA.3.bt2
├── mouse_genome_rRNA.4.bt2
├── mouse_genome_rRNA.rev.1.bt2
└── mouse_genome_rRNA.rev.2.bt2

SAW makeRef 提供了 bowtie2-build 构建索引时用到的基础、必要参数，用于 SAW count 的微生物分析。

有三种方法可以实现 Bowtie2 工具的全部功能：

使用原始 Bowtie2 软件；
使用 --params-config 直接传入原始 Bowtie2的复杂参数，将原始参数以纯字符串形式输入即可。
使用--params-csv 参数，调用 Bowtie2 工具的原始参数命令。

# Senario 2
cd /saw/datasets/reference

saw makeRef \
    --mode=Bowtie2 \
    --params-csv=/path/to/parameter/setting/Bowtie2_build.csv

--params-csv 中的参数设置内容：

Parameter,Value
,/path/to/host/FASTA1,/path/to/host/FASTA2,...
,<basename>

Kraken2 索引文件

Kraken2 是专为基因组的生物分类比对而设计开发的生信工具，在 SAW count 微生物比对分析中，可以快速准确地识别环境样本或复杂微生物群落中存在的微生物，你可以从 Kraken2 数据库网站下载所需数据库。

#Scenario 1 
cd /saw/datasets/reference

##Step 1 (optional) if needed,add FASTAs needed for a customed database
saw makeRef \
    --mode=Kraken2 \
    --fasta=/path/to/host/FASTA1,/path/to/host/FASTA2,... \
    --database=/path/to/Kraken2/database

##Step 2 build
saw makeRef \
    --mode=Kraken2 \
    --database=/path/to/Kraken2/database

构建 Kraken2 索引文件时，无需指定--genome参数，直接基于 database 数据进行构建。

在构建客制化 database 的 Step 2 之前，需要在 database 目录下构建 ./taxonomy/，具体文件可以从 NCBI/Taxonomy 获取。

运行命令行后，输出目录包含以下文件：

/saw/datasets/reference/Kraken2_db1
├── hash.k2d  ##Contains the minimizer to taxon mappings
├── opts.k2d  ##Contains information about the options used to build the database
├── taxo.k2d  ##Contains taxonomy information used to build the database
├── inspect.txt
├── seqid2taxid.map
├── database100mers.kmer_distrib
├── database150mers.kmer_distrib
├── database200mers.kmer_distrib
├── database250mers.kmer_distrib
├── database300mers.kmer_distrib
├── database50mers.kmer_distrib
└── database75mers.kmer_distrib

SAW makeRef 提构建索引时用到的基础、必要参数，用于 SAW count 的微生物分析。

有两种方法可实现 Kraken2 的全部功能。

使用原始 Kraken2 。
使用 --params-config 直接传入原始 Kraken2 的复杂参数，将原始参数以纯字符串形式输入即可。
使用--params-csv 参数，调用 Kraken2 工具的原始参数命令。

#Scenario 2
cd /saw/datasets/reference

saw makeRef \
    --mode=Kraken2 \
    --params-csv=/path/to/parameter/setting/Kraken2_build.csv

--params-csv 中的参数设置内容：

Parameter,Value
--add-to-library,/path/to/fasta
--db,/path/to/db

Reference libraries

在为 STAR、Bowtie2 和 Kraken2 构建索引文件后，需要构建一个 --ref-libraries 参数所需的配置 CSV，将微生物比对分析需要用到的数据文件进行整合。

Reference,Type
/saw/datasets/reference/transcriptome,STAR
/saw/datasets/reference/Bowtie2,Bowtie2
/saw/datasets/reference/Kraken2_db1,Kraken2

--ref-libraries 与 --reference两个参数不可同时使用！

构建索引文件

构建索引文件

SAW makeRef

转录组比对

STAR 索引文件

添加 rRNA 信息

特殊参数设置

快速使用

微生物比对

Bowtie2 索引文件

Kraken2 索引文件

Reference libraries

results matching ""

No results matching ""