此功能的使用需根据SAW版本进行区分。
Bin是芯片上规整的N × N的方形区域,区域内表达信息汇总就是Bin的表达信息,注意不包含正方最右侧边和最下方边的DNB点(Bin1除外)。
可以按照不同组织类型的细胞大小等,根据下游分析效果多次调试Bin20、50、100、200数值。其中Bin20与动物细胞大小近似,Bin50和Bin100是常用于分析的Binsize大小,Bin200一般用于快速可视化效果展示。
Valid CID rate低可以排查的方向有3个:
1. 测序情况。测序质量低会影响比对结果。除了Q30还需要检查call N的情况,可以查看下机报告的base distribution,如果出现N碱基的比例高的情况,就需要考虑是因为测序问题,影响了valid CID rate,最好优先排查。
2. 芯片mask h5文件和fastq不对应。因为mask里记录的CID和对样本测序得到的CID不匹配,导致valid CID rate低。这个情况如果单一出现,一般比例极低,但如果涉及到后一个情况,比例波动比较大,需要酌情判断。
3. 污染/混样。在实验过程中或者建库测序的时候混入了其他样本,因为受到污染,所以影响了valid CID rate。那么可能存在两张芯片,同时可以和这个文库的下机数据比对上。如果混的比较多,可以有明确的组织pattern,如果比例极小,有的情况下会有部分高亮点。
1. 文件格式:
○ GFF文件 或者 GTF文件,文件后缀名支持 gtf/gtf.gz,gff/gff.gz,gff3/gff3.gz
2. GTF文件格式:
○ 注释行以 # 开始
○ 主体部分共 9列,以tab作为分隔符:seqname source feature start end score strand frame attributes
▪ type:注释信息的类型必须含有gene, transcript 和 exon
▪ start/end:最大值需小于2^31
▪ strand:链的正向与负向,分别用加号+和减号-表示。
▪ 第9列为attributes,格式为tag "value"(标签“值”),不同属性之间以空格相隔 ; 必须要有以下4个
• gene_name value
• gene_id value: 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。
• transcript_name value
• transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。
○ 目前最大有效基因数必须小于2^20,即1048576
○ 不可以乱序,即同一个gene的transcript/exons需按顺序排列
3. GFF文件格式:
○ 注释行以 # 开始
○ 主体部分共 9列,以tab作为分隔符:seqid source type start end score strand phase attributes
▪ type:注释信息的类型必须含有gene, mRNA和 exon
▪ start/end:最大值需小于2^31
▪ strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链,“?” 表示未知
▪ 第9列为attributes,格式为tag=value (标签=值),不同属性之间以分号相隔
• 需要存在ID Name Parent(对gene无需判断Parent)
• 对于第三列的命名规则请务必仔细研究 ⇒ “树状分级” (不能只列出child行 而没有parent行!)示例如下:
○ 目前最大有效基因数必须小于2^20,即1048576
○ 可以乱序,但仍需满足 gene必须出现在对应mRNA之前,mRNA必须出现在对应的exon之前的规则
4. 其他注意事项:
○ gene/gene_name(基因的名字) 值不含有特殊符号(空格,各类型括号,引号,<>,%等)。支持使用的常见特殊符号有”_“,"."。
○ gene/gene_name(基因的名字) 值长度小于64个字符
○ 虽然GFF文件现在大部分使用的都是第三版(GFF3),但是文件命名时请命名为.gff ;同理对于GTF文件也请文件命名时采用.gtf
• gtf格式的属性没有gene_name gene_id transcript_name transcript_id(对gene只需要有gene_name和gene_id)
• gff格式的属性没有ID Name Parent(对gene无需判断Parent)
• 同一个gene下的数据包含多个gene_id,日志打印 "Multiple gene IDs for gene xxx: id1, id2..."
• 同一个gene下的数据同时包含正反链,日志打印 "Strand disagreement for gene xxx - skipping"
• transcript或exon没有transcript_id,日志打印 "Record does not have transcriptID for gene xxx"
• 同一个gene有多条transcript的transcript_id / ID相同,日志打印 "Transcript appears more than once for xxx"
• 存在exon的start > end,日志打印 "Exon has 0 or negative extent for xxx"
• 同一个transcript下的exons之间有overlap,日志打印 "Exons overlap for xxx"
• 一个gene没有任何transcript,日志打印 "No transcript for gene xxx"
ps: 一个contig下出现多条gene有相同的gene_name,合并为一个gene
可能是注释GTF/GFF文件和基因组FASTA文件中两者对染色体的命名不完全统一 ,请注意chromosome name要统一
• 大概率是注释文件不规范导致的,请再次参考上述文件格式要求的内容自行排查;
• 另一种可能性是由于strand正负链符号不规范导致,注释文件中strand值只能是 “+” (forward) 或 “-” (reverse),请不要和下划线 “_” 搞混。
STAR构建参考基因组索引时指定的--sjdOverhang是否需要和测序读长一致?如果测序读长有多种,如50bp、100bp、150bp,是否SAW分析时会自动选择不同的STAR索引?
• 目前不会对不同读长构建单独的index。STOmics Cloud上投递标准分析任务使用的参考基因组都是统一使用STAR默认值ReadLength为100来构建的,即--sjdOverhang 99。
• 构建索引时不同的长度表示在构建可变剪切位点数据库时,应用这个参数可以指定在已被注释的剪切位点附近的基因组序列的长度,即注释可变剪切序列的时候使用到最大长度值。不同长度影响的是比对至非常少量的某些剪接点时,在exon/intron边界会有个别bp的比对差异,差异非常细微影响很小,所以没有对每种读长都构建对应的index。
参考资料:
• Accuracy of --sjdbOverhang parameter · Issue #1486 · alexdobin/STAR
此功能的使用需根据SAW版本进行区分。
SAW <= 8.1, StereoMap <= 4.1; ImageStudio <= 3.0
① IF图像需要与DAPI图一起QC,QC内容包括DAPI图的track线识别、DAPI/IF图显微镜拼接效果评估、以及DAPI和IF图基于组织形态的校准评估。
② DAPI图的track线识别,为后续与芯片自动配准提供基准线模版;显微镜拼接效果评估用于判断显微镜的拼接大图是否存在明显错位,为后续组织分割和配准提供质量保证;校准评估用于保证IF图可以复用DAPI图的拼接、旋转缩放、平移翻转信息进行相同的操作,与表达矩阵配准。
③在DAPI图像的track线识别和显微镜拼接模块失败的情况下,无法继续进行IF图像的后续处理流程。
• 目前IF图像需要与DAPI图一起QC,QC内容包括DAPI图的track线识别、DAPI/IF图显微镜拼接效果评估、以及DAPI和IF图基于组织形态的校准评估。
• DAPI图的track线识别QC为后续与芯片自动配准提供基准线模版;显微镜拼接效果评估用于判断显微镜的拼接大图是否存在明显错位,为后续组织分割和配准提供质量保证;校准评估用于保证IF图可以复用DAPI图的拼接、旋转缩放、平移翻转信息进行相同的操作,与表达矩阵配准。
• 但由于IF图的组织形态不一定是完整全组织形态,所以这种场景下校准模块QC可能会无法通过。这时可以使用ImageStudio的“图像校准”模块进行图像间的两两校准。
• 在DAPI图像的track线识别和显微镜拼接模块失败的情况下,目前无法继续进行IF图像的后续处理流程
SAW < 8.0:
• 免疫荧光图存在荧光信号的区域表示该区域存在表达目标蛋白的细胞。强荧光信号表示表达目标蛋白的细胞多且密集。
• SAW流程中的register模块使用图像处理算法,根据IF图的灰度情况自动计算阈值,过滤提取图像前景区域,剔除亮度低的背景区域。再使用根据阈值提取的mask文件接入tissueCut模块便可以得到IF图对应区域的表达矩阵了。
• 如果对根据算法自动计算出的灰度阈值得到的分割结果不满意,可以通过ImageStudio的“组织分割”模块对IF图进行手动阈值调整,手动得到图像分割结果。