single_cell_ATAC-seq
single_cell_ATAC-seq
单细胞ATAC-seq介绍
ATAC-Seq方法由斯坦福大学的Howard Chang和William Greenleaf实验室的首席研究员Jason Buenrostro于2013年在《Nature Methods》杂志上首次发表。在传统的ATAC-seq技术中,研究人员将转座酶(如Tn5)加入到细胞中,这种酶会随机插入到开放的DNA区域。然后,转座酶会加入特定的DNA序列,从而使得这些开放区域的DNA可以通过测序技术进行检测。通过分析这些开放区域的位置,研究人员可以了解基因调控的潜在机制。

单细胞ATAC-seq,即通过对单个细胞的染色质可及性进行测序,可以获得每个细胞的基因组调控信息。常见的单细胞ATAC-seq技术包括scATAC-seq、snATAC-seq等。单细胞ATAC-seq技术是研究细胞染色质状态的强大工具。它的全称是“单细胞转座酶可及性染色质测序”(Assay for Transposase-Accessible Chromatin with high-throughput sequencing),其主要目标是确定哪些区域的DNA在细胞中是开放的,或者说是易于接触的。这样的区域通常与基因调控有关。
单细胞ATAC-seq是ATAC-seq的一种扩展,将这一技术应用于单个细胞而不是混合的细胞群体。这样做的目的是更精细地了解不同类型的细胞中哪些基因组区域是开放的。单细胞ATAC-seq在研究细胞异质性和细胞分化方面具有巨大的潜力。
scATAC-Seq技术优势:scATAC-Seq可用于鉴定复杂样品中具有不同染色质可及性谱的细胞亚群,从而无需诸如FACS或磁珠分选等分离策略,这些策略可能会由于样品处理而改变细胞生物学特性。例如:识别肿瘤样本中的癌症干细胞或浸润性巨噬细胞;识别负责药物治疗反应的新型细胞亚群(如:反应者vs.耐药细胞);鉴定染色质可及性变化的细胞亚群,可以洞察发育轨迹(如:大脑发育,辅助T细胞发育,B细胞分化)。
DNBelab C系列高通量单细胞ATAC文库制备试剂盒套装
产品特点
高捕获率,细胞捕获效率高达60%以上。
低污染率,双胞污染率,在捕获15,000细胞核时<6%。
高适配度,和3'RNA数据完美配合分析。
高效率,周期短,1天内可完成文库制备工作。
性能参数
细胞核投入数量 | 50,000~100,000 |
---|---|
转座细胞核投入量 | 5,000~20,000 |
细胞核捕获数量 | 3,000~15,000 |
细胞核捕获效率 | >60% |
每个细胞核内的片段中位数 | >10,000(小鼠脑) |
双胞率 | <6% |
液滴生成需要时间 | ~6分钟 |

更多产品信息请见以下链接:
DNBelab C系列高通量单细胞ATAC文库制备试剂盒套装
或访问网址:
https://www.mgi-tech.com/products/reagents_info/80/
生信分析内容
标准分析流程:pipeline for unreplicated data

以下是scATAC-seq分析流程的一般步骤:
数据预处理:包括数据质量控制,去除低质量reads、PCR扩增偏差等,通常使用软件如FastQC、Trimmomatic等进行数据预处理。
数据比对:scATAC-seq数据比对通常需要使用比对软件如Bowtie2、BWA等将reads比对到参考基因组上。
信号矩阵生成:在比对后,根据reads的位置和大小信息,生成信号矩阵(count matrix),用于后续的分析。常用的工具有MACS2、SAMtools等。
细胞聚类和降维:使用聚类和降维算法,如PCA、t-SNE和UMAP等,将单个细胞分为不同的簇,进而识别不同类型的细胞和细胞状态。
基因共现分析:通过计算在每个细胞簇中某一基因区域的信号值(如peaks)出现的频率,确定不同细胞类型的共同表达基因。一些流行的软件包括Cicero、ChromVAR等。
基因功能富集分析:基于已知的基因集,如Gene Ontology、KEGG和Reactome,将不同细胞类型和状态的基因进行富集分析,以了解它们可能的功能和通路。
可视化:使用不同的软件包进行结果的可视化,如Seurat、Loupe Cell Browser、scater等。
以上是scATAC-seq分析的一般步骤,具体的分析流程还需根据具体实验的设计和分析目的来确定。
单细胞ATAC-seq在很多生物学领域都有应用,包括:
细胞分化:帮助研究人员理解细胞如何从干细胞分化为其他类型的细胞。
疾病研究:揭示疾病状态下的基因调控变化,如癌症或免疫疾病。
发育生物学:研究生物体在发育过程中的基因表达和调控。
单细胞ATAC-seq技术在很多方面提供了重要的信息,但也面临一些挑战。例如,由于数据的高维度和稀疏性,数据分析可能非常复杂。此外,技术过程中的批次效应和测序噪音也可能影响结果。
单细胞ATAC-seq数据具有以下几个关键特点:
高维度 单细胞ATAC-seq数据的高维度来源于基因组的巨大规模。在一个典型的实验中,研究人员会分析上万个细胞中的数万至上百万个可能的基因组位点。这导致单细胞ATAC-seq数据在维度上非常高,通常以"细胞 × 位点"的矩阵形式呈现。
稀疏性 由于单个细胞中的染色质开放区域只是基因组的一小部分,单细胞ATAC-seq数据呈现高度稀疏性。稀疏性意味着在数据矩阵中,绝大部分的元素都是零,这表明大多数基因组区域在多数细胞中是关闭的。
噪声与技术误差 由于单细胞ATAC-seq的操作过程涉及物理和化学步骤,数据中可能包含技术噪声和误差。这种噪声可能来自于转座酶的插入位置、细胞分离过程中的损伤、测序误差等。
以往常见的单细胞ATAC-seq数据分析方法,存在一些问题:
基于峰值的分析方法 这些方法将基因组划分为一系列的“峰值”,即染色质开放的区域。然后,将单个细胞中检测到的峰值映射到这些区域。峰值召回和基因组映射:使用工具如MACS等召回染色质开放区域,然后映射到基因组位置。这可以用于生成一个“细胞 × 峰值”的矩阵。基于峰值的特征选择:选择高变异性的峰值作为分析的特征。这有助于缩小数据维度。存在问题:(1)这种方法需要预定义的峰值,这可能会错过一些关键信息。(2)不同实验和实验室之间的峰值召回标准可能不同,导致数据整合时出现问题。(3)峰值的预定义可能受到偏见的影响,从而影响分析的结果。
降维和聚类 为减少数据的高维度和稀疏性,常常采用降维和聚类方法。LSI(潜在语义索引):一种流行的降维技术,类似于单细胞RNA-seq分析中的PCA。它将高维数据压缩到较低维度。UMAP和t-SNE:用于可视化降维后的数据。聚类算法:如K-means和层次聚类,用于识别相似细胞群。存在问题:(1)LSI和其他降维方法可能无法有效处理单细胞ATAC-seq的稀疏性,导致数据中的批次效应和技术噪音。(2)聚类结果可能受到选择的降维方法和聚类算法的影响,导致细胞群划分不准确。
批次效应校正 为减少实验间的批次效应,采用了多种校正方法。Harmony和Seurat:这些方法通过调整数据,以消除批次间的偏差。存在问题:(1)批次效应校正可能会影响数据的生物学真实性,可能消除真正的生物学差异。(2)在没有明确批次信息的情况下,这些方法可能无法有效工作。
深度学习方法 一些方法使用神经网络和其他深度学习技术来分析单细胞ATAC-seq数据。(1)scBasset:一种多任务神经网络方法,用于学习基因组序列和单细胞之间的关联。(2)PeakVI:基于变分自编码器的分析方法。存在问题:(1)深度学习方法通常需要大量的计算资源和时间。(2)神经网络模型可能过于复杂,导致难以解释和调试。(3)这些方法可能容易过拟合,并在不同数据集上表现不一致。
其他方法 (1)chromVAR:用于评估细胞中转录因子motif的活性。(2)SIMBA:一种基于图的嵌入方法,用于多模式单细胞数据分析。存在问题:(1)这些方法通常需要预定义的转录因子motif,这可能导致偏见。(2)SIMBA需要构建复杂的图结构,可能难以扩展到大型数据集。
一些新发表方法,如CellSpace,是一种新开发的用于分析单细胞ATAC-seq数据的嵌入算法,旨在解决传统分析方法面临的挑战,如数据高维度、稀疏性以及批次效应。它通过将DNA序列信息与细胞嵌入到共同的潜在空间中,来揭示单细胞ATAC-seq数据的生物学结构。
另外,越来越多研究将scRNA-seq 和scATAC-seq数据进行了整合分析,常见分析软件包有Signac、seurat5等,如下图所示方法:MAESTRO,该工具提供预处理、比对、质量控制、表达和染色质可及性定量、聚类、差异分析和注释等功能。 通过在单细胞水平上对染色质可及性的基因调控潜力进行建模,MAESTRO 优于在 scRNA-seq 和 scATAC-seq 之间整合细胞簇的现有方法(发表时)。 此外,MAESTRO 支持使用预定义的细胞类型标记基因进行自动细胞类型注释,并从差异 scRNA-seq 基因和 scATAC-seq 峰中识别驱动调节因子。

云平台数据分析
基础分析
云平台已将github标准分析流程转为线上WDL分析流程(名称:scATAC-seq_v3.0.2),用户可以在网页上进行交互式分析,基础分析主要任务包含以下步骤:
RefRead:检查用于读取对齐和表达定量的参考基因组文件,包括基因组参考的fasta文件,chromap索引文件,TSS区域的bed文件,启动子区域的bed文件等。
mapping:使用chromap将样本对齐到参考基因组。
deconvolution:该步骤包括珠子的调用和合并。在scATAC-seq中,beads通常用于捕获和分离单个细胞。为了在实验中获得更多的细胞,会投入更多的beads,导致一个液滴中出现多个beads的现象。为了恢复细胞染色质的实际开放信息,使用d2c根据beads中片段的相似性进行合并。
qc:对片段分布和TSS区域富集进行质量控制统计。
peakcount:使用MACS2进行Peak Calling,用于识别测序获得的对齐读取在基因组中富集的区域。对于ATAC,Peak是开放染色质的区域。
report:生成一个HTML网页报告,整合每个步骤的分析结果,并展示关键的统计指标、聚类分析和注释分析结果。
WDL流程输入参数及含义如下图所示:

具体操作步骤包括以下几步:
1. 从公共库复制流程,进入项目-流程分析-添加工作流,搜索scATAC-seq_v3.0.2,并复制到项目下;

2. 运行工作流,找到上述从公共库复制过来的分析流程(在下图工作流关键字搜索框输入“scATAC-seq_v3.0.2”),点击“运行”按钮,如下图所示:

选择“运行界面输入”,填写实体ID信息,并点击“下一步”按钮,如下图所示:

在参数输入设置页面根据提示(参数,类型及参数描述)选择对应的文件及参数,如下图(具体信息请参考后续任务详情-输入信息),并点击“下一步”按钮:

在上述跳转的窗口中修改输出目录和任务备注信息,点击“运行”按钮,如下图所示:

在点击运行后跳转的窗口,为前往任务管理与否的选择弹框,点击“确定/取消”按钮,如下图所示:

点击“确定”后,会跳转至任务管理,可以进行任务状态查看以及更多操作,如下图:

点击上述页面操作栏“详情”按钮,可以查看任务详细信息,如下图,有任务分析状态、任务投递信息以及输入、输出等信息。如果任务失败,可在“运行日志”栏查看报错信息,排查失败原因。

3. 查看结果文件,如下图,点击任务管理-详情页面,待任务完成后,下拉可见“查看结果目录”按钮,可以点击进去,根据需要,进行结果文件查看及下载等操作。

4. 查看分析报告,如下图所示,在输出文件中,找到 {样本ID}_scATAC_analysis_report.html 文件,点击右边“查看”按钮,即可在线查看分析报告。

html报告如下几张截图图片所示,包含了样本信息、测序数据统计、比对统计信息、文库QC、细胞聚类以及细胞注释结果图。




更多scATAC-seq技术介绍及数据分析内容请参考:
https://github.com/M-wen/C4_scATAC_analysis/
https://liulab-dfci.github.io/bioinfo-combio/scatac.html