StereoMiner
StereoMiner
时空组学高级分析在DCS智能云平台完成SAW标准分析后,可进行0代码高级分析,多种参数灵活配置,分析结果直观呈现,可一键投递全流程任务。主要流程包括数据预处理、聚类/注释、拟时序分析、互作分析、功能富集分析,并最终形成高级分析报告,完成时空分析交付。
单细胞组学高级分析的主要流程同时空组学类似,包括数据预处理、聚类/注释、拟时序分析、互作分析、功能富集分析,最终形成单细胞高级分析报告。
分析入口
1)交互分析入口
在交互分析页面,可根据需求选择“时空组学高级分析”或“单细胞组学高级分析”的入口进入。

2)任务入口(仅支持时空组学)
在DCS Cloud任务列表页,为每个完成时空SAW标准分析的T任务,提供高级分析入口。可点击“更多”中的“交互式工具”按钮,进入分析。

选择文件
- 时空组学高级分析
1) 点击“选择“按钮,进入数据管理窗口选择表达矩阵gef文件。可选择项目中已存在的gef文件,或自行上传gef文件至数据管理后再进行选择。

2)支持添加多个文件,选择binsize,同时投递任务。
提示
对于cellbin.gef,无需选择binsize,均只会投递cellbin的任务。

- 单细胞组学高级分析
1) 请选择上游单细胞流程输出结果所在的文件夹,该文件夹中需直接包含以下三个文件:“features.tsv.gz”、“barcodes.tsv.gz”、“matrix.mtx.gz”。

2) 注意:若使用云平台单细胞工作流“scRNA-seq-analysis-pipeline”输出的结果,请选择该任务结果路径下的“/.../04.Matrix/FilterMatrix/”文件夹(该矩阵为过滤后的有效数据),若选择其他文件夹可能导致结果错误。

3) 单细胞支持单个样本具有单文库或多文库运行分析,若一个样本中有多个文库,可点击矩阵文件夹后的“+”选取不同文库的数据。
提示
运行单细胞高级分析前,需手动填写每个样本的样本名称,用于区分后续单个样本的结果和任务信息。

- 若需同时运行多个样本的流程,可点击样本名称后“+”号添加多个样本的信息。

任务投递
可选择进行全流程投递或单步投递,每个投递方式均提供操作指引。


- 全流程投递:选择文件后,点击“全流程投递”,可进行流程选择、参数设置,提交后即可一次性跑完所选的全部流程(预处理和聚类或注释流程为必选)。

- 单步投递:选择文件后,点击“单步投递”,则只进行单步流程的投递,跑完质控任务后即停止,用户可查看结果并进行下一步投递。

任务结果查看
- 可对单细胞和时空高级分析完成后的某个任务进行查看,并在任务列表中切换流程结果。

- 任务列表呈树形结构,可体现流程之间的前后依赖关系。用户可由此判断该任务结果是基于哪个前置任务进行的,任务名可支持用户在任务管理中自定义区分。

- 若需查看其他芯片的分析结果,也可在load data界面更换文件,右侧任务列表将会同步该文件的历史任务,若无历史任务则列表为空。

质控流程
对gef文件的MID Count,Gene Type,线粒体gene比例等数据进行统计,该步骤预计30min(1*1cm芯片,1G reads)。分析完成后,可在任务结果页面查看该任务(QC开头的任务号),通过查看报告按钮,进入结果查看。也可下载分析结果数据。

预处理流程
根据初步的统计结果,对gef文件进行细胞过滤,基因过滤,归一化,高可变基因等预处理分析。该步骤预计15min(1*1cm芯片,1G reads)。分析完成后,可在任务结果页面查看该任务(PR开头的任务号),通过查看报告按钮,进入结果查看。也可下载分析结果数据。
注意
预处理分析算法调用的是stereopy工具算法。当同时使用Min MID Count 和 Top N Genes过滤时,容易把有效数据全部过滤,此时,系统会将两个参数定义为None。

注释方法选择
高级分析细胞注释支持分步注释和端到端注释。默认情况下,会为您选择分步注释。单细胞组学高级分析推荐使用分布注释,端到端注释无法生成UMAP图像。
分步注释:首先,使用聚类算法(目前支持使用Stereopy或Spateo软件的Leiden/Louvain)进行聚类,然后基于Marker基因或数据集自动或手动进行聚类标注。
端到端注释:直接使用软件注释(目前支持SingleR)。

分群
预处理完成后,进行分群(cluster)和找marker基因分析。该步骤预计35min(1*1cm芯片,1G reads)。分析完成后,可在任务结果页面查看该任务(CL开头的任务号),通过查看报告按钮,进入结果查看。也可下载分析结果数据。
请注意:预处理完成之后,才可进行cluster和find marker分析
注:cluster和find marker分析算法调用的stereopy工具算法。
1)设置好cluster分析参数后,点击提交按钮进行分析。

2)任务提交之后,页面显示任务分析等待中。
3)分析完成后,可在任务结果页面查看该任务(CL开头的任务号),通过查看报告按钮,进入结果查看。可查看空间和UMAP可视化结果,单细胞高级分析只有UMAP可视化结果。


4)切换cluster,可查看不同cluster的全部marker gene。表格支持搜索、排序和下载。

- 通过数据集连接器,可查看在数据集中,marker gene对应的细胞类型,供手动注释进行参考。
注:Stereominer搜集了人和小鼠物种不同组织的200+数据集,并人工审核和处理,详细可访问:
https://www.stomics.tech/sap/stereominer/database/#/study/。

- 通过知识库映射器,可查看在知识库中,marker gene对应的细胞类型,供手动注释进行参考。
注:知识库是Stereominer数据库人工搜集的如panglaodb,cellmarker,Cell Taxonomy等数据库的内容,手动注释可参考。

7)查看marker基因表达热图。

自动注释
- 通过聚类分析得到不同细胞类群后,除了使用每个cluster的Marker基因信息对细胞类群进行初步的注释和分析之外,还可通过其他软件将细胞类群与参考数据库进行比较,以得到分群后不同细胞的细胞类群注释信息。

SingleR 可以将细胞聚类结果中的每个cluster与参考数据库进行比较,根据该cluster与参考数据库中已知细胞类群基因表达谱的相似性对cluster进行打分,最终得到一个打分矩阵。通过打分矩阵结果即可将细胞聚类结果注释为不同的细胞类群。 该步骤预计60min(1*1cm芯片,1G reads)。分析完成后,可在任务结果页面查看该任务(AA开头的任务号),通过查看报告按钮,进入结果查看。也可下载分析结果数据。
参考数据集有三种途径可供选择:
- SingleR自带数据集:选择“Default”,下拉选择人/鼠对应的参考数据。
- 知识库数据集:选择“Stereo Database”,可根据所提供的信息选择知识库内包含的数据。
- 数据管理:选择“Data Management”,可进入数据管理页面选择自定义参考数据。(注:请先下载模板文件,自行构建参考数据后上传至数据管理。)
也可跳过自动注释,分群完后直接进行手动注释的步骤。
手动注释
手动注释可在分群注释或自动注释后。若自动注释后进行手动注释,系统会将自动注释的结果展示在手动注释的第一列,可通过点击编辑按钮,进行细胞类型的修改,完成注释。手动注释完,也可重新进行分群或自动注释。请注意,若重新进行自动注释,手动注释的结果会被重置。手动注释步骤预计20min(1*1cm芯片,1G reads)。
分析完成后,可在任务结果页面查看该任务(MA开头的任务号),通过查看报告按钮,进入结果查看。也可下载分析结果数据。
1)根据markergene和知识库dataset参考,手动对分群(cluster)进行细胞类型注释(支持编辑/删除操作,删除后将显示为“nan”)。编辑好不同cluster细胞类型后,点击提交按钮进行分析。

2)分析完成后,可在任务结果页面查看该任务(MA开头的任务号),通过查看报告按钮,进入结果查看。可查看空间和UMAP可视化结果。
3)查看不同分群的表达情况

拟时序分析
拟时序分析(pseudotime analysis)也称为细胞轨迹分析(trajectory inference),是指根据不同细胞类群之间其基因差异表达的情况,获得细胞谱系的发育结果,构建细胞随着一个虚拟时间顺序的变化轨迹,以此重现细胞随时间变化而变化的过程。
基于细胞注释的结果,使用Monocle3 软件进行拟时序分析,根据软件推测的发育轨迹进行细胞类群的可视化。支持用户选择部分分群进行任务投递。
该步骤预计1h(1*1cm芯片,1G reads)。分析完成后,可在任务结果页面查看该任务(PT开头的任务号),通过查看报告按钮,进入结果查看。也可下载分析结果数据。

根据细胞发育轨迹结果中的节点信息,结合不同细胞类群中基因表达量的变化,Monocle3可以通过机器学习算法计算处于最早发育阶段的细胞,实现拟时序分析。

在不同的细胞类群聚类结果中,选取Monocle3计算得到的Top5/Top10/Top15的Marker基因,按照已获得的拟时序结果进行基因表达量的拟时序作图。

细胞互作分析
细胞注释完成后,可居于注释的数据进行细胞互作分析,支持CellChat和Cellphonedb分析。
CellChat 是一个能够从单细胞数据中定量推断和分析细胞间通信网络的工具,利用网络分析和模式识别方法预测细胞的主要信号输入和输出,以及这些细胞和信号如何协调功能。CellChatDB数据库整合了来自KEGG和最近研究中的信号分析信息,该数据库囊括了已知的配体-受体复合物组成,包括配体-受体多聚体复合物以及几类辅酶因子。可使用CellChat工具来鉴定时空数据中的配体/受体关系和细胞间的通讯分子,研究不同细胞类型之间的相互交流及通讯网络。
CellPhoneDB是一个受配体及其相互作用的数据库,有别于其他数据库的是CellPhoneDB考虑了受配体的亚单位结构,准确的表达了异聚体复合物。
该步骤预计3h(1*1cm芯片,1G reads)。分析完成后,可在任务结果页面查看该任务(IN开头的任务号),通过查看报告按钮,进入结果查看。也可下载分析结果数据。

功能富集
细胞注释完成后,可基于注释的数据进行功能富集分析,使用clusterProfiler 软件分别对每一个细胞类群的差异基因进行GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)功能富集分析。该步骤预计0.5h(1*1cm芯片,1G reads)

横轴为富集基因占比,纵轴为富集到的GOterm,颜色对应P-value的值,越红表示富集效果越显著。

横轴为富集基因占比,纵轴为富集到的KEGGPathway,颜色对应P-value的值,越红表示富集效果越显著。

圆点为富集到的GOterm,圆点大小表示基因数,圆点颜色表示P-value的值,越红表示富集效果越显著;连接线的粗细表示两个GOterms之间共有的基 因数。

圆点为富集到的KEGGPathway,圆点大小表示基因数,圆点颜色表示P-value的值,越红表示富集效果越显著;连接线的粗细表示两个GOterms之间共有的基因数
分析参数说明
详情请参见:
https://alidocs.dingtalk.com/i/p/Db6Vz6vdvj1zZ9NAb6Vz6elRYVkBpGZ9
时空组学交付报告生成
仅时空组学高级分析支持生成报告,单细胞组学暂不支持。
语言可选中/英文。
支持自定义Logo。
可自选报告模块,对应报告目录下“分析结果” -> “4 数据分析”的各个子模块。默认全选。
注意
若gef文件非平台标准流程所产出,则无“质控数据结果统计”部分的数据。
- 支持选择生成报告所需的任务数据,系统会根据跳转时的当前任务,自动填充相关联的任务数据。若切换上级任务,下级任务的下拉列表也会自动过滤。

支持选择多张芯片同时生成报告。操作步骤如下:
1.从当前任务中进入报告模块,则当前芯片文件会被自动选中,并进行任务号填充。
2.点击+号选择新增文件。
- 3.支持通过文件类型、任务号、SN号、样本号、创建者筛选文件。任务号可在该芯片对应的高级分析任务列表中进行查看。(注意:仅运行过历史任务的文件才可被选择。)

4.注意:请确保多张芯片所包含的任务模块一致,否则将无法生成报告。
报告支持下载(.html文件)和打印(.pdf文件)。
注意
仅在打印为pdf时可生成页码及目录。

- 支持“文件整合”功能:所选的报告模块所生成的结果(除h5ad文件外),将全部整合到数据管理模块的下述路径中,方便用户快速整理与交付。
