StereoMiner

DCS Cloud大约 14 分钟

StereoMiner

时空组学高级分析在DCS智能云平台完成SAW标准分析后，可进行0代码高级分析，多种参数灵活配置，分析结果直观呈现，可一键投递全流程任务。主要流程包括数据预处理、聚类/注释、拟时序分析、互作分析、功能富集分析，并最终形成高级分析报告，完成时空分析交付。

单细胞组学高级分析的主要流程同时空组学类似，包括数据预处理、聚类/注释、拟时序分析、互作分析、功能富集分析，最终形成单细胞高级分析报告。

分析入口

1）交互分析入口

在交互分析页面，可根据需求选择“时空组学高级分析”或“单细胞组学高级分析”的入口进入。

2）任务入口（仅支持时空组学）

在DCS Cloud任务列表页，为每个完成时空SAW标准分析的T任务，提供高级分析入口。可点击“更多”中的“交互式工具”按钮，进入分析。

选择文件

时空组学高级分析

1）点击“选择“按钮，进入数据管理窗口选择表达矩阵gef文件。可选择项目中已存在的gef文件，或自行上传gef文件至数据管理后再进行选择。

2）支持添加多个文件，选择binsize，同时投递任务。

提示

对于cellbin.gef，无需选择binsize，均只会投递cellbin的任务。

单细胞组学高级分析

1）请选择上游单细胞流程输出结果所在的文件夹，该文件夹中需直接包含以下三个文件：“features.tsv.gz”、“barcodes.tsv.gz”、“matrix.mtx.gz”。

2）注意：若使用云平台单细胞工作流“scRNA-seq-analysis-pipeline”输出的结果，请选择该任务结果路径下的“/.../04.Matrix/FilterMatrix/”文件夹（该矩阵为过滤后的有效数据），若选择其他文件夹可能导致结果错误。

3）单细胞支持单个样本具有单文库或多文库运行分析，若一个样本中有多个文库，可点击矩阵文件夹后的“+”选取不同文库的数据。

提示

运行单细胞高级分析前，需手动填写每个样本的样本名称，用于区分后续单个样本的结果和任务信息。

若需同时运行多个样本的流程，可点击样本名称后“+”号添加多个样本的信息。

任务投递

可选择进行全流程投递或单步投递，每个投递方式均提供操作指引。

全流程投递：选择文件后，点击“全流程投递”，可进行流程选择、参数设置，提交后即可一次性跑完所选的全部流程（预处理和聚类或注释流程为必选）。

单步投递：选择文件后，点击“单步投递”，则只进行单步流程的投递，跑完质控任务后即停止，用户可查看结果并进行下一步投递。

任务结果查看

可对单细胞和时空高级分析完成后的某个任务进行查看，并在任务列表中切换流程结果。

任务列表呈树形结构，可体现流程之间的前后依赖关系。用户可由此判断该任务结果是基于哪个前置任务进行的，任务名可支持用户在任务管理中自定义区分。

若需查看其他芯片的分析结果，也可在load data界面更换文件，右侧任务列表将会同步该文件的历史任务，若无历史任务则列表为空。

质控流程

对gef文件的MID Count，Gene Type，线粒体gene比例等数据进行统计，该步骤预计30min（1*1cm芯片，1G reads）。分析完成后，可在任务结果页面查看该任务（QC开头的任务号），通过查看报告按钮，进入结果查看。也可下载分析结果数据。

预处理流程

根据初步的统计结果，对gef文件进行细胞过滤，基因过滤，归一化，高可变基因等预处理分析。该步骤预计15min（1*1cm芯片，1G reads）。分析完成后，可在任务结果页面查看该任务（PR开头的任务号），通过查看报告按钮，进入结果查看。也可下载分析结果数据。

注意

预处理分析算法调用的是stereopy工具算法。当同时使用Min MID Count 和 Top N Genes过滤时，容易把有效数据全部过滤，此时，系统会将两个参数定义为None。

注释方法选择

高级分析细胞注释支持分步注释和端到端注释。默认情况下，会为您选择分步注释。单细胞组学高级分析推荐使用分布注释，端到端注释无法生成UMAP图像。

分步注释：首先，使用聚类算法（目前支持使用Stereopy或Spateo软件的Leiden/Louvain）进行聚类，然后基于Marker基因或数据集自动或手动进行聚类标注。
端到端注释：直接使用软件注释（目前支持SingleR）。

分群

预处理完成后，进行分群（cluster）和找marker基因分析。该步骤预计35min（1*1cm芯片，1G reads）。分析完成后，可在任务结果页面查看该任务（CL开头的任务号），通过查看报告按钮，进入结果查看。也可下载分析结果数据。

请注意：预处理完成之后，才可进行cluster和find marker分析

注：cluster和find marker分析算法调用的stereopy工具算法。

1）设置好cluster分析参数后，点击提交按钮进行分析。

2）任务提交之后，页面显示任务分析等待中。

3）分析完成后，可在任务结果页面查看该任务（CL开头的任务号），通过查看报告按钮，进入结果查看。可查看空间和UMAP可视化结果，单细胞高级分析只有UMAP可视化结果。

4）切换cluster，可查看不同cluster的全部marker gene。表格支持搜索、排序和下载。

通过数据集连接器，可查看在数据集中，marker gene对应的细胞类型，供手动注释进行参考。

注：Stereominer搜集了人和小鼠物种不同组织的200+数据集，并人工审核和处理，详细可访问:

https://www.stomics.tech/sap/stereominer/database/#/study/open in new window。

通过知识库映射器，可查看在知识库中，marker gene对应的细胞类型，供手动注释进行参考。

注：知识库是Stereominer数据库人工搜集的如panglaodb，cellmarker，Cell Taxonomy等数据库的内容，手动注释可参考。

7）查看marker基因表达热图。

自动注释

通过聚类分析得到不同细胞类群后，除了使用每个cluster的Marker基因信息对细胞类群进行初步的注释和分析之外，还可通过其他软件将细胞类群与参考数据库进行比较，以得到分群后不同细胞的细胞类群注释信息。

SingleR 可以将细胞聚类结果中的每个cluster与参考数据库进行比较，根据该cluster与参考数据库中已知细胞类群基因表达谱的相似性对cluster进行打分，最终得到一个打分矩阵。通过打分矩阵结果即可将细胞聚类结果注释为不同的细胞类群。该步骤预计60min（1*1cm芯片，1G reads）。分析完成后，可在任务结果页面查看该任务（AA开头的任务号），通过查看报告按钮，进入结果查看。也可下载分析结果数据。
参考数据集有三种途径可供选择：
- SingleR自带数据集：选择“Default”，下拉选择人/鼠对应的参考数据。
- 知识库数据集：选择“Stereo Database”，可根据所提供的信息选择知识库内包含的数据。
- 数据管理：选择“Data Management”，可进入数据管理页面选择自定义参考数据。（注：请先下载模板文件，自行构建参考数据后上传至数据管理。）
也可跳过自动注释，分群完后直接进行手动注释的步骤。

手动注释

手动注释可在分群注释或自动注释后。若自动注释后进行手动注释，系统会将自动注释的结果展示在手动注释的第一列，可通过点击编辑按钮，进行细胞类型的修改，完成注释。手动注释完，也可重新进行分群或自动注释。请注意，若重新进行自动注释，手动注释的结果会被重置。手动注释步骤预计20min（1*1cm芯片，1G reads）。

分析完成后，可在任务结果页面查看该任务（MA开头的任务号），通过查看报告按钮，进入结果查看。也可下载分析结果数据。

1）根据markergene和知识库dataset参考，手动对分群（cluster）进行细胞类型注释（支持编辑/删除操作，删除后将显示为“nan”）。编辑好不同cluster细胞类型后，点击提交按钮进行分析。

2）分析完成后，可在任务结果页面查看该任务（MA开头的任务号），通过查看报告按钮，进入结果查看。可查看空间和UMAP可视化结果。

3)查看不同分群的表达情况

拟时序分析

拟时序分析（pseudotime analysis）也称为细胞轨迹分析（trajectory inference），是指根据不同细胞类群之间其基因差异表达的情况，获得细胞谱系的发育结果，构建细胞随着一个虚拟时间顺序的变化轨迹，以此重现细胞随时间变化而变化的过程。

基于细胞注释的结果，使用Monocle3 软件进行拟时序分析，根据软件推测的发育轨迹进行细胞类群的可视化。支持用户选择部分分群进行任务投递。

该步骤预计1h（1*1cm芯片，1G reads）。分析完成后，可在任务结果页面查看该任务（PT开头的任务号），通过查看报告按钮，进入结果查看。也可下载分析结果数据。

根据细胞发育轨迹结果中的节点信息，结合不同细胞类群中基因表达量的变化，Monocle3可以通过机器学习算法计算处于最早发育阶段的细胞，实现拟时序分析。

在不同的细胞类群聚类结果中，选取Monocle3计算得到的Top5/Top10/Top15的Marker基因，按照已获得的拟时序结果进行基因表达量的拟时序作图。

细胞互作分析

细胞注释完成后，可居于注释的数据进行细胞互作分析，支持CellChat和Cellphonedb分析。

CellChat 是一个能够从单细胞数据中定量推断和分析细胞间通信网络的工具，利用网络分析和模式识别方法预测细胞的主要信号输入和输出，以及这些细胞和信号如何协调功能。CellChatDB数据库整合了来自KEGG和最近研究中的信号分析信息，该数据库囊括了已知的配体-受体复合物组成，包括配体-受体多聚体复合物以及几类辅酶因子。可使用CellChat工具来鉴定时空数据中的配体/受体关系和细胞间的通讯分子，研究不同细胞类型之间的相互交流及通讯网络。

CellPhoneDB是一个受配体及其相互作用的数据库，有别于其他数据库的是CellPhoneDB考虑了受配体的亚单位结构，准确的表达了异聚体复合物。

该步骤预计3h（1*1cm芯片，1G reads）。分析完成后，可在任务结果页面查看该任务（IN开头的任务号），通过查看报告按钮，进入结果查看。也可下载分析结果数据。

功能富集

细胞注释完成后，可基于注释的数据进行功能富集分析，使用clusterProfiler 软件分别对每一个细胞类群的差异基因进行GO（Gene Ontology）和KEGG（Kyoto Encyclopedia of Genes and Genomes）功能富集分析。该步骤预计0.5h（1*1cm芯片，1G reads）

横轴为富集基因占比，纵轴为富集到的GOterm，颜色对应P-value的值，越红表示富集效果越显著。

横轴为富集基因占比，纵轴为富集到的KEGGPathway，颜色对应P-value的值，越红表示富集效果越显著。

圆点为富集到的GOterm，圆点大小表示基因数，圆点颜色表示P-value的值，越红表示富集效果越显著；连接线的粗细表示两个GOterms之间共有的基因数。

圆点为富集到的KEGGPathway，圆点大小表示基因数，圆点颜色表示P-value的值，越红表示富集效果越显著；连接线的粗细表示两个GOterms之间共有的基因数

分析参数说明

详情请参见：

https://alidocs.dingtalk.com/i/p/Db6Vz6vdvj1zZ9NAb6Vz6elRYVkBpGZ9open in new window

时空组学交付报告生成

仅时空组学高级分析支持生成报告，单细胞组学暂不支持。
语言可选中/英文。
支持自定义Logo。
可自选报告模块，对应报告目录下“分析结果” -> “4 数据分析”的各个子模块。默认全选。

注意

若gef文件非平台标准流程所产出，则无“质控数据结果统计”部分的数据。

支持选择生成报告所需的任务数据，系统会根据跳转时的当前任务，自动填充相关联的任务数据。若切换上级任务，下级任务的下拉列表也会自动过滤。

支持选择多张芯片同时生成报告。操作步骤如下：
- 1.从当前任务中进入报告模块，则当前芯片文件会被自动选中，并进行任务号填充。
- 2.点击+号选择新增文件。
- 3.支持通过文件类型、任务号、SN号、样本号、创建者筛选文件。任务号可在该芯片对应的高级分析任务列表中进行查看。（注意：仅运行过历史任务的文件才可被选择。）

4.注意：请确保多张芯片所包含的任务模块一致，否则将无法生成报告。
报告支持下载（.html文件）和打印（.pdf文件）。

注意

仅在打印为pdf时可生成页码及目录。

支持“文件整合”功能：所选的报告模块所生成的结果（除h5ad文件外），将全部整合到数据管理模块的下述路径中，方便用户快速整理与交付。

StereoMiner

# StereoMiner

# 分析入口

# 选择文件

# 任务投递

# 任务结果查看

# 质控流程

# 预处理流程

# 注释方法选择

# 分群

# 自动注释

# 手动注释

# 拟时序分析

# 细胞互作分析

# 功能富集

# 分析参数说明

# 时空组学交付报告生成

StereoMiner

分析入口

选择文件

任务投递

任务结果查看

质控流程

预处理流程

注释方法选择

分群

自动注释

手动注释

拟时序分析

细胞互作分析

功能富集

分析参数说明

时空组学交付报告生成