2026.03.04 内容来源:华大时空
细胞分割的准确性对于获得可靠的单细胞空间转录组数据至关重要,其结果直接影响后续基因表达及空间分析的可信度。对于Stereo-seq数据,我们首先推荐SAW内置细胞分割算法CellBin,该算法基于深度学习方法在大规模Stereo-seq数据集上训练优化,能够提供针对性的高精度、大视场分割方案。对于其他主流细胞分割模型,我们也评测了它们在在多组织、多特征的染色图像上分割效果,并基于分割精度、鲁棒性提供推荐建议以帮助用户选择最适合其图像特征的细胞分割工具。
然而,终端用户的核心需求往往聚焦于“自身实验数据的精准分割”,而非统计意义上的整体准确率。即使模型在全局评估中达到95%以上的分割精度,局部区域的欠分割(细胞漏分)或过分割(背景被误认为细胞)仍可能导致关键分割误差,这些误差会进一步影响差异表达分析、稀有细胞亚群鉴定及细胞空间互作网络构建的可靠性,甚至导致错误的生物学结论。
手工标注往往是细胞分割的终极解决方案,然而大样本标注需要更多的人力。例如,一片1 cm × 1 cm样本就会耗费标注人员半个月甚至更长的时间,这种高强度的人力投入不仅大幅增加研究成本,更严重制约了研究进度。为此,华大开发了CSRefiner轻量化框架,在依赖人工标注局部的同时,结合自动微调辅助的策略,在保证标注质量的前提下,显著提升了整体工作效率。该工具已在Briefings in Bioinformatics期刊发表。
点击图片阅读原文
CSRefiner支持Cellpose、StarDist及U-Net(CellBin)三个空间组学领域主流分割模型,其工作流程包含4个关键步骤。
针对基线模型表现欠佳的区域(例如鼠脑中细胞密度高、边界模糊的海马区域),标注代表性图像块构建小规模训练集,并从支持列表中选定基础模型(Cellpose/StarDist/U-Net),基础模型可以是分割该类生物样本整体最优局部需调整的模型,或是评测推荐模型,基础模型分割越准确,所需的训练样本越少。
利用统一参数控制脚本,在标注数据集上对选定模型进行微调,得到适配目标样本特征的优化模型。
在训练集与测试集上评估微调模型性能。若未达预期,可新增加训练样本至训练集并重新微调预训练权重,直至结果满意。
将微调后的模型应用于全组织切片图像,结合基因表达矩阵生成cgef格式单细胞表达矩阵,直接对接下游分析流程。

图1. CSRefiner完整流程示例图
为了更直观地展示CSRefiner在实际应用中的提升效果,研究人员选取了一例具有代表性的Stereo-seq FFPE DAPI小鼠脑数据,在此数据集上对四个预训练模型(Cellpose-cyto、Cellpose-cpsam、StarDist和U-Net)进行了微调,并比较了微调前后它们的细胞分割性能。
模型在不同组织区域的性能存在显著差异:在细胞稀疏且核边界清晰的非海马区,模型通常能够准确捕捉细胞轮廓。然而,在细胞密集且核边界模糊的海马区,所有预训练模型均表现出明显的缺陷。经CSRefiner微调后,在非海马区,模型实现了更精确的分割,能够更准确地匹配实际的核轮廓。在海马区,成功恢复了许多先前漏检的细胞,甚至能够在最密集的细胞簇中区分单个细胞核。
.png)
图2. 原始图像与微调前后分割结果示例
(红色轮廓表示人工标注的真实区域,黄色轮廓表示模型预测的分割边界。模型名称前缀为“FT-”表示微调权重)
研究人员使用五个细胞分割评估指标(图3.A-E 精确率、召回率、F1分数、Jaccard指数和Dice系数)评估了CSRefiner对分割精度的影响。箱线图比较显示,所有测试模型的各项指标均有所提升。值得注意的是,对于初始性能较弱的模型,这种提升尤为显著,即使是高性能的Cellpose-cpsam模型也取得了可观的进步。同时,微调后分数方差的降低表明模型在不同图像区域间的一致性和鲁棒性均有所提高。此外,CSRefiner全流程耗时约400分钟(6.7 小时),较全切片手动标注(约10天)效率提升36倍(图3.F)。

图 3. A-E. 四个代表性模型在微调前后分割性能定量评估及手动全切片标注。
F. CSRefiner辅助工作流程的用时比较
以微调后的性能提升最大的模型StarDist为例,其生成的cgef格式矩阵经cell2location注释后,细胞类型的空间分布与Allen脑图谱的解剖结构高度吻合,尤其是海马体亚区的精度显著提升,验证了CSRefiner优化后的分割结果可有效支撑具有生物学意义的空间转录组分析。

图4. 细胞类型注释结果图
CSRefiner能够有效解决空间组学场景下细胞分割模型泛化性不足的问题。通过引入小样本微调模型机制,仅需少量标注数据即可显著提升模型在整体大样本数据上的表现,满足终端用户对多种细胞类型精确分割的需求。该工具现已开源(GitHub:https://github.com/STOmics/CSRefiner),更多分析结果见已发表文章:https://doi.org/10.1093/bib/bbaf718。