数据管理

DCS Cloud大约 24 分钟

数据管理

开始数据分析前,需要准备好数据。 DCS Cloud 数据管理模块为研究者提供高效数据存储、共享和协作,解决底层工程复杂繁琐、研究成果流转及复现困难等问题,通过提供上传、下载、删除、归档、解冻、元数据管理等功能,实时精准响应不同场景数据服务需求,打造一站式数据解决方案,助力数据驱动研究协同创新。

项目数据管理支持文件管理和表格管理,文件主要管理项目下的数据文件,表格主要管理和组织项目数据的元信息,方便用户进行数据的批量投递。

文件管理

文件管理主要负责管理项目下的所有数据文件,支持文件的增加、删除、修改、查询、预览。

文件页面,Files下默认有RawData、ResultData和ManualData这3个系统文件夹。

RawData文件夹:用于存放测序产生的原始FASTQ文件、图像质控输出的图像文件和mask文件;

ResultData文件夹:下有2个文件夹,Notebook文件夹用于存放Notebook输出的结果数据,Workflow文件夹用于存放流程分析输出的结果文件;

ManualData文件夹:用于存放手动处理产生的图像文件(Tissuecut产出的ipr或用户上传的预处理后的ipr)和表达矩阵文件(gef)。

添加文件

DCS Cloud 提供了网页上传、集群上传、工具上传、项目复制等多种方式添加项目文件。

网页上传

网页上传是一种方便快捷的文件传输方式,适用于小文件的上传。通过网页界面,用户可以轻松选择需要上传的文件,并直接通过浏览器完成上传过程。以下是网页上传的具体操作:

  1. 在数据管理文件页面添加文件下拉按钮中点击“网页上传”;

  2. 进入网页上传界面。将本地文件拖至选文件区域后,点击“确定”即可上传。

注意

使用网页上传时,BGI-深圳和 BGI-重庆片区单个文件大小不超过100MB;阿里云片区单个文件大小不超过2GB;

支持批量上传,上传的文件默认在当前文件夹;

文件夹内文件不能重名,否则会上传失败。

上传进度查看

在文件上传过程中,点击页面右下角的可查看文件传输进度,点击“暂停”按钮后,可暂停文件传输,点击“继续”按钮后,文件继续上传。

注意

在网页上传过程中,仅云上传输支持暂停和重启。

集群上传

集群上传是一种高效的数据上传方式,适用于集群上存储在非云平台管理的目录或云上存储在非云平台管理的桶的数据上传。通过集群上传,只需要给云平台账号授予数据访问权限,即可实现数据的同步,并不需要实际传输到平台的存储。集权上传支持测序数据、其他数据和批量导入三种方式。

提示

目前集群上传支持上传测序数据,同时也支持其他数据的上传。

测序数据

测序数据支持在线填写华大下机FASTQ 数据信息后上传至云平台。以下是集群上传-测序数据的具体操作:

  1. 在「数据管理-文件」页面点击“添加文件-集群上传”按钮后进入集群上传界面;

  2. 在该界面选择“测序数据”,编辑相关信息点击“确定”按钮后即可将FASTQ文件上传至当前文件夹。

注意

  1. 上述界面除了FASTQ1是必填外,其他信息均为选填。将数据移动到表头字段上,可查看每个字段的注释。

  2. 集群上传时,针对填写了SN的数据,会自动同步到芯片管理。

  3. 如果是带库解冻的FASTQ,上传前请确保所填FASTQ路径已给集群账号st_stereonote,st_notebook,bigdata_autoanalysis授权“读”权限。

  4. 上传界面至少填写一行数据后才能保存。

  5. 默认传至RawData文件夹。

其他数据

其他数据支持填写集群中所有其他格式的文件的全路径及其他选填信息后上传至云平台。以下是集群上传-其他数据的具体操作:

  1. 在「数据管理-文件」页面点击“添加文件-集群上传”按钮后进入集群上传界面;

  2. 在该界面选择“其他数据”,编辑相关信息点击“确定”按钮后即可将所填写的文件上传至当前文件夹。

注意

  1. 请确保所填文件路径已给集群账号st_stereonote,st_notebook,bigdata_autoanalysis授权“读”权限

  2. 文件路径必填,其他是选填,请至少填写1行数据。

  3. 当页面提示上传的文件已存在,若想再次上传,则须先在数据管理-文件页面删除已存在的文件。

  4. 当前仅支持用户全路径输入文件,请按照规范格式填写,例如:/dell2/test/1.txt。

  5. 请检查上传文件路径的访问权限和文件重名问题,无访问权限数据和重名的数据将不支持上传。

批量导入

批量导入支持以Excel的方式批量导入华大下机的FASTA和集群存在的其他文件。具体操作如下:

  1. 在「数据管理-文件」页面,点击“添加文件-集群上传”进入集群上传界面后,选择”批量导入“;

  2. 下载对应的Excel模板到本地并填写相关信息;

  3. 将此Excel文件拖动到批量导入上传区域,点击按钮“确定”后即可。

注意

  1. 请先下载模板,按照模板填写后上传数据,请勿修改模板中的表头信息;

  2. 一次仅支持一份excel文件上传,多份文件上传将会替换原文件

  3. 请确保所填测序数据和其他数据路径已给集群账号bigdata_autoanalysis、st_notebook、st_stereonote、megabolt、st_dcscloud_odms授权“读”权限;

  4. 请检查上传文件路径的访问权限,无访问权限数据将不支持上传。

  5. 测序数据:只有填写了SN的测序数据,才会自动同步到芯片管理和表格-时空芯片表中。

  6. 测序数据:请填写华大Glims下机的FastQ路径,FastQ1必填,其他是选填,请至少填写1行数据;

  7. 其他数据:当前仅支持用户全路径输入文件,请按照规范格式填写,例如:/dell2/test/1.txt。

  8. 测序数据参考模板: fastqImport.xlsx

  9. 其他数据参考模板:otherdata_Import.xlsx

工具上传

工具上传适用于大文件的上传,它通过专门的客户端软件来实现数据上传,灵活、高效且安全。

云平台支持使用镭速工具、ossutil工具、AWS CLI工具上传数据。BGI-深圳片区使用镭速工具上传数据,阿里云片区 ossutil工具上传数据,AWS 上使用 AWS CLI工具上传数据。

镭速工具上传

仅 BGI-深圳片区可以使用镭速工具上传数据,使用镭速上传操作步骤如下:

  1. 首次使用时,在「数据管理」模块点击“添加文件”按钮,选择“工具上传”,根据提示下载镭速客户端;

  2. 安装并启动镭速客户端;

  3. 点击“立即上传”按钮,在弹出框中选择文件或文件夹(可按住Ctrl选中多个文件)后,点击“ok”按钮上传数据。

注意

镭速工具支持上传大文件或文件夹,其传输过程分两阶段:1)从本地电脑传输至镭速中转盘;2)从镭速中转盘传输至华大存储。镭速客户端显示的上传完成仅代表第一阶段完成,完整过程的传输状态请查看“操作记录“。

若上传的是文件夹,文件夹名称只能含有字母、数字、"_"、". "、“-”,否则会上传失败。

ossutil 工具上传

仅阿里云片区可以使用ossutil工具上传数据,利用该工具可直接将本地文件或文件夹通过命令的方式上传至项目「数据管理」。

  • Windows 系统上传数据步骤如下:
  1. 在「数据管理」“添加文件-工具上传”界面下载ossutil工具压缩包;

  2. 解压并双击ossutil.bat文件打开ossutil工具,进入命令提示符界面;

  3. 在云平台工具上传界面,输入需要上传的本地文件或文件夹路径(若上传的是文件,则需写以文件格式结尾的全路径,举例:D:\upLoad\test.txt);

  4. 在云平台工具上传界面,点击“生成上传命令”按钮,页面生成命令后再点击“复制命令”按钮复制上传命令,

  5. 将命令粘贴至命令提示符并回车上传文件。数据上传完成后刷新数据管理页面即可看到新上传的数据。

  • macOS 系统上传数据步骤如下:
  1. 在「数据管理」“添加文件-工具上传”界面下载ossutil工具压缩包;

  2. 打开终端后,从终端进入上述下载的文件夹或直接将文件夹拖至终端,并给ossutil工具授权(命令:chmod 755 ossutilmac64);

  3. 在云平台工具上传界面,输入需要上传的本地文件夹或文件路径(若上传的是文件,则需写以文件格式结尾的全路径,举例:/Users/DCS_Cloud/Downloads/);

  4. 在云平台工具上传点击“生成上传命令”按钮,页面生成命令后再点击“复制命令”按钮复制上传命令;

  5. 粘贴命令到终端并回车上传文件。数据上传完成后刷新数据管理页面即可看到新上传的数据。

1a39405716bc5a681fd43722a325ba3.png
1a39405716bc5a681fd43722a325ba3.png

注意

若执行上传命令时提示“macOS无法验证ossutilmac64的开发者“,则需在苹果-系统偏好设置-安全性与隐私-通用界面,选中“App Store和被认可的开发者”,如下图。选中后再从上述第二步开始操作。

134be2ae412a0a1d868b88f1d3c5bbc.png
134be2ae412a0a1d868b88f1d3c5bbc.png

AWS CLI工具上传

利用AWS CLI 工具将本地文件或文件夹上传至云平台。

在项目「数据管理」文件页面,点击“添加文件”按钮,选择“工具上传”即可进入工具上传。如图所示:

操作步骤如下:

  1. 在「数据管理」“添加文件-工具上传”界面下载 AWS CLI 工具压缩包;

  2. 安装AWS CLI 工具;

  3. 安装完成后,打开本地电脑控制台(即Windows系统执行cmd,macOS或Linux系统进入终端界面);

  4. 在「数据管理」工具上传界面,输入需要上传的本地文件夹或文件路径。若上传的是文件,则需写以文件格式结尾的全路径,如:D:\upLoad\test.txt;

  5. 在「数据管理」工具上传界面点击“生成上传命令”,生成命令后点击“复制命令”;

  6. 粘贴命令到终端并回车上传文件(若上传的是文件,需删除命令中的字符“--recursive”),数据上传完成后刷新数据管理页面即可看到新上传的数据。

项目复制

在复杂的生物信息学分析场景下,整合不同的数据源是一项常见且关键的任务。您可能需要不同项目多种组学数据进行联合分析,以提供生物系统的全局视图和不同数据集层之间相互作用性质的见解。项目复制功能支持将不同项目的数据复制整合到同一个项目,实现数据的统一管理和联合分析。

在「数据管理-文件」页面,点击“添加文件-项目复制”,选择你需要复制的文件或文件夹后,点击“复制到项目”并“确认”完成数据的复制。

注意

为了保护用户数据的安全,云平台对数据的使用有严格的权限要求。跨项目复制整合数据遵循以下权限要求:

谁能复制数据到项目中?

只有项目负责人项目管理员分析人员可以从其他项目中复制数据到项目中。

能复制哪些项目的数据?

仅支持复制自己负责和管理的项目数据。

文件预览

云平台集成了文件预览工具,能够帮助用户在线实时查看文件内容。

进入项目数据文件页面后,点击文件名称,即可进入在线查看文件。目前支持在线查看的文件格式有pdf、png、csv、txt、html、json、xlsx、xls、xlt、et、ett。

云平台也在不断更新和扩展支持的文件格式,以满足用户的多样化需求。

文件元数据

生物信息数据的元数据是描述生物数据集的特征、来源、质量、使用条件等信息的数据。在生物信息学领域,元数据对于数据的管理、检索、分析和共享至关重要。

修改元数据

在文件列表界面,选中一个或多个文件,点击“编辑”,页面后边会弹出编辑元数据对话框。填写元数据信息后,点击“确定”即可。

导出元数据

用于导出Excel格式的文件元数据信息,在导出的文件基础上调整数据后即可作为表格使用。

进入项目数据-文件页面后,选择一个或多个文件,点击“导出元数据”即可,如下图:

文件移动

在同一个项目内,支持文件或文件夹从一个目录转移到另外一个目录。具体操作步骤如下:

  1. 在文件页面,选中文件夹或文件后,点击按钮“移动”;

  2. 选择目标文件夹;

  3. 点击“确定”完成文件移动。

注意

单次移动的文件数量不能超过1万个。

文件复制

支持把当前项目的文件或文件夹复制到项目内其他文件夹或其他项目的任意文件夹中。具体操作步骤如下:

  1. 在文件页面,选择需要复制的文件或文件夹,点击“复制”按钮;

  2. 选择目标项目及目录;

  3. 点击“确定”复制文件。

注意

单次复制的文件数量不能超过1万个。

文件下载

网页下载

仅阿里云片区有此功能,用于让用户通过浏览器方式将阿里云的文件下载到用户本地。

在文件管理页面,勾选需要下载的文件,点击“下载-网页下载”即可将所需文件下载到本地设备。

工具下载

镭速工具下载

仅 BGI-深圳 片区支持使用镭速工具下载数据,支持将 BGI-深圳 片区除FASTQ 和 bam之外的其他文件下载到本地。具体操作步骤如下:

  1. 勾选下载的文件;

  2. 点击“下载”选择“镭速工具下载”,进入镭速工具下载界面;

  3. 点击右上角“安装并启动镭速客户端”按钮,安装并启动镭速客户端(首次使用时);

  4. 为保证集群数据安全,文件需要转移至可下载区才能直接下载到本地,通过查看文件的传输状态判断文件是否可以直接下载,不同传输状态下的文件下载方式如下:

    1. 传输状态为“传输完成”的文件,选择文件后可直接点击“批量下载”,批量下载提供客户端下载和命令行下载两种方式,选择客户端下载方式同上述第3步,可直接启动后下载,选择命令行下载方式,需系统中安装镭速工具并配置好环境变量,确定需保存的目录名称,最终下载的文件位置为:当前执行命令的目录+自定义的目录,将文件下载到本地或集群;
2.  传输状态为“待传输”的文件,选择文件后,点击“批量传输”传输数据,点击“刷新”刷新数据传输状态,数据传输完成后点击“批量下载”选择下载方式后即可下载文件。

ossutil工具下载

仅阿里云片区支持使用ossutil工具下载数据。

  • Windows 系统数据下载步骤如下:
  1. 在「数据管理」勾选需要下载的数据;

  2. 点击“下载-工具下载”,在弹窗中下载 windows 版本的 ossutil工具压缩包;

  3. 解压并双击ossutil.bat文件打开ossutil工具,进入命令提示符界面;

  4. 在云平台文件下载页面,点击“生成并复制下载命令”复制命令;

  5. 将命令粘贴至命令提示符并回车,文件则会自动下载到当前文件夹。

注意

若用户本地集群支持外网访问,则可将阿里云上的文件下载到本地集群中,操作步骤见文件下载—ossutil工具下载(Linux用户)。

  • Linux用户操作步骤如下
  1. 在「数据管理」勾选需要下载的数据;

  2. 点击“下载-工具下载”,在弹窗中下载 Linux 版本的 ossutil工具压缩包;

  3. 将压缩包拷贝到集群服务器中,并使用解压命令:unzip ossutil-v1.7.16-linux-amd64.zip 解压;

  4. 在集群上给解压后的ossutil工具授权,授权命令:chmod +x ossutil*;

  5. 在云平台文件下载页面,点击“生成并复制下载命令”复制命令;

  6. 将命令粘贴到工具界面后,在命令前加./后执行。文件则会自动下载到当前文件夹。

注意

以上述方式下载文件的前提条件是本地集群可访问外部网络。

AWS工具下载(Windows用户)

使用 AWS工具将云平台上的文件下载至本地。操作步骤如下:

  1. 在「数据管理」“下载-工具下载”界面下载 AWS CLI 工具压缩包;

  2. 安装AWS CLI 工具;

  3. 下载AWS工具,双击文件安装(首次使用AWS工具时);

  4. 安装完成后,打开本地电脑控制台(即Windows系统执行cmd,macOS或Linux系统进入终端界面);

  5. 在云平台文件云平台文件下载页面,点击“生成下载命令”生成下载命令,点击“复制命令”复制下载命令,

  6. 将粘贴到控制台并回车。文件将会自动下载到当前文件夹。

文件删除

用于删除文件或文件夹,选择文件或文件夹后,点击“删除”按钮,在弹出的提示框中点击“确认”后,即可删除文件。

注意

文件删除后无法恢复文件,请谨慎操作。

其他操作

查看及复制文件路径

用于查看和复制文件路径,以便更好的填写表格。

在文件页面,鼠标移入到需要复制路径的文件名称处,点击按钮即可查看文件虚拟路径和真实路径。

全部选中和取消选中

支持全部选中和取消选中文件或文件夹。

文件页面,点击“选中全部”则可以选中当前所有记录(包括翻页的记录),点击“取消选中”则取消选中所有记录。

只显示已选中文件

跨文件夹选中多个文件后,若想快速取消部分文件,可选中列表左上角的按钮“只显示选中记录”,则页面会显示选中记录,在该页面可快速取消。如下图:

操作记录

用于查看添加文件、下载文件记录。

点击按钮【操作记录】后,弹出数据上传页面,该页面记录了上传文件名称、上传方式、上传状态、文件路径、上传时间等信息。

表格

表格管理

表格是通过数据表格的形式对生信数据进行整理、组织和展示,也为工作流批量运行计算提供基础。

新建项目时,针对时空组学的商务项目或PM项目,系统将自动生成时空数据模型,它包含芯片表、测序表和图像表。针对非时空组学的商务项目或PM项目,系统将自动生成通用数据模型,它包含样本表和测序表。

时空数据模型中

时空芯片表用于展示芯片相关的信息,包括芯片号、规格、尺寸、mask、以及其对应的测序数据、图像数据等。针对时空商产付项目,芯片表会自动生成其值;针对个人项目,在芯片管理页面关联芯片后,芯片表将会自动生成相关信息。

在数据管理页面点击“表格”进入表格页面后,点击Chip data表,即可打开芯片表。

时空测序表用于展示测序相关信息,时空商产付项目已支持自动同步glims的下机数据到测序表。非时空项目预计2024年1月会自动同步glims下机数据。

在数据管理页面点击“表格”进入表格页面后,点击Sequencing data表,即可打开测序表。在芯片详情上传的FASTQ将自动同步到此表中。

时空图像表用于展示时空项目图像相关信息,包含原始TAR和IPR,以及预处理后的IPR。

在数据管理页面点击“表格”进入表格页面后,点击Image data,即可打开图像表。在芯片详情界面上传的ipr将自动同步到此表中。

通用数据模型中:

样本表用于展示华大下机的样本相关信息,包括样本编号、样本名称、物种、组织、关联的下机FastQ等信息。

测序表用于展示华大下机的测序数据,如样本号、slide、lane、barcode、FastQ文件、文库类型、文库编号等。

下载模板

下载表格模板,在本地填写完成后可通过新增表格上传。

在「数据管理-表格」页面,点击“下载模板”,支持从workflow流程导出,或从系统预制的数据模型模板中下载。

新增表格

用于新增一个表格。

在「数据管理-表格」页面,点击“添加表格”按钮,填写表格名称,选中需要导入的Excel表即可。

如何填写表格

  1. 场景1:表格是您自己创建或使用流程自带的表格填写,请认真阅读每个参数下的参数说明,为避免任务报错,请按照参数规定的文件格式,填写方式正确填写相应字段,需特别注意字符和数值的填写是否准确,以及fq文件数组的填写方式。
  1. 场景2:表格是使用数据模型提供的模板,可以查看表格下方所带的示例格式,依据提供的示例格式,匹配个人真实数据即可完成填写。

常见问题

Q:fq相关的测序数据路径涉及到数组的格式涉该如何填写?

A:针对不同组学(单细胞、时空组学、基因组学)的不同流程,都会有下机的*.fq.gz文件的参数作为输入,表格中的填写方式均以SampleID为单位,同一个样本如果有多对fq.gz,一行只能填写一对*.fq.gz信息,多对*.fq.gz需分行填写,保证不同行的样本是同一个样本ID即可。

编辑表格

新增数据

在线新增行

用于在已有的表格中,以在线编辑的方式新增行。

在「数据管理-表格」页面,在左侧选中需要新增数据的表格,点击右上角“新增-新增行”按钮,填写相关信息后点击“确定”新增行。

注意

注意:第一列必填,其他列选填,在填写其他列时,若是文件,则可点击文件夹icon后选择文件。

批量导入行

用于在已有的表格中,以批量导入的方式新增行。

在「数据管理-表格」页面,在左侧选中需要新增数据的表格,点击右上角“新增-批量导入行”按钮,在弹出框中下载模板并在模板中填写信息后,导入此模板。

编辑数据

该功能用于修改表格中的数据。

在「数据管理-表格」页面,选择需要修改的表格,将鼠标光标移动到需要修改的单元格后,点击修改icon,在弹出的编辑框中输入信息并点击“确定”完成编辑。

删除数据

用于删除表格中的部分数据。

在「数据管理-表格」页面,选择需要删除的表格,勾选需要删除的数据后,点击“删除”按钮并“确定”删除所选数据。

注意

删除后无法恢复,请谨慎操作。

系统预制芯片表的数据暂时不允许删除。

下载数据

用于下载表格中的部分数据。

在「数据管理-表格」页面,在左侧选中表格,勾选需要下载的数据,点击“下载”按钮,选中的数据行将以 Excel 的文件形式下载到本地。

下载表格

表格选中后,可点击图标将表格下载到本地。

删除表格

表格选中后,可点击图标将表格删除。

注意

删除后无法再恢复,请谨慎操作;

系统预制的芯片表、测序表、图像表暂时不允许删除。

批量运行

该功能是快速批量投递Workflow分析任务的快捷入口。

在「数据管理-表格」页面,选择需要投递任务的表格及表中数据后,点击“批量运行”按钮,进入流程界面后在需要投递任务的流程处点击“运行”,即可把表格中所选数据自动匹配到流程参数,从而快速批量投递任务。

上次编辑于: