这篇论文提出了DRscDB,一个用于办理跨物种scRNA-seq数据挖掘和比较问题的数据库。详细来说,
文献标准化:首先,手动策划并标准化了已揭橥的Drosophila scRNA-seq研究,涵盖了果蝇、斑马鱼、小鼠和人等多种物种的紧张组织类型。标准化过程包括从原始出版物中提取实验设计、样本信息和标记基因列表,并将其存储在Excel文件中。数据处理管道:利用Seurat软件处理原始基因表达矩阵和元数据文件,天生聚类级别的汇总信息和每个基因在每个聚类中的表达统计数据。处理后的数据被压缩以节省存储空间。数据导入和同步:将不同出版物的基因标识符同步为当前的NCBI Entrez GenelD和特定物种的标识符(如FlyBase FBgn IDs用于果蝇基因,MGI IDs用于小鼠基因)。无法映射的标识符将被打消。标记基因选择、同源映射和富集剖析:从策划过程中网络标记基因及其统计信息,并利用DIOPT工具将这些基因映射到其他模型生物的同源基因。选择每个聚类的Top 100标记基因进行富集剖析,基于超几何分布打算富集P值。在线资源实现:开拓了一个基于PHP的Web工具,前端利用HTML页面和JQuery JavaScript库,后端利用MySQL数据库存储策划信息和聚类统计数据。实验设计数据网络:从已揭橥的出版物中手动策划并标准化了18篇果蝇和29篇人类、小鼠、斑马鱼的scRNA-seq研究数据。样本选择:选择了多种组织类型,包括果蝇的免疫、卵巢、翅膀盘、脑、肠道、胚胎和眼盘等;人类的肾脏、脑、免疫和肠道等;小鼠的肾脏、睾丸、脑和免疫等;斑马鱼的脑、免疫/肾脏和肠道等。参数配置:在数据处理管道中,利用Seurat软件处理原始数据,天生聚类级别的汇总信息和每个基因在每个聚类中的表达统计数据。选择每个聚类的Top 100标记基因进行富集剖析。结果与剖析文献策划和数据处理:成功策划并标准化了47篇出版物的90个数据集,覆盖了果蝇、人类、小鼠和斑马鱼的多种组织类型。
这篇论文先容了DRscDB,一个用于跨物种scRNA-seq数据挖掘和比较的数据库。DRscDB通过手动策划和标准化文献,整合了多种物种的scRNA-seq数据,并供应了一个用户友好的Web界面,利用户能够轻松地搜索特定基因、查找表达该基因的数据集以及进行细胞类型富集剖析。DRscDB的独特之处在于其利用DIOPT工具进行同源基因映射,从而实现了高效的跨物种基因搜索。总体而言,DRscDB为研究职员供应了一个强大的工具,有助于揭示不同物种之间的转录组守旧性和细胞类型同等性。
论文评价优点与创新综合性数据库:DRscDB是一个综合性的单细胞RNA测序(scRNA-seq)数据挖掘资源,涵盖了果蝇、人类和其他模型生物的干系数据集。跨物种剖析:DRscDB供应了强大的跨物种同源基因搜索功能,利用DIOPT工具进行基因映射,使得用户能够高效地进行跨物种剖析。原始数据剖析保留:DRscDB保留了原始揭橥的scRNA-seq数据剖析结果,避免了重新剖析可能带来的数据构造变革。用户友好的界面:DRscDB供应了一个大略易用的网络搜索工具,用户可以方便地挖掘基因表达数据和进行细胞簇富集剖析。社区参与机制:DRscDB许可社区成员提交尚未覆盖的研究或出版物信息,从而加快数据集的添加和覆盖范围。可视化工具:DRscDB供应了多种可视化工具,如点图、热图和条形图,帮助用户直不雅观地理解基因表达数据和细胞簇的富集情形。不敷与反思手动注释的局限性:DRscDB依赖于手动注释已揭橥的文献,这一过程耗时且劳动密集,可能导致某些出版物的数据包含延迟或不支持。未来事情方向:为了进一步提高DRscDB的覆盖范围和实用性,作者操持实现一个机制,许可进行scRNA-seq研究的社区成员上传干系信息,从而加快数据集的添加过程。关键问题及回答问题1:DRscDB在数据处理过程中是如何确保数据标准化的?
文献筛选:选择了一组定义明确的物种(如Drosophila、human、mouse、zebrafish)和紧张组织类型,从这些物种中网络了标记基因列表和元数据。数据处理:利用Seurat软件处理原始基因到细胞的表达矩阵和元数据文件,天生聚类级别的择要文件和基因到聚类的表格文件。该管道显著压缩了数据大小,例如,Drosophila血液数据集的基因到细胞表达矩阵文件大小从500MB压缩到10MB。数据同步:将不同出版物中的基因标识符同步为当前的NCBI Entrez GenelD和特定物种的标识符(如FlyBase FBgn IDs用于Drosophila基因,MGI IDs用于小鼠基因)。无法映射的标识符将被打消。标记基因选择:根据倍数变革或表达百分比选择每个聚类的顶级标记基因,并利用DIOPT工具将其映射到其他模型生物的嫡系同源基因。问题2:DRscDB如何实现跨物种的细胞聚类匹配和比较?
标记基因选择:从每个聚类中选择顶级标记基因,例如,选择每个聚类的top 100标记基因。嫡系同源映射:利用DIOPT工具将选择的标记基因映射到其他模型生物的嫡系同源基因。DIOPT工具结合了17种不同的算法来预测嫡系同源基因对,并利用这些算法的得分作为映射的置信度评分。富集剖析:基于超几何分布打算标记基因集的富集P值,并在DRscDB网站上以负对数P值或倍数变革的形式展示富集强度。用户界面:DRscDB供应了一个用户友好的Web界面,用户可以输入一组基因并查找其在所有数据集中的最佳匹配细胞聚类。结果可以以热图或点图的形式可视化,显示不同数据集中相似细胞聚类的干系性。问题3:DRscDB在跨物种比较中的详细运用有哪些例子?
Drosophila血液数据集与蚊子血液数据集的比较:通过比较Drosophila血液数据集与蚊子血液数据集,创造相似的细胞类型在不同数据集中具有良好的对齐性。例如,Drosophila血液中的“PM2”聚类与蚊子血液中的“HC4”聚类高度干系,两者都富含表达增殖标记基因的细胞。Drosophila肠道数据集与人类肠道数据集的比较:通过比较Drosophila肠道数据集与人类肠道数据集,创造相似的细胞类型在不同数据集中具有良好的对齐性。例如,Drosophila肠道中的肠上皮细胞与人类肠道中的肠上皮细胞高度重叠,包括肠细胞、干细胞和肠内分泌细胞。Drosophila血细胞类型的聚类匹配:通过无监督层次聚类剖析,创造来自不同研究的血细胞类型(如浆细胞、晶体细胞和 lamellocytes)在不同数据集中具有良好的对齐性,表明DRscDB能够有效地进行跨物种的细胞聚类匹配。