中国证券投资基金业协会登记代码 P1064877

IF=11.1!全球首个跨物种单细胞注释数据库,博奥晶典自主研发攻坚细胞注释难题

2023-10-07

海量单细胞数据亟待解决注释难题


单细胞转录组测序(scRNA-seq)技术为研究人员提供了独特的机会,以单个细胞的分辨率来揭示人体组织中复杂的细胞成分和各种细胞的异质性。在进行 scRNA-seq 数据分析时,注释每个细胞的生物学类型是研究人员面临的一个极具挑战性的核心问题。

细胞注释的方法通常分为自动注释和手动注释两大类。虽然自动注释速度更快,但在精细的细胞亚型注释方面通常效果不佳,并且不能始终得到高置信度的注释结果。手动注释通常被认为是金标准,但通常面临以下挑战:
1. 手动注释耗时且需要大量的工作量,同时还要求先验知识,即已知的细胞类型和标记基因的关联关系。
2. 已知细胞类型与标记基因之间的关联关系数量有限、分散在各类研究论文中、且可靠性有待提高。

3. 对于除人类和小鼠之外的其他物种,几乎没有可用的数据资源来支持手动细胞注释,使得单细胞数据分析中不可避免的细胞注释过程更加困难。


单细胞注释数据库

singleCellBase有效解决注释困境


面对以上难题博奥晶典联合广东省东莞市妇幼保健院黄小玲主任医师团队攻坚克难,成功自主研发出单细胞注释数据库——singleCellBase有效解决单细胞数据注释困境,结果于权威杂志 Biomarker Research 杂志(影响因子 11.1)在线发表。
图1. singleCellBase 数据库开发构架示意图

数据库四大特性助力

高质量细胞注释结果


博奥晶典自主研发的 singleCellBase 是全球首个支持多物种单细胞注释的数据库,具有(1)打破物种限制;(2)提供先验知识;(3)整合分散的文献资源;(4)拓宽疾病研究领域;(5)实现数据资源共享;(6)促进科学交流的特殊意义;且具有全面性可靠性交互性时效性的 4 大优越性能。该数据库极大方便了从事基础研究,特别是应用单细胞技术的研究领域的研究人员,为更好地在单细胞分辨率下解析疾病治病机理以及探索有效治疗策略提供基本的信息资源。  
全面性:涵盖 31 个物种,除人和小鼠外,还包含猴、鸡、猪、鱼、拟南芥等动物和植物等。共计涉及 8740 个基因和 1221 种细胞类型,涵盖 165 种组织类型和 464 种疾病类型。
可靠性包含超过 2000 篇高质量单细胞研究论文的约 10,000 条细胞类型和标记基因之间的对应关系记录,所有记录均通过人工提取和双重核查后收录。
交互性:提供 7 个功能模块,满足研究人员日常浏览、查询和可视化单细胞数据集等诸多需求。
时效性:持续更新数据库信息,不断升级优化功能模块。


图2. singleCellBase 数据库特点

图3. singleCellBase 数据库主要功能模块

数据库项目实测应用结果比较


以下具体展示用 singleCellBase 和 目前广泛应用的 CellMarker 两种注释数据库对 5 个数据集进行注释的结果比较。

1. 小鼠血管组织

图4. 小鼠主动脉单细胞数据利用不同数据库注释结果。中间图 CellMarker 注释结果中红色代表 other,即并未注释出确切的细胞类

图5. 细胞最大概率值的密度分布图


结论


小鼠主动脉组织,共 74073 个细胞,CellMarker 仅能注释出小部分细胞(<5%),singleCellBase 可注释出基本上所有细胞,而且结果与经验 marker 注释高度一致,大大优于 CellMarker 的结果。


2. 小鼠肺组织


图6. 小鼠肺单细胞数据利用不同数据库注释结果

图7. 经典 marker 验证注释准确性。图中用绿色圈起来的部分为 cluster1、3、10

结论


小鼠肺组织,CellMarker 与 singleCellBase 注释结果有不同,利用经典 marker 验证得知 singleCellBase 注释正确。


3. 人肝脏组织

图8. 人肝脏单细胞数据利用不同数据库注释结果


T 细胞 marker 验证


NK 细胞 marker 验证


单核细胞 marker 验证
图9. 经典 marker 验证注释准确性。图中用紫色圈出来的部分为 cluster22


结论


人肝脏注释中 CellMarker 和 singleCellBase 结果出现不一致。利用经典 marker 验证得出 singleCellBase 结果更可信,且 singleCellBase 注释出的细胞亚群更多更细致。


4. 人肺癌组织


图10. 人肺癌单细胞数据利用不同数据库注释结果


结论


人肺癌组织,两种数据库的注释结果相似。需要进一步利用CNV分析辅助肿瘤细胞的注释。


5. 人心脏组织

图11. 人心脏单细胞数据利用不同数据库注释结果


结论


对人心脏单细胞数据的注释,singleCellBase 大大优于 CellMarker。


通过多个数据库的注释结果可以发现,singleCellBase 和 CellMarker 两种数据库在不同组织中注释的效果不同,对肺癌组织数据两种数据库表现得相当,而 singleCellBase 在小鼠血管、小鼠肺、人肝脏和人心脏组织的单细胞数据中注释得更为准确和全面。当然,每个数据库都不是完美的,singleCellBase 也需要在 marker 和细胞类型上向更加统一和准确的方向前进,规范化细胞类型名字,并且通过多个数据库整合来进行实时更新和优化,持续为广大科研工作者在单细胞注释方面带来更全面更准确的高质量细胞注释结果。


严正声明

近期,有不法分子冒充基金公司名义发布虚假信息、从事推荐股权基金产品或非法集资等违法犯罪行为,公司对此坚持零容忍、零姑息的态度,一旦发现前述行为,将第一时间配合公安机关及市场监督管理部门等有关部门进行侦破。为了让社会各界分辨真伪,避免人身财产受到侵害,公司严正声明如下:

一、目前公司仅有唯一官网(www.zdzbtz.com),咨询电话:021-50816160,其他资讯平台以“卓戴资本”公众号账号宣传行业资讯为主,不发布任何违法信息及实施任何违法违规行为;

二、公司未委托、亦决不会委托任何其他组织或个人进行与公司相关的任何业务;

三、一经发现不法分子冒充本公司名义从事违法行为,公司将立即配合公安部门追究其相关法律责任。

感谢大家的理解和支持!

特此声明

海南卓戴私募基金管理有限公司

2022年9月23日