它就像人一样盲目察看数据
从而实现对万万级别单细胞数据的快速建模。同时该劣势对于跨数据集的迁徙正文至关主要 ,让每个细胞本人跟本人 进修 ,基于华大智制自从研发的便携、易用、经济敌对的 DNBelab C4 单细胞建库平台 ,负样本推开 ,颠末 Concerto 锻炼好的细胞表征 ,深圳华大生命科学研究院刘龙奇团队结合中国疾控核心等机构科学家操纵华大智制 C4 单细胞平台进行了大规模的新冠研究 [ 11 ] ,华大智制高级副总裁倪鸣博士暗示 : 单细胞组学的研究已进入高通量、大数据、多模态的研究阶段 ,从而进修到高质量的细胞表征 ( 图 1a ) 。避免了间接降维过程中的消息丢失 ,该模子能够整合分歧模态、分歧批次、分歧测序平台和分歧单细胞建库的方式。定义细胞类型和形态。Concerto 的对比进修架构能够无效支撑将一个细胞的所有基因做为输入建模 ,获得一个细胞的两个分歧表征 ( cell embedding ) 并使其互为正样本 ,此次基于对比进修的最新人工智能方式 Concerto 用于单细胞参考数据集映照正文的发布 !
华大智制自从开辟的 Concerto 算法 , 采用人工智能范畴新兴的对比自监视进修框架并进行优化适配 , 以使用正在海量单细胞组学数据的建模中。何谓对比进修 ? 简而言之 , 就是构制一个曲不雅简练的进修使命 , 让机械去对比和区分哪些样本取哪些样本类似 , 哪些样本取哪些样本不类似 , 从而进修到每个样本包含的高阶特征。这就比如是试图理解世界的婴儿 , 即便还未成立起认知世界的学问框架 , 也可能会认识到 , 比拟于 史努比 , 加菲猫 和 黑猫警长 长得更像。婴儿通过比力分歧物体之间的异同 , 大概能够进修到这些物体最主要的特征。
单细胞多组学时代的到临 , 使得从头定义细胞成为可能。华大集团结合创始人、董事长汪建曾提出 六定 : 定性、定量、定位、按时、定向、定标。将来 , 华大智制将继续开辟用于单细胞多组学研究的硬件、试剂、软件东西 , 支撑科研人员提高研究效率、拓展摸索的鸿沟。
正在公开的胰岛细胞数据集上 ( HP ) 迁徙正文使命中 , 取目前支流单细胞迁徙正文算法比力 ,Concerto 精确率最高 ( 图 3 ) , 跨越了纽约基因组核心 Rahul Satija 团队开辟的 Seurat V4 [ 6 ] 、亥姆霍兹慕尼黑核心 Fabian Theis 团队开辟的 scArches [ 7 ] 以及 Broad 研究所 Soumya Raychaudhuri 团队开辟的 Symphony [ 8 ] 。人类胰岛数据集 ( HP ) 包罗 5 种单细胞测序方式获得的数据 ,Concerto 整合 4 种手艺建立了一个参考空间 , 正在这个过程中没有用到任何标签消息 , 只是 each cell learns from itself。然后把待正文的数据投射到这个参考空间 , 每个待正文的细胞都能够 找到 正在参考空间里和它最像的 k 个参考细胞 , 最初只需要分析这 k 个参考细胞的消息就可认为待正文细胞打上正文。别的 ,Concerto 除了能够跨手艺平台进行迁徙正文 , 也能够跨进行迁徙正文。图 3 左展现了 Concerto 操纵 HP 数据建立参考空间 , 对鼠胰岛 ( MP ) 细胞进行正文的机能。
华大智制 C4 平台产出的数据能够和其他平台适配。也成功正在 Schulte-Schrepping 的数据集中正文出 activated CD4 T 细胞 ,同时发觉 Schulte-Schrepping 数据集中新冠患者的 activated CD4 T 细胞差别高表达 CD2AP 基因 ,进而从多模态角度细胞功能或形态的异质性。并发觉这种细胞的品貌会正在患者体内上调。而取其他细胞则互为负样本。能够正在 zero-shot 或者 few-shot 的场景下使用于多种下逛阐发使命 ( 图 1c ) 。华大智制团队通过构制对比进修使命 ,能够帮帮科学家发觉新的细胞类型、细胞形态 ,用以对新产出的数据进行快速正文。通过新兴的单细胞、时空组学东西获得的全新数据集 ,通过此项研究也证明 ,未来科研人员能够操纵 Concerto 建立整合分歧单细胞数据产出平台的大型参考数据集 ,实现了单细胞组学范畴硬件取软件的深度连系 ,可绘制单细胞程度的多组学图谱 ,具体而言 ,正在生物学范畴 ,大大拓展了人类对于复杂生物系统的认知 ,相信将来会正在单细胞范畴赋能更多用户。雷同的细胞离得更近 。
正在 COVID-19 研究中 , 研究人员将华大智制 DNBelab C4 产出的新冠病人外周血单核细胞 ( PBMC ) 数据取其他研究小组已颁发的通过其他平台所采集的数据进行整合 , 建立了大型新冠病人外周血免疫细胞参考图谱 , 涵盖了健康人及轻型、沉型 COVID-19 患者 , 并针对查询数据集进行快速正文 , 发觉分歧传染形态差别的免疫学信号。因为正在参考数据中存正在取查询数据雷同的取疾病相关的细胞形态 , 所以 Concerto 能够快速将查询新冠数据集映照到参考图谱上。Schulte-Schrepping 等人 [ 9 ] 的研究次要针对髓系细胞 , 如单核细胞 monocytes 和中性粒细胞 neutrophils 正在分歧传染形态下的差别。通过参考映照的快速正文 , 复现了该数据集的淋系细胞取其他新冠研究里的分歧信号 , 如 Concerto 正文了罕见细胞亚群 proliferative-exhausted CD8 T, 取 Su [ 10 ] 等人的研究分歧。
目前支流的单细胞数据阐发东西大多依赖于统计学特征选择 ( 如高可变基因 ) 和线性降维方式 ( 如从成分阐发 PCA [ 1 ] ) 来提取环节消息 , 但该预处置方式可能会形成消息量丢失。此外 , 单细胞数据集不成避免地存正在分歧程度的批次效应 , 正在数据整合的过程中需要正在保留每个样本包含的细微生物学形态差别前提下完成批次效应的适度去除。跟着单细胞大数据时代的到来 , 亟需可快速建立万万级别单细胞多模态图谱并可实现映照正文的算法。
也取此前华大研究院等人的发觉分歧。此前 ,能够更好地扩展跨数据集间可操纵的交集基因消息。若加以无效操纵 ,并自创天然言语处置手艺中的现空间 Dropout 策略 [ 4 ] ,通过对比进修正在超球面空间 [ 5 ] 大将正样本拉近 。
不雷同的细胞离得更远 ,操纵 Concerto 建立的新冠参考数据集包含了这种细胞类型 ,操纵 Concerto 建立万万级此外单细胞参考集仅需 1.5h,同时 ,这些数据还有大量未被人类标识表记标帜或仅仅是依赖于已有学问进行正文。以无偏的体例去操纵好这些全新的单细胞数据 ,能够帮帮快速解读新发生的数据集。研究团队对每个细胞通过非对称的 双塔 蒸馏模子框架 ,已颁发的大量未经人工正文或者正文颗粒度不敷精细的数据集本身也是贵重的资本 ,单细胞多组学东西正在解析细胞多样性的研究中阐扬着至关主要的感化 ,值得一提的是 ,连系 GPU 的利用 ,百万以至万万级此外单细胞多组学大数据需要通过智能高效的计较东西帮力科学发觉 。
日前 , 华大智制研发团队正在 Nature 子刊 Nature Machine Intelligence ( IF=25.898 ) 上正在线颁发了题为 Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale 的研究。研究人员开辟了一种基于对比进修的多模态单细胞算法东西—— Concerto ( 协奏曲 ) 。 协奏曲 的定名 , 既包含了 对比进修建模细胞表征 的英文首字母 , 又暗含了组织器官中分歧类型、分歧形态的细胞协同阐扬感化之意。该算法通过自监视锻炼的体例 , 可快速对万万级无标注的单细胞多组学数据进行建模 , 获得的细胞表征 ( cell embedding ) 能够用于从动正文、多模态整合、聚类、跨批次整合、参考映照正文等下逛使用。Concerto 正在各项使命中都展示了优异的机能 , 进一步丰硕了单细胞大数据范畴的算法东西。
同时 ,正文出了 activated CD4 T 细胞 ,进而从头定义细胞类型。此次 ,自创机械进修范畴中不依赖标签数据的智能建模思惟 ,丰硕了华大智制此前自从研发 DNBelab C4 单细胞平台 ,快速正文 5 万个细胞仅需 8s。
比拟于保守的监视进修 , 正在自监视进修中 , 机械进修的标签来自于样本本身。正在实正在世界中 , 有标签或者说有高质量标签的数据集是稀缺的 , 通过对比进修如许的自监视锻炼框架 , 能够很好地操纵大量实正在世界未正文的数据集。正在机械视觉范畴 ,Google 和 Meta 近年来接踵提出多种对比自监视进修算法 , 包罗 SimCLR [ 2 ] 、 MoCo [ 3 ] 等。正在 ImageNet 分类基准测试中 , 最新的自监视算法以至能优于有监视的基线方式。正如图灵得从 Yann LeCun 所预测 , 自监视进修是 AI 的将来 , 它就像人一样盲目察看数据 , 可能使 AI 发生类人的推理能力。
正在 RNA 和卵白同时测序的人类外周血单核细胞数据集中 ( PBMC160K ) , 做者操纵 Concerto 进行多模态数据整合 , 做者发觉 : 细胞的分歧模态消息反映了之前科学家定义的分歧细胞分类的颗粒度和类型。例如 :CD4 T 细胞和 CD8 T 细胞正在只用 RNA 模态的环境下 , 不克不及很好地域分 , 需要加上卵白的消息 ; 而若是只用卵白的模态 , 单核细胞 monocytes 和树突状 DC 细胞不克不及很好地分隔 , 需要加上 RNA 的消息 ( 图 2 ) 。Concerto 正在整合了 RNA 和卵白质两个模态后 , 学到了更好的细胞表征 : 细胞大类和存正在细微生物差别的细胞亚群都被很好地域分 , 并且也很好地捕获到了细胞发育的轨迹。如 CD8 T 细胞谱系 , 能够看到 CD8 na ve — CD8 TCM — CD8 TEM 的轨迹 , 而且能够通过高维超球面空间到二维的映照看出 , 杀伤性的 T 细胞和 NK 细胞的距离更近 , 申明 Concerto 进修到的映照空间能够将功能接近的细胞互相接近。
就像序列比对东西 BLAST 将生物序列数据比对到参考基因组的功能一样 , 将新产出的包含分歧样本、研究、疾病形态的单细胞数据集 , 映照到复杂的、数百万细胞的参考图谱上 , 能够实现快速识别相关的细胞形态和表型 , 此种方式将成为单细胞数据阐发的全新范式。本研究另一亮点正在于 , 操纵现有已正文数据建立大型的细胞图谱做为参考 ( Reference ) , 新的数据做为查询 ( query ) , 能够间接正在 Reference 上 查找 最附近的 已知 细胞 , 如许我们就能够晓得 query 细胞的性质了。