导图社区 人工智能(多模态模型在单细胞上的应用)
这是一篇关于人工智能(多模态模型在单细胞上的应用)的思维导图,主要内容包括:[2503.04490] 生物信息学中的大型语言模型:一项调查 --- [2503.04490] Large Language Models in Bioinformatics: A Survey,单细胞组学中的变形器:综述和新视角 |自然方法 --- Transformers in single.
编辑于2025-11-13 20:25:41人工智能(多模态模型在单细胞上的应用)
[2503.04490] 生物信息学中的大型语言模型:一项调查 --- [2503.04490] Large Language Models in Bioinformatics: A Survey
AI大模型改变生物信息学:DNA、RNA、蛋白质及单细胞分析的全景解读
大语言模型在生物信息学中主要分为三种架构类型: 1. 仅编码器模型(Encoder-only) 仅编码器模型,如基于BERT的架构(例如ProteinBERT),主要专注于表示学习,通过捕获输入序列内的上下文依赖关系。这些模型利用双向自注意力机制,能够学习丰富的、上下文化的嵌入,这对序列分类、基因表达预测和调控元件识别等下游任务至关重要。然而,仅编码器模型在生成任务中存在限制,因为它们缺乏自回归解码机制。 2. 仅解码器模型(Decoder-only) 仅解码器模型,由GPT系列架构代表(如ProGen2、Evo),以因果、自回归方式运作。这些模型适合序列生成、结构预测和功能注释。仅解码器模型的局限性在于,它们对单向注意力的依赖可能限制其完全捕获长距离双向依赖关系的能力,而这些依赖关系对理解体内复杂的生理反应至关重要。此外,当应用于特定领域任务时,它们往往需要大量微调,因为预训练的通用模型可能缺乏对生物序列的充分了解。 3. 编码器-解码器模型(Encoder-decoder) 编码器-解码器模型,如基于T5和Transformer的架构(例如RoseTTAFold),专为序列到序列任务设计,其中输入序列被转换为输出序列。这种架构对于涉及不同生物模态之间映射的任务特别有用(例如,基因表达预测、多组学数据整合)。对于RoseTTAFold,它使用三轨神经网络来预测蛋白质相互作用以及复合物形成。同时,编码器-解码器架构在应用于需要双向上下文理解和结构化输出生成的任务时显示出巨大潜力,比如RNA二级结构预测(例如RhoFold+)和全基因组变异效应预测。然而,这些模型通常需要大量计算资源用于训练和推理,使其对于计算基础设施有限的研究人员而言较难获取。此外,它们的性能高度依赖于大规模特定领域的预训练,需要大量数据集进行泛化。
用处
DNA与基因组学:学习与生成 DNABERT是一种预训练的双向编码器表示,它能够基于上下游核苷酸上下文捕获基因组DNA序列的全局和可转移理解。 RNA结构预测 RNA结构预测仍然具有挑战性,这是由于RNA折叠的复杂性和动态性质所致。 二级结构预测 研究人员对6个RNA相关大语言模型(包括RNAErnie和RiNALMoRNABERT、RNA-FM、RNA-MSM、ERNIE-RNA)进行了基准测试,评估其预测RNA二级结构的能力。RiNALMo和ERNIE-RNA能够更好地表示和区分RNA家族的模型,几乎没有重叠。 三级结构预测 Uni-RNA代表了RNA研究的范式转变,结合了大规模预训练与先进的深度学习技术。其准确预测RNA结构、功能和特性的能力使其成为加速RNA生物学和治疗开发的强大工具。 **RhoFold+**是一种先进方法,利用深度学习和RNA语言模型高效准确地预测RNA三维结构。其核心优势在于整合了大规模预训练的RNA语言模型(RNA-FM)与深度学习架构,实现从RNA序列到3D结构的端到端预测。 NuFold是一种最先进的深度学习模型,设计用于准确预测RNA三级结构。它通过利用先进的计算技术解决了RNA序列数据与实验确定结构之间的重大差距。 蛋白质:预测与设计 AlphaFold2采用深度学习预测具有原子级精度的蛋白质3D结构,在CASP14中取得了前所未有的成功。其开源数据库彻底改变了结构生物学,使药物发现和生物医学研究中的机制研究能够快速进行。 RoseTTAFold通过三轨神经架构整合序列、距离和3D坐标预测。它在CASP14中也达到了接近实验的精度,使得对治疗和进化分析中研究不足的蛋白质进行快速建模成为可能。 ESM-1b利用基于Transformer的编码器架构,通过对大规模蛋白质序列数据库的自监督学习,推断蛋白质三级结构和功能特征,而无需依赖序列的手动注释。 ProteinBERT分离局部(字符级)和全局(序列级)表示,并通过建立多任务蛋白质分析的统一框架,通过自监督学习范式推进了Transformer架构。 ProtTrans是一种基于Transformer的蛋白质语言模型,对1亿多个序列进行自监督学习,捕获进化-结构模式。它在三级结构预测、功能注释和工程设计中实现了最先进的性能,同时使得跨各种蛋白质组学任务的高效转移学习成为可能。 AlphaFold3通过整合几何深度学习与扩散模型推进了结构生物学,实现了通用生物分子复合物(蛋白质、DNA、配体)的原子分辨率预测。它在配体结合位点方面展示了优于实验方法的更高准确性,通过全细胞相互作用组建模彻底改变了药物发现和系统生物学。
主要挑战: 1. 数据稀缺性、质量与偏差 大语言模型始终需要大规模、高质量的生物数据集进行有效训练,而注释基因组、转录组和蛋白质组数据仍然有限。与自然语言语料库不同,后者丰富多样,生物数据集往往嘈杂、不完整或偏向于研究充分的物种和疾病。因此,模型的泛化性受到影响,导致预测偏差,可能不适用于多样的生物学环境。此外,批次效应和实验噪音使得为生物信息学开发稳健的基础模型变得复杂。 2. 计算复杂性与模型效率 最先进的大语言模型,如AlphaFold和DNABERT,在训练和推理方面都需要海量计算资源。这一计算障碍限制了可访问性,特别是对于基础设施有限的研究团队。此外,相对较长的生物序列显著增加了内存和处理要求,使得将标准Transformer架构应用于基因组规模数据变得具有挑战性。需要进一步探索模型压缩和检索增强的有效方法以提高可扩展性。 3. 多模态学习与跨组学整合 生物系统展现了跨多个分子层面的复杂相互作用,包括但不限于基因组学和代谢组学。尽管近期取得进展,当前大语言模型仍主要在单模态数据集上训练,限制了它们模拟跨尺度分子依赖性的能力。解决这一限制需要开发能够以生物学上有意义和计算上高效的方式整合异质生物数据的多模态架构。
单细胞组学中的变形器:综述和新视角 |自然方法 --- Transformers in single-cell omics: a review and new perspectives | Nature Methods
Nature Methods | Transformer 在单细胞组学中的应用:综述与新视角
Transformer架构是一种使用自注意力机制处理表示为嵌入集合的输入数据的深度学习模型。
最初提出的Transformer由编码器和解码器组成,也可以在无需数据注释的情况下进行训练。 然而,两种架构之间存在重要差异。首先,与自编码器不同,Transformer通过注意力机制根据数据样本中所有其他输入特征来调整处理特定输入特征的方式。这使得Transformer能够根据当前处理的细胞类型灵活地考虑不同的基因交互模式。其次,Transformer将每个输入样本视为嵌入集合,这需要在将细胞的转录组谱传递给Transformer之前将其嵌入到这种格式中。例如,可以用一组捕捉各自RNA计数的基因嵌入来表示一个细胞。第三,Transformer中的编码器和解码器组件在功能和设计上与自编码器中的对应部分不同。自编码器中的编码器将输入映射到瓶颈潜在空间,从而执行降维(图2a),而Transformer中编码器产生的表示不受瓶颈限制(图2b)。
专栏1 术语表 Transformer:基于并行注意力机制的深度学习架构 自编码器:由编码器和解码器组成的神经网络,通过无监督学习学习输入数据的压缩表示 嵌入:数据的向量数值表示 标记:输入数据的独特元素。在单细胞组学中,标记可能对应于单个细胞、基因或其他分子特征 CLS标记:某些Transformer中用于聚合所有输入标记(即输入样本)信息的特殊标记 注意力机制:数据自适应神经网络组件,动态关注输入中的相关信息以计算输出 自注意力:一种仅关注输入嵌入之间关系的注意力机制,不同于传统注意力机制还关注输入和输出嵌入之间的关系。本文中提到的注意力均指自注意力 键、查询和值:Transformer模型中注意力机制的组成部分。查询是模型寻求相关信息的元素。键与查询比较以产生注意力分数,值是模型最终检索的实际内容,根据查询-键比较进行加权(图2d) 多头注意力:由多个注意力机制(头)组成的神经网络,每个头有独立的参数集 基础模型:在大量数据上训练的机器学习模型,可以有效适应广泛的下游任务 大型语言模型(LLM):在文本上训练以执行自然语言处理任务的深度学习模型
表示单细胞输入数据 Transformer在处理序列数据方面产生了巨大影响,这也是它们最初设计的目的,例如自然语言、DNA或蛋白质序列。 然而,非序列的单细胞组学数据带来了挑战,因为这需要将数据嵌入到适合Transformer的格式中。Transformer将每个输入样本视为由嵌入xi组成的集合S。S中嵌入的数量可以在样本之间变化。在单细胞数据中,输入集S可以表示组织或供体内的细胞集合,xi代表单个细胞。或者,S可以对应单个细胞,xi代表单个基因的属性,如RNA计数。这类似于自然语言处理中的分词,将文本分割成称为"标记"的子词单元,每个唯一的子词都有一个在训练过程中学习的对应嵌入。Transformer对输入嵌入的顺序不变,这促使了"位置编码"的引入,它被添加到标记嵌入中以指示标记在输入中的位置。xi则被定义为标记嵌入和相同维度的位置编码的逐元素和。位置编码可以使用固定公式计算,也可以像标记嵌入一样学习。这种编码已在许多Transformer应用领域中使用,包括自然语言、计算机视觉和时间序列分析。
迈向分子细胞生物学中的多模态基础模型 |自然界 --- Towards multimodal foundation models in molecular cell biology | Nature
多模态Foundation模型 (MFMs)在单细胞组学中的应用
什么是多模态模型:类似于自然语言处理中大型语言模型的做法,将不同组学(基因组、转录组、蛋白质组、代谢组、空间组学等)数据整合到一个统一模型中进行预训练 。有望帮助构建细胞、基因和组织的整体图谱 。 优势:与传统的全细胞模拟(基于规则或常微分方程)相比,MFMs 不再依赖简化假设和学科特异的模块划分 ;它们通过自监督学习获取知识,从数据中学习细胞系统的复杂非线性交互规律,可应用于多种任务 。传统方法通常将细胞划分为离散类型,而 MFMs 则可表示细胞状态的连续变化,更好地捕捉组织内部的异质性和动态演化 。
图片: 图2 比较了传统假设驱动的研究流程与基于数据的 MFMs 流程。 图3 描绘了 MFMs 的核心结构设计要素。
MFMs 的三大核心应用方向(核心价值) 🧬 1. 组织异质性建模与谱系追踪 组织异质性识别。 得益于单细胞和空间组学技术的进步,研究者可以高分辨率地解析复杂组织(如肿瘤)内的细胞亚群和过渡状态 。MFMs 通过跨组学集成,将细胞状态嵌入到连续空间中,从而实现对细胞发育轨迹和谱系位置的映射 。与传统离散标记型方法相比,MFMs 可以更灵活地推断细胞对内外环境的响应,并且能够对缺失组学层面进行预测填充(例如根据训练的代谢标记信息,推断临床样本的细胞命运),从而解决多源数据整合的难题 。简而言之,MFMs 可用于将异构数据集联合分析,在健康和疾病条件下比较细胞状态,实现组织异质性的深度刻画 。 🔗 2. 基因调控网络(GRN)学习 基因功能与调控预测。 通过学习来自大规模异构疾病样本的数据,MFMs 能发现与特定基因模块、蛋白标志物或代谢路径相关的多组学预测性特征 。现有研究表明,仅使用基因组序列即能预测基因功能,将单细胞RNA图谱信息加入模型可以进一步提高预测精度 。更重要的是,基因调控网络(GRN)本质上跨越多组学:转录因子结合、可变剪切、翻译后修饰等事件共同决定调控机制 。MFMs 通过整合表达、染色质可及性等多源信息,为捕捉影响因子提供了更加全面的视角 。由于基因调控具有条件特异性(依赖于细胞类型和生理状态) ,MFMs 能在大规模预训练中学习到“默认”调控网络,并通过迁移学习在不同背景下阐明特定的 GRN 。因此,MFMs 有望填补传统方法在解析时空条件特异性 GRN 方面的空白,使我们更好地理解基因调控的动态特征 。 💊 3. 干预模拟与药物筛选 干预(扰动)建模。 MFMs 在模拟基因或化学扰动效应时显示出潜力。已有模型(如 scGPT、CellOracle、GeneFormer、CellOT、CPA、chemCPA、GEARS 等)通过学习细胞嵌入来预测基因敲除或药物处理后的表达谱,初步验证了这一思路 。多模态融合使得 MFMs 能利用多组学背景来更准确地模拟扰动效应:模型可以首先整合表达、表观和蛋白信息构建完整的细胞表示,并根据不同细胞类型和扰动条件进行条件化分析 。随着单细胞测序和大规模 CRISPR 扰动数据(如 Perturb-seq)的积累,MFMs 可接受原始细胞特征和潜在干预的条件输入,预测扰动后的协同下游效应,而不仅限于转录层面的变化 。鉴于基因组合空间呈指数级增长,MFMs 在准确预测扰动响应方面的能力,将极大加速新治疗靶点的发现和基因调控机制的理解 。
迁移学习实现网络生物学预测 |自然界 --- Transfer learning enables predictions in network biology | Nature
Nature | 迁移学习实现网络生物学预测方法
绘制基因网络图需要大量转录组数据来了解基因之间的联系,这阻碍了在数据有限的环境中的发现,包括罕见疾病和影响临床上无法接触的组织的疾病。 组建了大规模scRNA-seq预训练语料库:该研究组建了一个大规模的预训练语料库Genecorpus-30M,包含来自公共可用数据的广泛组织中的2990万个人类单细胞转录组。 开发了一种基于注意力的预训练模型Geneformer:Geneformer是一种基于注意力的深度学习模型,具备上下文感知能力,通过在大规模转录组数据上进行预训练,能够在数据有限的网络生物学设置中通过迁移学习进行预测。通过将每个单细胞中的基因按其在该细胞中的表达进行排序的排名值编码呈现给模型,将每个基因嵌入到一个256维的空间中,通过汇聚得到的基因嵌入,得到细胞水平的嵌入。
单细胞基础模型:将人工智能引入细胞生物学 |实验与分子医学 --- Single-cell foundation models: bringing artificial intelligence into cell biology | Experimental & Molecular Medicine
Exp Mol Med|AI赋能细胞生物学:单细胞基础模型研究进展综述
单细胞基础模型(scFMs)中,单个细胞被类比为句子,而基因或其他基因组特征及其对应的数值则被视为单词或token。 scFMs成功构建的关键之一就是:设计有效的输入表示或分词(Tokenization)方法。 细胞内的基因没有自然的顺序,因此通常需要人为定义输入基因的顺序或结构。常见策略包括1)按表达水平对每个细胞内的基因进行排序,将表达量最高的基因列表作为“句子”输入模型;2)将基因按表达值分箱,并基于分箱顺序确定其位置;3)一些模型报告称复杂排序策略并无显著优势,仅使用归一化的表达计数。
用处
目前在自然语言处理与计算机视觉领域中表现最为出色的基础模型,大多基于Transformer架构,而该架构同样成为了scFMs的核心骨干。
图1f:为了执行多种下游任务,scFMs将用户提供的数据集输入到预训练或微调后的模型中,以提取细胞与基因/特征嵌入、注意力权重或生成的特征表达谱
图2d:scFMs能够执行广泛的下游任务,包括细胞类型注释、批次校正与数据整合、缺失值填补、基因功能预测、基因网络生成/推断、以及扰动预测与计算模拟生成等
面临挑战与发展方向 挑战;对策方向 多模态数据稀缺 构建公开配对数据库(HuBMAP, OpenCell) 算力与成本高 参数高效微调(LoRA)、蒸馏、小模型泛化 解释性差与幻觉风险 引入注意力可视化、不确定性提示 评估标准缺失 构建统一生信 benchmark(细胞类型/轨迹等)
CellPLM:超越单细胞的细胞语言模型预训练 |生物 Rxiv --- CellPLM: Pre-training of Cell Language Model Beyond Single Cells | bioRxiv
论文分享 | 从基因语言到细胞语言:CellPLM 打开单细胞分析新视界
密歇根州立大学的研究团队于2024年发表,首个将细胞视作token、组织视作句子的预训练细胞语言模型——CellPLM。 模型利用空间转录组数据以捕捉细胞间关系,并引入高斯混合先验分布作为额外的归纳偏置,从而有效缓解数据稀缺问题。作为首个能够编码细胞间关系的单细胞预训练Transformer模型,CellPLM 在多种下游任务中持续超越现有的预训练及非预训练方法,其生成细胞嵌入的推理速度较以往模型提升约100 倍。
图1基因语言模型与细胞语言模型
1、细胞语言建模 现有的单细胞分析预训练大模型视基因为词,细胞为句子(图1左)。然而这种方式忽略了细胞间的调控机制。为了解决这个问题,CellPLM将细胞当成词,组织作为句子, 核心思想是:细胞之间也有“语言”(图1右)。
图2 Spatial Transcriptomic Atla
2、多模态预训练:融合空间转录组数据 传统的单细胞RNA测序数据仅包含基因表达信息,而缺乏细胞在组织中的空间位置信息。CellPLM 首次将空间转录组数据引入预训练过程(图2 Spatial Transcriptomic Atlas)。空间转录组数据不仅记录每个细胞的基因表达,还提供其在组织中的二维坐标。通过引入二维正弦位置编码,模型能够利用空间位置信息学习细胞的微环境与邻近关系,从而更好地理解细胞间的通信模式。二维正弦位置编码公式如下,其中d是位置编码的维度,i,j ∈ [0, d/4)指定特征维度,x和y代表空间转录组数据中每个细胞的空间坐标。
图3 基因表达嵌入
3、 基因表达嵌入 在 CellPLM 的输入阶段,模型首先需要将每个细胞的基因表达数据转化为适合Transformer 处理的向量表示,这一过程被称为基因表达嵌入。如图2 Gene Expression Embedder所示,CellPLM首先为每个基因 j学习一个可训练的基因嵌入向量hj,并通过表达量加权的方式,将基因层面的信息聚合为细胞层级的初始表示, Xij表示细胞i关于基因j的表达量。
(略)
研究结果
1、零样本聚类(Zero-shot Clustering) 在零样本设定下,模型不进行任何微调,直接利用预训练阶段获得的细嵌入表示进行聚类分析。研究团队将 CellPLM 与 PCA、Geneformer、scGPT 等主流方法进行了对比。结果显示,CellPLM 在聚类指标 ARI和 NMI上均取得最高分(ARI = 0.867, NMI = 0.823),显著优于其他模型。
2、scRNA-seq 降噪 单细胞RNA测序数据通常存在严重的dropout效应,即部分基因表达值被错误地记录为零。去噪任务的目标是恢复真实的基因表达信号。研究者在PBMC 5K与Jurkat两个公开数据集上测试了CellPLM的去噪能力,并与多种方法对比,包括DeepImpute、scGNN、scVI、DCA、MAGIC及scGPT等。结果显示,CellPLM 在 RMSE与MAE两项指标上均取得最佳表现。即使在未进行微调的“零样本”模式下,CellPLM 的表现也超过了多数传统模型。微调后的 CellPLM 在 PBMC 5K 数据集上 RMSE 降至 0.725,在 Jurkat 数据集上 RMSE 降至 0.391,远优于所有对比方法。这说明 CellPLM 在复杂噪声环境下依然能够精准恢复细胞的真实表达谱,为后续的分析(如细胞类型鉴定或基因调控研究)提供更可靠的数据基础。
3、空间转录组插补 空间转录组技术能在组织切片上同时捕获空间位置与基因表达信息,但受技术限制,通常只能测量约1,000个基因。为了补全未测量的基因表达,研究团队在 Lung2 和 Liver2 两个空间转录组数据集上评估了 CellPLM 的表现。在与 SpaGE、stPlus、gimVI、Tangram 等方法的比较中,CellPLM 的表现一骑绝尘。在 Lung2 数据集上,CellPLM将相关系数(Corr)提升至 0.318,余弦相似度(Cosine)达到 0.481。在 Liver2 数据集上,相关系数被提升至 0.328,余弦相似度同样达到 0.481。值得注意的是,当模型不经过预训练而直接从零开始训练时,几乎无法收敛,这充分证明了预训练对于空间数据建模的重要性。CellPLM 成功地将 RNA 表达与空间结构相结合,为空间组学的深入研究提供了新的工具。
4、细胞类型注释 细胞类型注释是单细胞分析的核心任务之一。研究者在 hPancreas 和 Multiple Sclerosis(MS)两个数据集上评估了 CellPLM 的分类性能,并与 CellTypist、ACTINN、SingleCellNet、scBERT、scGPT 等模型进行了对比。 结果显示,CellPLM 在两个数据集上均显著领先。在 MS 数据集上,CellPLM的F1 分数为最高的0.766,Precision达到了0.803。在 hPancreas 数据集上,F1 分数提升至 0.749,Precision达到了0.753。这些结果表明,CellPLM 学得的细胞表示具备
CellPLM 的研究为单细胞分析开辟了一条全新的路径。它突破了传统“基因语言模型”的局限,首次将细胞视作语言建模的基本单位,并融合空间转录组数据与高斯混合先验,实现了对细胞间相互作用和组织结构的更深层理解。
scGPT:利用生成式人工智能构建单细胞多组学基础模型 |自然方法 --- scGPT: toward building a foundation model for single-cell multi-omics using generative AI | Nature Methods
Nat. Methods | 单细胞大模型scGPT:助力单细胞多组学研究
Nature Methods于2024年推出scGPT,scGPT通过预训练超过3300万个单细胞数据,实现了对基因和细胞特征的高度理解,并在多种下游任务(如细胞类型注释、扰动预测、数据整合等)中表现卓越,标志着单细胞生物学研究迈向通用AI模型时代。
scGPT是全球首个基于生成式预训练(Generative AI)的单细胞多组学基础模型,旨在解决单细胞数据分散、标注成本高、多任务泛化能力差三大难题。标志着单细胞研究从“专用工具”迈向“通用智能”时代,为精准医学和新药研发提供强大工具。
scGPT核心流程 1. 数据预处理 scGPT整合了超3300万个跨器官健康单细胞数据,基因表达经分箱标准化消除技术差异。动态输入仅保留非零表达基因,并随机采样补足至1200个,提升计算效率。 2. 生成式预训练 核心创新是Masked-Attention机制:将基因类比为“词汇”,模型通过部分已知基因生成未知基因表达;通过特殊注意力掩码打破顺序限制,支持基因自由交互。双阶段预训练(全局细胞生成与局部基因预测)强化模型理解基因-细胞关系的能力。 3. 微调适配下游任务 在预训练模型上叠加轻量模块适配不同任务(如分类器预测细胞类型、回归层输出扰动响应),冻结大部分参数保持通用性,少量微调提升任务精度。
使用 STELLAR 注释空间分辨的单细胞数据 |自然方法 --- Annotation of spatially resolved single-cell data with STELLAR | Nature Methods
论文分享 | 从基因语言到细胞语言:CellPLM 打开单细胞分析新视界
2022.12.11 活动小结|单细胞转录组自动注释细胞类型
背景: 细胞类型注释是单细胞转录组分析过程中极为关键的一部分,手动注释一般依赖于文献、数据库等,因此在已有基因集、高质量数据库的基础上,单细胞转录组细胞类型的自动注释日趋成熟,也被更多人所接受使用。目前也已经出现了大量单细胞转录组细胞类型自动注释的工具。
二、自动化注释工具的分类和原理 主要分为2类 (1)基于未知细胞高表达的基因是否和某已知细胞类型类似(如GSVA ,singleR,AUCell) (2)根据新细胞的基因表达分布与参考数据集(被注释好的高质量单细胞数据集)中细胞的相似性对其进行注释(如:scPred,scANVI (scArches), SingleCellNet)
1.基于R语言—— GSVA:依据表达矩阵先进性核标化,然后计算每个样本中特定基因集的变异分数(基因集变异分数可以理解为基因集内所有基因的综合表达值,参考GSEA分析)。这里的特定基因集使用已有细胞类型的marker基因(文献、数据库或参考数据集差异分析得到),GSVA打分后根据分值排序判断可能属于的细胞类型 singleR:通过给定的具有已知类型标签的细胞样本作为参考数据集,singleR会先通过差异分析计算每个类别细胞高表达的基因。在此基础上,对单细胞测试数据集中与参考集相似的细胞进行标记注释 scPred:根据参考数据集PCA降维的PC空间先进行特征挑选,然后训练SVM模型作为细胞类型分类器。最终结果会包含一些unassigned细胞。 2.基于python—— scANVI:是一个嫁接在scVI(scVI原理见下)上的半监督深度学习模型,注意需要对参考数据集和测试数据集取交集保证基因的一致
可扩展的多模态分析单细胞染色质可及性、基因表达和蛋白质水平 |自然生物技术 --- Scalable, multimodal profiling of chromatin accessibility, gene expression and protein levels in single cells | Nature Biotechnology
NBT一石三鸟 | 中心法则全解析——单细胞水平多组学分析
开发了一种能够同时检测染色质可及性和蛋白水平的方法——ASAP-seq(ATAC with Select Antigen Profiling)。在文章的审稿过程中,作者又开发了一种新方法:DOGMA-seq,能够从同一细胞中多模态分析染色质可及性、基因表达和蛋白质,真正实现单细胞水平多组学分析。
基准测试单小区多模态数据集成 |自然方法 --- Benchmarking single-cell multi-modal data integrations | Nature Methods
Nat Methods | 刘琦团队开发单细胞多模态整合算法的全面基准评估平台
2025年7月10日,发布面向单细胞多模态整合的全面基准评估平台SCMMIB(Single Cell Multi-Modal Integration Benchmark),旨在为领域内的单细胞多模态整合算法提供一个具备全面性、定量化、多尺度、多指标的系统评估计算平台。
图2. SCMMIB平台评估流程
该平台对单细胞多模态整合领域的研究提供了一个系统而全面的基准评估框架,其评估结果为单细胞DNA、RNA、蛋白及空间组学数据的整合方法评估以及跨模态生物学知识智能发现提供了一个全面的参考和指南,有望进一步推动单细胞跨模态整合领域的AI方法学开发、细胞调控关系解析以及相关的生物学应用。