用flash做的网站欣赏,内部网站建设教程,网站建设实训收获,宁波专业网站定制制作服务AI 药物重定位#xff1a;GraphRAG 让黑箱模型说人话目录
研究者将知识图谱嵌入与大语言模型结合#xff0c;为药物重定位预测提供可解释的推理路径#xff0c;让 AI 的「为什么」不再是秘密。蛋白语言模型并非黑箱#xff0c;它们能学习到抗体的关键生物学特征#xff0c…AI 药物重定位GraphRAG 让黑箱模型说人话目录研究者将知识图谱嵌入与大语言模型结合为药物重定位预测提供可解释的推理路径让 AI 的「为什么」不再是秘密。蛋白语言模型并非黑箱它们能学习到抗体的关键生物学特征而理解其内在偏见能帮我们打造更强大的抗体药物发现工具。这款专为冷冻电镜设计的去噪扩散模型通过精准去除图像噪声让我们能以前所未有的清晰度捕捉到蛋白质复杂多变的动态构象。ImmunoNX 将自动化计算与专家人工审核结合打造了一个经过临床验证的、能在三个月内交付高质量新抗原候选物的可靠流程。研究者用机器学习模型成功定位了人类基因组中容易发生断裂和重排的「热点区域」证明 DNA 的局部序列本身就隐藏着决定其稳定性的关键线索。1. AI 药物重定位GraphRAG 让黑箱模型说人话在药物研发领域我们总是在信息的海洋里捞针。数据很多从基因到疾病再到化合物关系错综复杂。药物重定位Drug Repurposing也就是老药新用是条捷径但挑战在于如何高效地发现药物和新适应症之间的潜在联系。传统的计算方法常常像个黑箱给你一个「可能有效」的答案但你问它为什么它就沉默了。这对于需要严谨验证的科学家来说是完全不够的。这项研究拿出的方案就像是给这个黑箱装上了一个透明的观察窗。它的工作原理是这样的第一步打好地基。研究者使用了药物重定位知识图谱DRKG这个图谱就像一张巨大的生物学关系网包含了药物、基因、疾病等实体以及它们之间的各种联系。然后他们用一种叫做 TransE 的算法把这张复杂的网络「嵌入」到一个数学空间里。你可以把它想象成一个星系图每个实体比如一个药物或一个疾病都是一颗星星它们之间的关系决定了它们在星系中的位置。如果两个星星在空间中离得很近就说明它们在生物学上可能有很强的关联。这个过程是预先计算好的所以后续的查询速度非常快。第二步从「是什么」到「为什么」。当用户用自然语言输入一个疾病比如「阿尔茨海病」系统会先利用前面训练好的嵌入向量快速在「星系图」中找到与这个疾病「距离」最近的那些药物分子。这是第一层筛选它告诉你哪些药物值得关注。但接下来的部分才是整个系统真正的亮点图谱检索增强生成GraphRAG。对于每个筛选出的候选药物系统不再仅仅满足于一个「距离」分数。它会回到最初的知识图谱中主动寻找连接这个药物和目标疾病的最短、最相关的路径。比如它可能会找到这样一条路径「药物 A - 抑制 - 蛋白 X - 参与 - 信号通路 Y - 关联 - 阿尔茨海默病」。最后一步让大语言模型LLM登场。系统将找到的这些路径信息交给 GPT 这样的大语言模型。LLM 的任务就像一个专业的科学翻译把这些节点和连接组成的干巴巴的路径转换成一段流畅、可读的自然语言解释。它会告诉你根据知识图谱的数据这款药物可能是通过影响哪个特定的靶点或通路来对该疾病产生潜在治疗效果的。整个流程下来你得到的不仅仅是一个药物列表而是每个建议背后都有一个清晰、可追溯的生物学故事。这对于研发科学家来说价值巨大。因为它把一个纯粹的计算结果变成了一个可以拿到实验室去验证的科学假设。你还可以根据它提供的解释去判断这个逻辑链条的强弱决定下一步的实验方向。当然这个系统也并非完美。它的知识库是基于预训练的 DRKG 嵌入这意味着知识是静态的。如果昨天刚发表了一篇重磅论文更新了某个靶点信息这个模型是不知道的除非你花费巨大的计算资源去重新训练整个嵌入模型。此外它依赖于 OpenAI 的 API这在成本和数据隐私方面也是需要考量的因素。尽管如此这个方向是令人兴奋的。它展示了一种让 AI 不仅成为预测工具更成为研究伙伴的可能。它让 AI 的思考过程变得透明帮助我们更快地从海量数据中提炼出有价值的洞见。Title: Deep Learning-Based Drug Repurposing Using Knowledge Graph Embeddings and GraphRAGPaper: https://www.biorxiv.org/content/10.64898/2025.12.08.693009v12. 蛋白语言模型如何「看」抗体解构 AI 偏见做药物研发我们经常会想AI 模型到底是真的「理解」了生物学还是仅仅在做高级的模式匹配最近一篇论文就深入研究了这个问题把几个主流的蛋白语言模型 (Protein Language Models, PLMs) 放在一起看看它们是如何「看待」抗体序列的。你可以把蛋白序列看作一种语言氨基酸就是字母。蛋白语言模型的工作就像大语言模型处理人类语言一样是去学习这种语言的语法和语义。研究者选了几个模型有专为抗体设计的 AntiBERTa也有像 ESM2 和 BioBERT 这样的通用蛋白模型。他们给这些模型一个任务通过抗体序列预测它会结合哪种抗原。结果显示所有模型在预测准确率上都做得很好。但这只是表面。关键的问题是它们是怎么做出判断的为了搞清楚这一点研究者用了一种叫「注意力归因」的技术。这就像打开模型的引擎盖看看它在运转时哪些零件氨基酸残基最受关注。他们发现专攻抗体的 AntiBERTa 模型其注意力天然就集中在互补决定区 (Complementarity-Determining Regions, CDRs)。这完全符合生物学常识。因为 CDRs 就是抗体与抗原结合的关键区域相当于钥匙上与锁匹配的那些齿。相比之下ESM2 这种通用模型它的注意力就分散一些没有那么聚焦。这也很容易理解因为它被训练用来处理各种各样的蛋白而不仅仅是抗体。于是研究者们做了一个实验他们在训练通用模型时有意识地引导它们去关注 CDR 区域特别是决定了大部分特异性的 CDR3。这个操作很简单但效果很好。ESM2 和 BioBERT 的性能立刻有了大幅提升。这告诉我们一个重要的道理将生物学领域的先验知识比如「CDRs 很重要」整合到模型训练中是一种高效提升模型表现的策略。这就像给一个通才一份清晰的工作简报告诉他解决这个特定问题需要重点关注哪里。这篇工作里还有一个更让人兴奋的发现。即使没有经过专门训练这些模型也能从序列数据中捕捉到更深层次的生物学信息。比如它们能隐约「感知」到抗体的 V 基因来源、体细胞高频突变 (somatic hypermutation) 的模式甚至是抗体的亚型 (isotype)。这说明模型不只是在死记硬背。它在学习序列模式的过程中自己构建了一套能够反映抗体生物学本质的内部表征。这就像一个孩子通过大量阅读不仅认识了字词还逐渐领悟了语法、修辞和作者风格。对于做药的人来说这项研究的价值在于它证明了蛋白语言模型不只是个黑箱预测工具。它是一个可以被理解、被引导、甚至能反过来帮助我们发现新生物学规律的强大伙伴。通过理解不同模型的架构偏差我们可以为特定任务选择最合适的模型并通过注入领域知识来让它变得更聪明。Title: Exploring Protein Language Model Architecture-Induced Biases for Antibody ComprehensionPaper: https://arxiv.org/abs/2512.09894’ fill‘%23FFFFFF’%3E%3Crect x‘249’ y‘126’ width‘1’ height‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)3. CryoDDMAI 让冷冻电镜看清蛋白质动态细节’ fill‘%23FFFFFF’%3E%3Crect x‘249’ y‘126’ width‘1’ height‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)做结构生物学尤其是冷冻电子显微镜Cryo-EM的都懂一个道理原始数据就是一切。你拿到的那些显微照片本质上是在一片嘈杂的雪花中寻找蛋白质的微弱身影。如果把这些照片直接叠加任何构象上的动态变化都会被平均掉最后只得到一团模糊的影像。这就好比你想看清一个人在跳舞却只能把他的所有舞姿叠在一张底片上结果什么也看不清。传统的去噪方法往往像个用力过猛的滤镜要么去不干净要么连同有用的高频结构信息high-frequency structural information一起抹掉了。这对研究蛋白质的构象异质性conformational heterogeneity是致命的因为那些最有趣的生物学故事恰恰藏在这些精细的动态变化里。现在这篇文章提出的 CryoDDM给我们提供了一个新思路。它用的是目前很火的去噪扩散模型denoising diffusion model。你可以这么理解这个模型的工作原理它先学习如何把一张清晰的蛋白质图像一步步变成完全无序的噪声然后它再反过来学习如何从一堆噪声中一步步把清晰的图像「还原」出来。通过这个过程模型就学会了什么是真正的「信号」什么是应该被丢弃的「噪声」。CryoDDM 的聪明之处在于它没有直接套用为普通图像设计的模型。研究者们发现冷冻电镜图像的噪声分布很特殊不能简单用标准的高斯噪声Gaussian noise来假设。于是他们设计了一个两阶段的扩散过程。第一阶段模型先进行一个快速、粗略的去噪把最明显的大块噪声干掉。第二阶段再进行精细调整专门处理那些与蛋白质结构信号混杂在一起的细微噪声。这样做有两个好处第一去噪效果更好因为它更懂冷冻电镜数据的「脾气」第二计算效率更高因为它优化了扩散步骤不用跑那么多冗余的计算。结果怎么样作者用好几个硬骨头来测试它。比如他们用 CryoDDM 处理了一个蛋白酶体proteasome、一个膜蛋白和一个刺突蛋白spike protein的数据。这些都是出了名的构象复杂、动态变化丰富的体系。结果显示经过 CryoDDM 处理后下游的颗粒挑选和 3D 分类工作都变得轻松多了。软件能更准地从照片中把蛋白质颗粒「捡」出来也能更清晰地把它们分成不同的构象状态。最终他们成功解析出了之前被噪声淹没、从未被观察到的构象状态和动态细节。这对做药物发现的人来说意义重大。很多时候药物靶点并不是一个僵硬的静态结构而是在不同构象之间动态变化的。一个变构口袋allosteric pocket可能只在某个短暂存在的构象中才会出现。如果你的技术只能看到一个模糊的平均结构你就会错过这个绝佳的成药机会。CryoDDM 这种工具相当于给我们配了一副更高清的眼镜让我们能看清蛋白质工作时的「慢动作」从而发现新的靶点和药物设计机会。Title: CryoDDM: CryoEM denoising diffusion model for heterogeneous conformational reconstructionPaper: https://www.biorxiv.org/content/10.64898/2025.12.10.693455v1’ fill‘%23FFFFFF’%3E%3Crect x‘249’ y‘126’ width‘1’ height‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)4. ImmunoNX经临床验证的个性化疫苗设计引擎’ fill‘%23FFFFFF’%3E%3Crect x‘249’ y‘126’ width‘1’ height‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)在个性化癌症疫苗这个领域我们总是在和时间赛跑。从拿到患者的肿瘤样本到设计出只针对他体内癌细胞的疫苗整个过程既要快又要准。找到那些能被免疫系统识别为「非我」的肿瘤特有突变也就是新抗原 (Neoantigen)就像在大海里捞一根特定的针。这不仅是个计算问题更是个生物学问题。最近一篇介绍 ImmunoNX 的文章引起了我的注意。这不只是又一个新算法而是一个完整的、端到端的生物信息学工作流。更重要的是它不是停留在理论层面而是已经在 11 个临床试验、超过 185 名患者身上得到了实战检验。对于做研发的人来说「实战过」这三个字的分量比任何花哨的性能指标都重。它是怎么工作的整个流程的设计思路很清晰就是把复杂的事情自动化但把关键的决策点留给人。首先他们把所有计算都搬到了云上。研究者使用了工作流定义语言 (Workflow Definition Language, WDL) 在谷歌云平台上搭建了整个流程。这意味着什么这意味着可重复性和可扩展性。不管你处理一个样本还是几百个样本流程都是一致的结果也是可靠的不会因为计算环境不同而出错。这对于要求严谨的临床试验来说是基础。流程的第一步是处理原始测序数据。他们同时分析肿瘤的 DNA/RNA 和患者的正常组织 DNA。通过对比找出肿瘤独有的基因突变。这里他们用了一个很策略共识调用 (consensus-based variant calling)。他们同时使用多种不同的算法来寻找突变只保留那些被多个算法一致认可的结果。这就像一个会诊多位专家都点头了这个诊断才算可靠大大减少了假阳性。人工审核算法的「安全带」找到了突变下一步就是预测这些突变产生的蛋白片段能否被患者的免疫系统也就是 HLA 分子呈递并激活 T 细胞。这是新抗原预测的核心。ImmunoNX 同样集成了多种预测算法来做这件事。但让我欣赏的是他们没有止步于此。计算预测出的候选名单会进入一个两阶段的、严格的人工审核流程。第一阶段研究者使用 pVACview 这个工具进行可视化初审。这能帮助他们快速过滤掉一些明显不靠谱的候选物。第二阶段也是最关键的一步他们会回到最原始的数据用 IGV (Integrative Genomics Viewer) 这个软件一个一个地去检查那些最有希望的候选新抗原。审核的科学家会亲眼查看支持这个突变的测序读数 (reads) 是否足够多、质量是否足够好以及这个突变对应的基因在 RNA 层面有没有真实表达。这一步是无法被算法完全替代的。它确保了最终被选入疫苗的每一个新抗原背后都有扎实的原始数据支持。这既是对疗效的保证也是对患者安全的负责。可以说这个人工审核环节是整个流程的「安全带」和「质量阀」。速度和开放性ImmunoNX 最吸引人的地方之一是它能在三个月内完成整个疫苗设计流程。在个性化治疗中时间就是生命。能把周期缩短到这个程度意味着患者能更早地接受治疗临床试验的推进也会快得多。研究者还将整个流程、代码、文档和示例数据全部开源。这意味着全球任何一个实验室只要有相应的计算资源都可以复现、使用甚至改进这个流程。这种开放的态度对于推动整个个性化癌症疫苗领域的发展价值巨大。它不再是一个少数几家公司的「黑匣子」技术而是变成了整个科学界可以共同使用的工具。ImmunoNX 提供了一个非常务实的解决方案。它没有追求某个单一算法的极致而是构建了一个稳健、高效、自动化与人工监督相结合的完整系统。对于致力于将前沿科学转化为药物的人来说这种经过实践检验的可靠工具远比一个理论上完美的算法更有价值。Title: ImmunoNX: A Robust Bioinformatics Workflow to Support Personalized Neoantigen Vaccine TrialsPaper: https://arxiv.org/pdf/2512.08226v1.pdf’ fill‘%23FFFFFF’%3E%3Crect x‘249’ y‘126’ width‘1’ height‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)5. AI 预测基因组「断点」机器学习揭示结构变异的序列密码’ fill‘%23FFFFFF’%3E%3Crect x‘249’ y‘126’ width‘1’ height‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)我们的基因组并不是一条静态不变的 DNA 长链它会断裂、删除、重复或重新排列。这些大规模的改变我们称之为结构变异 (Structural Variants, SVs)是许多遗传病的根源。长期以来预测这些变异会在基因组的哪个位置发生就像预测地震一样困难。我们知道有些区域比其他区域更「脆弱」但具体是什么决定了这一点一直没有清晰的答案。这项新研究提供了一个全新的视角。研究者们训练了两种机器学习模型来「阅读」基因组并找出那些潜在的不稳定区域。第一种是卷积神经网络 (Convolutional Neural Network, CNN)。你可以把它想象成一个图像识别专家。就像 CNN 能在照片中认出猫的轮廓一样它在这里直接扫描原始的 A, T, C, G 序列学习并识别那些预示着「不稳定」的特定序列模式。第二种是随机森林 (Random Forest) 模型。这个模型更像一个经验丰富的老专家它看的不是孤立的序列而是综合性的「上下文」。它会考量一个区域的基因密度、已知的调控元件以及其他各种基因组注释信息做出综合判断。真正的突破在于将两者结合。CNN 负责从底层挖掘原始序列中的细微线索而随机森林则负责从高层整合全局特征。当这两种视角互补预测 SV 发生的准确率超过了 90%。这是一个巨大的进步意味着我们离真正理解基因组的「断点规则」又近了一步。更让我兴奋的是这并非一个无法解释的「黑箱」。通过分析模型学到了什么研究者们验证并发现了一些导致基因组不稳定的生物学机制。比如模型确认了「微同源序列」短小的重复片段是断裂修复时出错的高发地。它还特别指出了 G-四链体 (G-quadruplexes) 这类非经典 DNA 结构的作用。你可以把 G-四链体想象成 DNA 单链自己打成的一个「结」。在细胞进行 DNA 复制时解开这种「结」会很麻烦从而增加了出错和断裂的风险。模型准确地捕捉到了这个特征将这些 DNA 上的「疙瘩」标记为潜在的麻烦制造者。这些发现不只是理论上的。模型的预测结果与真实世界的人群数据高度相关。那些被模型预测为 SV 高发的热点区域在不同人群的基因组中确实表现出更高的变异频率。这说明模型抓住了驱动基因组演化的真实生物学规律。这个工具的应用前景很广。在药物研发中如果一个靶点基因恰好位于一个 SV 热点区域它的稳定性和表达量就可能存在个体差异这会影响药物的有效性。在个性化医疗领域未来或许可以利用这个模型评估特定个体基因组的稳定性从而预测其患上某些遗传病的风险。简单来说作者们开发出了一张描绘我们 DNA「地震风险」的精密地图。它不仅告诉我们哪里可能「塌陷」还解释了背后的原因。Title: Machine Learning-Based Prediction of Human Structural Variation and Characterization of Associated Sequence DeterminantsPaper: https://www.biorxiv.org/content/10.64898/2025.12.09.693295v1