Post

Nature和Science都在关心什么,看AI for Science的进展

一、AlphaDev

main.png 论文:https://www.nature.com/articles/s41586-023-06004-9

代码:https://github.com/deepmind/alphadev

本文探讨了如何使用深度强化学习(DRL)来发现新的、高效的排序算法,这一方法优化了CPU指令级的实际测量延迟,较之前的工作更有效地搜索和考虑正确且快速程序的空间。研究团队将发现新排序算法的问题形式化为一个单人游戏——AssemblyGame,玩家需要选择一系列底层CPU指令(汇编指令),组合出新的高效排序算法。这一过程具有挑战性,因为玩家需要考虑汇编指令的组合空间,以产生既正确又快速的算法。

为了玩这个游戏,研究者引入了一个学习代理AlphaDev,它结合了深度强化学习和随机搜索优化算法来寻找正确且高效的算法。AlphaDev的主要学习算法是基于著名的AlphaZero算法扩展的,其中一个神经网络被训练用于指导解决AssemblyGame的搜索。此外,AlphaDev的表示函数是可交换的,能够捕捉汇编程序的基本结构。

使用AlphaDev,研究团队从头开始发现了固定和可变排序算法,这些算法不仅新颖而且比现有的人类基准更高效。AlphaDev发现的固定排序算法(例如排序3、排序4和排序5)已经被集成到LLVM标准C++库的标准排序函数中。此外,研究还分析了新算法的发现,将AlphaDev与随机搜索优化方法进行了比较,并将AlphaDev应用于更多领域,以展示这种方法的普适性。

二、GraphCast

main.png 论文:https://www.science.org/stoken/author-tokens/ST-1550/full

代码:https://github.com/deepmind/graphcast

本文介绍了一种名为GraphCast的机器学习天气预测(MLWP)方法,专用于全球中期(10天内)天气预测。GraphCast利用基于图神经网络(GNN)的“编码器-处理器-解码器”结构,总共有3670万参数,能在不到一分钟内通过单个Google Cloud TPU v4设备产生精确的10天天气预报。该系统能预测热带气旋路径、大气河和极端温度等现象。

GraphCast以当前时间及6小时前的天气状态为输入,预测接下来6小时的天气变化。它采用自回归方式,通过将自身预测结果作为输入来生成连续的天气状态轨迹。在模型开发中,使用了欧洲中期天气预报中心(ECMWF)ERA5再分析档案中的39年(1979-2017年)历史数据进行训练。训练目标是最小化GraphCast预测状态与对应ERA5状态之间的均方误差(MSE),误差按垂直层次加权。

GraphCast的训练约需4周时间,在32个Cloud TPU v4设备上进行,使用批处理并行。GraphCast的表现已开始接近IFS系统在1.0°和0.25°分辨率下的性能,显示出机器学习方法在中期天气预测领域的应用潜力。

三、GNoME

main.png 论文:https://www.nature.com/articles/s41586-023-06735-9

代码:https://github.com/google-deepmind/materials_discovery

本文描述了利用大规模主动学习扩展机器学习在材料探索中的应用,开发出首个能准确预测材料稳定性的模型,从而指导材料的发现。研究依托两大支柱:首先,通过新的对称意识的部分替代(SAPS)和随机结构搜索生成多样的候选结构;其次,采用最新的图神经网络(GNNs)改善了基于结构或成分的材料属性建模。通过迭代的主动学习流程,GNoME模型发现了超过220万个相对于之前工作稳定的结构,这些结构包括计算和实验结构的综合数据集。

此过程不仅显著扩展了已知稳定晶体的数量,从42万增加到42.1万,而且通过DFT计算验证模型预测,并作为数据飞轮在下一轮主动学习中训练更健壮的模型。最终的GNoME模型能够精确预测能量至每原子11毫电子伏,并将稳定预测的准确率提高到结构超过80%,仅通过成分每100次试验达到33%,与之前的1%相比有显著提升。此外,这些网络在训练中未包括的分布外泛化方面也表现出突破性进展,例如,GNoME能够准确预测含有5种及以上独特元素的结构。

最后,GNoME发现的数据集为下游应用解锁了新的建模能力,其中的结构和松弛轨迹为训练具有前所未有精度和零射击泛化能力的学习性等变原子势提供了大量多样化的数据集。这些潜力通过从分子动力学模拟中估计离子导电性的材料属性预测来展示。

四、SynthSR

main.png 论文:https://www.science.org/doi/10.1126/sciadv.add3607

代码:https://github.com/BBillot/SynthSR

本文介绍了一种新的神经网络技术SynthSR,旨在解决临床脑MRI数据在超分辨率和图像合成中应用的难题。目前大多数临床MRI扫描不符合研究级的图像分辨率和对比度要求,这限制了其在神经影像研究中的应用。而传统的深度学习方法在处理这类多样化数据时面临领域偏移和模型训练的挑战,尤其是当输入数据的分辨率或MR对比度与训练数据不同时,模型的性能会显著下降。

SynthSR通过结合领域随机化(DR)方法和脑MRI的生成模型,能够处理任何分辨率和对比度的扫描,无需重新训练即可使用。该工具生成的合成MPRAGE图像可以用现有的3D脑MRI分析工具(如FreeSurfer或FSL)进行后续处理,例如注册或分割。此外,SynthSR通过一个辅助分割任务生成更真实的图像,并能通过补画技术处理图像中的异常区域,如将病变区域用看似正常的组织填充,从而使这些图像能够被标准的神经影像工具直接分析。这种方法在处理多发性硬化等疾病的影像数据时尤其常见,病变区域会被填充以正常白质强度,以便使用如FreeSurfer或SPM等软件进行3D形态学分析。

五、EVEscape

main.png 论文:https://www.nature.com/articles/s41586-023-06617-0

代码:https://github.com/OATML-Markslab/EVEscape

本研究提出了一种名为EVEscape的新型计算框架,用于预测病毒变异逃逸免疫系统的可能性。EVEscape结合了深度生成模型和生物物理约束,不依赖于最近的大流行序列或抗体数据,使其适用于病毒爆发初期及持续评估新出现的病毒株,如SARS-CoV-2、HIV和流感,以及尚未充分研究的尼帕病毒和拉沙热病毒。

EVEscape的模型框架包括三个主要部分:1) 基于深度变分自编码器的EVE模型,用于评估突变对病毒健康度的影响;2) 抗体可及性评估,用于确定潜在的抗体结合位点;3) 通过比较亲水性和电荷差异来计算差异性,这些都是影响蛋白-蛋白相互作用的已知特性。这些组件结合能够预测突变诱导免疫逃逸的可能性。

EVEscape的应用能够在疫情初期提供警告,有助于疫苗和治疗策略的开发,最终目的是减少大流行的人类和经济影响。通过这种方法,研究人员可以更有效地监测和预测病毒变异,为公共卫生决策和应对措施提供科学依据。

六、PDAC

main.png 论文:https://www.nature.com/articles/s41591-023-02640-w

代码:https://github.com/MIC-DKFZ/nnUNet

本研究介绍了一种名为PANDA(使用AI检测胰腺癌)的人工智能方法,该方法能够通过非对比增强CT(non-contrast CT)高精度地检测和诊断胰腺导管腺癌(PDAC)及非PDAC病变。非对比增强CT在低资源地区的体检中心和医院中广泛使用,与增强对比CT相比,它降低了病人的辐射剂量并消除了对比剂的不良反应风险。虽然从非对比增强CT中识别PDAC对于经验丰富的放射科医生来说具有挑战性,但最新研究显示AI在多种医学图像分析任务中已能达到或超越人类专家的水平,甚至能够从常规图像合成增强对比的医学图像。

在这项研究中,我们首先在腹部非对比增强CT扫描上对PANDA进行内部评估,并将其表现与48名放射科医生在非对比和对比CT成像上的阅读研究结果进行比较。然后,我们在一个大型的外部多中心测试队列(n=5,337)上验证PANDA的普适性。此外,我们还研究了在胸部CT上应用PANDA的可行性。最后,为了验证PANDA在真实临床转化中的关键问题,我们探索了将其整合到常规临床流程中的大规模实际场景,涉及20,530名连续病人,这些病人来自四种不同设置(体检、急诊、门诊和住院)并且进行了可用的腹部或胸部非对比增强CT扫描。

通过这种AI基于机会性筛查的方法,PANDA有潜力在广泛的无症状患者群体中推进PDAC的早期检测,几乎不增加额外成本和辐射暴露,为及时治疗提供可能,从而可能挽救生命。

七、RETFound

main.png 论文:https://www.nature.com/articles/s41586-023-06555-x

代码:https://github.com/rmaphoh/RETFound_MAE

本研究介绍了一个名为RETFound的基于自监督学习(SSL)的基础模型,用于视网膜图像。通过大规模未标记的视网膜图像的自监督预训练,此模型能够适应多种眼病检测任务。RETFound分别使用彩色眼底照相(CFP)和光学相干断层扫描(OCT)图像,通过高级的SSL技术(掩蔽自编码器)进行训练,随后在特定疾病标签上进行微调,以提升对多种眼病和相关全身疾病的检测能力。

研究验证了RETFound在多个临床数据集上的性能,涉及眼病的诊断与预后,以及心血管和神经退行性疾病的预测。研究结果表明,相比于其他预训练模型,RETFound在适应这些任务时显示出更高的性能和标签效率。此外,研究者还探索了不同的SSL策略(生成式SSL与对比式SSL)在视网膜图像分析中的表现,以及模型在不同的测试集上的外部验证结果。

八、Flan-PaLM

main.png 论文:https://www.nature.com/articles/s41586-023-06291-2

代码:https://huggingface.co/google/flan-t5-xl

尽管现有的人工智能(AI)模型在医疗领域中已展现出一定的实用性,它们通常局限于单一任务处理,缺乏必要的交互性和表达能力,这与临床实际需求存在较大差距。随着大型语言模型(LLMs)的发展,我们有机会重新考虑以语言为核心的AI系统,这些所谓的“基础模型”在学习医学文献和支持复杂临床任务方面显示出巨大潜力。

然而,由于医疗领域的高度敏感性和对安全性的极高要求,开发有效的评估框架以确保这些技术的安全性和实用性变得尤为重要。为了准确评估LLMs在医学问题回答方面的能力,研究者们提出了MultiMedQA基准,通过整合多个现有数据集并新增HealthSearchQA数据集,更全面地测试模型在处理实际医学问题中的效能。

此外,通过引入新的模型Flan-PaLM及其医疗领域特化版本Med-PaLM,研究展示了通过精细调整和使用先进的提示策略,可以显著提升模型在专业医学问答任务中的表现。这些模型不仅在多项选择问题上表现优异,还通过人类专家评估,显示出与临床共识的高度一致性和较低的潜在危害性。

main.png 论文:https://www.nature.com/articles/s41586-023-06924-6

代码:https://github.com/google-deepmind/funsearch

本文介绍了一种名为FunSearch的新方法,该方法结合了预训练的大型语言模型(LLM)和评估器,通过迭代演进过程生成解决方案。FunSearch旨在为开放性问题发现创新的算法解决方案,并能够超越现有的最佳解决方案,表明其发现的是真正的新知识。通过使用所谓的“最佳尝试提示”(best-shot prompting)、程序框架起始和基于岛屿的进化方法等策略,FunSearch能够提高程序的质量和多样性,进而发现新的科学结果。该方法已在极图组合学的帽子集问题以及在线装箱问题中表现出惊人的有效性,不仅发现了新的构造方法,还改进了现有的算法。FunSearch生成的程序不仅解决了问题,而且因其结构化和可解释性,便于与领域专家交互并适用于大规模实例。此外,这些程序易于部署,相较于需要特殊硬件的神经网络,具有更广泛的应用前景。

This post is licensed under CC BY 4.0 by the author.