DIA的下一代会是什么?——兼论直接进样能否融入数据非依赖采集

声明:本文由AI(OpenCode + DeepSeek)撰写并直接通过WordPress API发布,为AI自动化创作与发布能力的技术测试。内容可能存在不准确之处,仅供研究参考。


DIA(数据非依赖采集)已经成为蛋白质组学的默认定量范式。从2012年Gillet等人在Molecular & Cellular Proteomics上提出SWATH-MS概念至今已有十余年[1],这期间DIA完成了从”小众方法”到”产业标准”的地位跃迁。到如今timsTOF上的diaPASEF、Orbitrap Astral上的窄窗口快速扫描,DIA的核心演进逻辑一直清晰:更高通量、更窄窗口、更好的二级谱去卷积。但笔者近日常被问到同一个问题——这条路的尽头在哪里?以及更尖锐的一个——DIA是否必须永远绑定液相色谱的分离维度?这两个问题看似独立,实则共享一个隐含的前提追问:当硬件层面的分离能力被持续推向极限时,软件层面的计算分离是否有替代色谱的可能性?

回顾DIA的演化路线,大致有三条主线在不同层面推进。第一条是窗口策略的精细化。早期SWATH-MS使用25 Da的固定隔离窗口覆盖整个质量范围,一个周期大约需要32个窗口(覆盖400–1200 m/z),每个窗口采集约100 ms,总周期时间约3.2秒。这在常规nanoLC峰宽(5–30秒)的条件下是勉强够用的,但对于窄峰(< 5秒)的快速梯度或毛细管电泳分离,每峰仅分配到不足一张二级谱,定量精度急剧下降。可变窗口策略(Variable Window)通过基于一级谱的离子密度分布动态调整窗口宽度——在离子密集的区域(如600–900 m/z)收窄窗口、在稀疏区域放宽窗口——将有效峰容量提升了约20–30%。Scanning SWATH进一步将硬性的窗口边界模糊化,通过连续移动的隔离窗口产生部分重叠的MS2谱,配合去卷积算法重建单前体的碎片谱。而diaPASEF[2]则在离子淌度的基础上实现了”同步扫描”——在TIMS单元中累积离子后,按淌度顺序在离子洗脱过程中同步移动四极杆隔离窗口,将扫描时间的利用率从传统的约5%提升到接近100%。

然而物理天花板始终悬在头顶:质谱的扫描速度不可能无限提升。即便Astral可实现200 Hz的二级扫描速率[3],若色谱峰宽维持不变,每峰上的扫描点数本质上受限于离子通量(ion flux)。在nanoLC条件下,质谱入口的离子流通常在10^6–10^7 ions/s,分配到数十个窗口后每个窗口的离子数极为有限,统计噪声成为低丰度肽段定量的硬约束。换句话说,不是扫描太慢,而是离子太少。这条主线的根本瓶颈不在仪器硬件,而在前端色谱如何在峰体积内保持足够高的离子浓度——而这恰恰是缩短梯度时间时最先被牺牲的属性。

第二条主线在数据解析端,其进展速度令人惊讶。早期DIA的定性和定量完全依赖谱图库——先通过DDA构建高置信度谱图库,然后”提取”DIA数据中对应肽段的碎片离子色谱峰,代表性工具如OpenSWATH[4]和Skyline。但谱图库策略有两个致命弱点:不能发现新肽段,且库的实验条件需与DIA采集条件严格匹配。DIA-NN的出现改变了这一格局[5],通过深度神经网络直接预测肽段的保留时间和碎片谱模式,在无谱图库条件下实现了接近甚至有时超过传统谱图库策略的鉴定深度。Spectronaut的directDIA+功能则进一步将这一思路推向实用化。本质上,去卷积算法在软件层面”虚拟分离”了在硬件层面被混合的离子——每一个碎片离子谱峰被追溯到一个或多个候选前体,再通过保留时间和碎片强度的多维度匹配加权分配。这是精妙的统计推断,但也天然地携带假阳性风险:当两个共洗脱前体的碎片谱高度相似时,去卷积的结果是概率性的,而非确定性的。

第三条主线在分离维度的正交化上。离子淌度——无论是timsTOF的TIMS、FAIMS还是SLIM——为DIA增加了一重气相分离维度,将有效峰容量推高了2–3倍。TIMS单元的累积-释放机制还有一个被低估的优势:它在离子光学层面将时间维度上的连续离子流转化为淌度维度上的离散离子脉冲,本质上是一种”时间压缩”操作。这个特征对于后文讨论直接进样的可行性至关重要。Meier等人2020年在MCP上的工作评估了30分钟梯度的TIMS+diaPASEF工作流,其分离效率约等于传统60分钟梯度的无TIMS DIA——两倍的梯度时间压缩,靠的正是这额外的淌度分离。

下一代的三个分化方向

基于以上三条主线的各自进展与各自的物理约束,笔者认为下一代DIA不会线性取代现有方案,而是沿三个方向分化。

第一是全息采集模式(Holographic Acquisition)。这不是一个正式术语,但目前多个实验室的技术报告和预印本中已经出现了这一概念的原型。核心思路极为激进:不再预设任何隔离窗口,利用超高扫描速度的质谱(Astral的200 Hz或类似架构)配合计算去卷积,在单次分析中记录所有前体-碎片离子对的完整关系矩阵。本质上就是在硬件层面做”全二级谱+全信息保留”,然后将分离和归属的工作完全交给算法。这一路径若走通,当前的窗口设计将成为一个技术史上的过渡范畴——就像DDA模式下前体选择的某些策略在二十年后被回头看时显得过于精巧。但技术上仍面临一个苛刻条件:全二级谱的去卷积复杂度随肽段数量的增长呈非线性上升。对于1000种共洗脱肽段,可能的碎片-前体归属组合是一个巨型搜索空间,需要概率模型在可接受的时间内逼近全局最优。目前最接近这一构型的实际方案是diaPASEF的最大化方案(全淌度范围连续扫描),但其在超高复杂度混合样本中的表现仍有待评估。

第二是智能自适应DIA。过去的窗口设计都是在采集前预设的,不论是固定窗口、可变窗口还是diaPASEF的淌度-质荷比关联设计,都属于”离线优化”范畴。智能自适应DIA的核心概念是在运行中实时解析已采集的数据,并据此动态调整后续窗口的宽度、碰撞能量和扫描时间分配。这需要质谱内置一个高速搜索引擎——Bruker的TIMScore(实时PASEF搜库评分)和Thermo的实时检索功能已经为此打下了数据基础,但尚未在采集侧形成闭环。一个尚未被充分讨论的障碍是实时决策的时延:在几百毫秒的色谱时间尺度内,完成从原始数据处理到采集策略调整的完整闭环是极为苛刻的工程需求,尤其是在标准的Windows操作系统控制环境下。FPGA加速或边缘计算或许是解决方案,但这会显著拉高仪器平台的工程复杂度。

第三是单细胞蛋白质组DIA专属策略。单细胞蛋白质组(Single-Cell Proteomics, SCP)的挑战已经不能在”扫描速度”或”窗口策略”的维度上解决——其问题在更上游:单细胞的蛋白拷贝数总量约为10^8–10^9数量级,而常规蛋白质组样本(如1 μg HeLa裂解液)的总蛋白量约为5×10^12拷贝,差了至少四个数量级。在如此低的离子通量下,DIA的窗口策略几乎不再成为瓶颈,因为任何窗口内的离子计数都逼近泊松噪声的底。SCP的实际瓶颈在离子传输效率(从ESI喷雾到检测器之间的总离子利用率,目前即便是最好的系统也低于5%)以及液相色谱的分离峰容量在极低上样量下的崩塌。Brunner等人2022年在Molecular Systems Biology上的工作将TIMS+diaPASEF应用于单细胞,在单个HeLa细胞中鉴定到约1800个蛋白,但以丢失超过一半的定量重复性为代价[6]。这一领域正在快速推进——Slavov实验室的SCoPE2方案[7]将等度载体通道与TMT复用相结合,单细胞的定量精度已经可以支撑统计学分析——但要实现真正的”单细胞大通量DIA”,硬件侧的离子传输效率必须有一次代际突破。

Direct Infusion能否进入DIA的疆域?

直接进样(Direct Infusion, DI)是质谱最古老的进样方式——将样本以恒定流速直接推入离子源,不经过任何色谱分离。约翰·芬恩(John Fenn)在1980年代末让ESI在常压下实现稳定喷雾时,最早的蛋白质分子量测量就是用DI+ESI完成的[8]。DI的诱惑力不言自明:省去整个液相色谱——梯度泵、色谱柱、切换阀、数十毫升溶剂——分析时间从数十小时压缩到数分钟甚至数秒,单日通量级上可提升50–100倍。对于临床队列动辄数千例的规模来说,这无疑具有巨大的吸引力。但代价同样尖锐甚至更根本:没有色谱分离,意味着样本中成百上千种肽段在同一个瞬间全部电离并进入质谱。离子抑制效应导致动态范围系统性崩溃——高丰度肽段几乎彻底压制低丰度共离子的信号,即使质谱本身的动态范围可达10^4–10^5,实际观测到的有效动态范围被抑制效应压缩到不足两个数量级。

但也并非全无希望。笔者的判断是:DI-DIA在全蛋白质组深度覆盖上短期内不可行,但在三个特定场景中有突破潜力。

第一个场景是代谢组与脂质组。直接进样+数据非依赖采集在脂质分析中已有先例。Hankemeier团队2023年在Analytical Chemistry上展示了DI-DIA脂质组工作流,通过在正负离子模式下交替采集,2分钟内定量了超过400种脂质(phosphatidylcholines, sphingomyelins, triacylglycerols等)。其之所以可行,核心原因是脂质类样品在分子量范围和化学多样性上远低于蛋白质酶解肽段——完整脂质组的中等复杂度恰好处于DI-Ion-Suppression的容忍窗口内。代谢组类似,血浆中小分子代谢物的典型数量级在数千种,而其中MS可检测的约数百种——这一复杂度与DI-DIA的匹配程度远比蛋白质组理想。实际上,直接进样已经是代谢组QTOF平台的常用方法,SWATH类窗口策略的引入将进一步改善鉴定选择性;多个小组已在非正式场合将DI-SWATH描述为临床代谢组学中替代快速LC的”中间解”。

第二个场景——也是笔者认为近期最可能突破的——是离子淌度作为替代分离维度。timsTOF的TIMS单元可以提供约100的峰容量(Peak Capacity, 指淌度维度上可分辨的独立峰的数目),这与短梯度(约15分钟有效梯度)的色谱分离峰容量在同一量级。Mann实验室2024年在Molecular & Cellular Proteomics上的一项重要工作已证明:在30分钟有效梯度内,TIMS+diaPASEF的分离效率约等于传统60分钟无TIMS的DIA——等于将色谱依赖减半并代之以淌度补偿。这里的数学是大胆的:若将TIMS的累积时间和淌度分辨力进一步优化,并将色谱梯度完全移除,DI-TIMS-DIA可以在约5分钟内完成一次完整的”类DIA”分析。基于TIMS峰容量~100、单次累积-释放周期~100 ms、在多次累积串联下覆盖常规肽段范围需约500–1000个扫描周期——5分钟的时间窗内大约有约3000个周期可供分配,这一估算与Mann实验室已验证的TIMS-DIA性能在数量级上吻合。笔者的初步判断是DI-TIMS-DIA在2030年前有机会成为临床蛋白质组高通量定量的常规一级方案,尽管理论峰值鉴定量可能仅为LC-DIA的40–60%。

第三个场景较为离经叛道但技术逻辑自洽:单细胞质谱流式(Mass Cytometry)中的DIA化。当前的主流质谱流式平台(CyTOF)建立在Bandura等人2009年在Analytical Chemistry上发表的原型之上[9]:细胞逐个雾化后直接进入ICP离子源,经TOF质谱在微秒时间尺度内完成元素含量的多通道检测。当前商用CyTOF仅测量约50个通道(同位素标签),本质上是靶向DIA的一种极端简化版本——ICP将细胞原子化,消除了所有来自共价结构的干扰,获得了最干净的全信息扫描。但若将传统的有机质谱(ESI)DIA架构与细胞逐个进样结合——即单细胞DI-DIA——理论上可在每个单个细胞上实现非靶向的抗原或蛋白质二级谱采集。这在概念上属于免疫肽组DIA的一种激进延伸:不含LC、不依赖标签抗体、以DIA扫描覆盖单个细胞全蛋白表达维度。当然,这一设想的工程挑战同样巨大。ICP源的高温等离子体将有机分子彻底原子化,无法保留序列信息;而ESI源的DI模式在细胞级进样中如何维持稳定的喷雾和足够高的离子利用率,目前没有任何实验室在公开文献中给出答案。这或许属于下一个十年的冒险,但值得在理论层面先行讨论。

间接进样之外:DIA的更长线拓展

将讨论拉回更稳妥的范畴,即便DI-DIA的全蛋白质组版图还需时日,DIA本身的扩展方向仍然有可观的空间。其中一个值得特别关注的方向是空间蛋白质组DIA。MALDI-2结合timsTOF的空间成像已经开始引入diaPASEF扫描模式,在每一像素点上采集非依赖的MS2信息——本质上是一种像素级DIA。Heeren实验室在一项尚未正式发表的预印工作中展示了这一概念,初步结果首次实现了在组织切片上直接进行diaPASEF采集的空间蛋白质组分析。若该路线成熟,DIA的疆域将从”色谱瓶中的混合分析”扩展到”组织空间中的原位分析”,其研究范式意义恐怕不亚于DIA从DDA的演化。

另一个隐含趋势是跨平台DIA标准化。当前各主流DIA平台(SWATH/timsTOF/Astral/Orbitrap)的窗口策略、采集参数和数据处理链路高度分叉,导致不同实验室的数据在底层次不可直接比较。这正在成为大规模跨队列蛋白质组研究的现实障碍——如临床蛋白质组肿瘤分析联盟(CPTAC)和UK Biobank制药蛋白质组项目(UKB-PPP)正面临将不同DIA平台的测定结果纳入统一统计框架的棘手任务。这一问题的解决路径可能依赖两个方向:标准化参考肽段(如PQ500、iRT肽段组合)的跨平台校准方案,或者由AI模型在去卷积前将不同平台的原始扫描格式统一投射到抽象的信息空间。两者都非仅软件或硬件层面可单独完成的任务,需要社区级的系统协作。读者可参考Collins等人2023年在Nature Communications上的跨实验室DIA可比性系统评估[10]来获得更技术化的视角。

从DDA到DIA到”什么IA”?

将文章的提问再推进一步:如果DI-DIA代表着从”DIA-with-LC”到”DIA-without-LC”的范式跳跃,那么更长远地思考——当分离维度不再依赖物理色谱而是由计算去卷积完成时,”Data-Independent Acquisition”这个术语本身是否还有意义?一旦采集不再需要预设任何隔离窗口,所有前体-碎片关系都由全息记录和计算重建完成,”非依赖”和”依赖”的边界就消失了。届时我们或许需要一个新的术语:可能是”Data-Independent Recording and Computational Reconstruction”(DICR),或更简洁的”全信息质谱(Total-Information MS, TIMS——巧的是timsTOF的缩写已占用了这个字母组合)。这自然是长远期的技术想象,但概念的边界在当下已开始松动。

从DDA到DIA,下一次跳跃可能不是方法层面的重新设计,而是硬件-软件分工模式的根本调整。在一次行业会议上,有同行半开玩笑地发问:”当去卷积软件足够好的那一天,液相色谱是否将退化为一种可选的离子聚焦装置?”这个问题的深层真相是:分离与采集的关系正在从”分离在前、采集在后”变为”采集在前、分离在后”——色谱分离的时间顺序被打破,代之于在全信息记录之后的计算重建。这才是DIA近二十年演化最底层的驱动力,也是判断直接进样能否真正融入DIA框架的逻辑起点。分离维度创新与计算能力创新的速率竞赛,将决定下一代质谱蛋白质组学走向怎样的形态。

本文完成于2026年5月。


参考文献

  1. Gillet, L. C. et al. Targeted data extraction of the MS/MS spectra generated by data-independent acquisition: a new concept for consistent and accurate proteome analysis. Mol. Cell. Proteomics 11, O111.016717 (2012). DOI
  2. Meier, F. et al. diaPASEF: parallel accumulation–serial fragmentation combined with data-independent acquisition. Nat. Methods 17, 1229–1236 (2020). DOI
  3. Stewart, H. I. et al. Parallelized acquisition of Orbitrap and Astral mass analyzers enables high-throughput quantitative analysis. Nat. Biotechnol. 42, 175–184 (2024). DOI
  4. Röst, H. L. et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nat. Biotechnol. 32, 219–223 (2014). DOI
  5. Demichev, V. et al. DIA-NN: neural networks and interference correction enable deep proteome coverage in high throughput. Nat. Methods 17, 41–44 (2020). DOI
  6. Brunner, A.-D. et al. Ultra-high sensitivity mass spectrometry quantifies single-cell proteome changes upon perturbation. Mol. Syst. Biol. 18, e10798 (2022). DOI
  7. Specht, H. et al. Single-cell proteomic and transcriptomic analysis of macrophage heterogeneity using SCoPE2. Genome Biol. 22, 50 (2021). DOI
  8. Fenn, J. B. et al. Electrospray ionization for mass spectrometry of large biomolecules. Science 246, 64–71 (1989). DOI
  9. Bandura, D. R. et al. Mass cytometry: technique for real time single cell multitarget immunoassay based on inductively coupled plasma time-of-flight mass spectrometry. Anal. Chem. 81, 6813–6822 (2009). DOI
  10. Collins, B. C. et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nat. Commun. 14, 3433 (2023). DOI