NeurIPS 2025 论文中,来自南京理工大学、中南大学、南京林业大学的研究团队提出了一个极具突破性的框架 ——VIST(Vision-centric Token Compression in LLM),为大语言模型的长文本高效推理提供了全新的 “视觉解决方案”。值得注意的是,这一思路与近期引起广泛关注的 DeepSeek-OCR 的核心理念不谋而合。
研究背景
在处理短文本时,大语言模型(LLM)已经表现出惊人的理解和生成能力。但现实世界中的许多任务 —— 如长文档理解、复杂问答、检索增强生成(RAG)等 —— 都需要模型处理成千上万甚至几十万长度的上下文。与此同时,模型参数规模也从数十亿一路飙升至万亿级别。在 “上下文长度激增” 与 “模型参数量膨胀” 的双重挑战下,Token 压缩不再是优化项,而是必需品。若不能有效缩减输入规模,即便最强大的大语言模型,也难以高效处理我们需要它分析的海量信息。
VIST 的出现,正是为了解决这一痛点。
让大模型学会像人一样读
该团队早在一年多以前就开始探索 ——如何让模型像人类一样,以视觉的方式更高效地理解长文本。(相关研究发表于 NeurIPS 2024:《Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning》)
人类阅读文章时,不会逐字读完每一个词。“的”“了”“和”这些功能性高频词,几乎是被大脑自动略过的。真正让我们停下来的,是那些承载意义的低频词—— 名词、动词、数字等。
VIST 的核心思想,就是让大模型也具备这种 “选择性阅读” 能力。它设计了一种模仿人类“快–慢阅读通路(Slow–Fast Reading Circuit)”的视觉化压缩机制,让大模型在理解长文本时,既能快速扫读,又能深入思考:
- ♂️快路径(Fast Path):将远处、相对次要的上下文渲染为图像,由一个冻结的轻量级视觉编码器快速提取显著性语义;
- 慢路径(Slow Path):将关键的近处文本直接输入 LLM,用于深层推理与语言生成。
这种 “视觉 + 语言” 的双通道协作,就像人类的眼睛与大脑 —— 一边扫视全局,一边聚焦要点,深度思考。VIST 让模型真正具备了 “像人一样速读” 的能力。
