当前位置：动态资讯

清华北大等推出LLaVA-o1: 让视觉语言模型逐步推理

发布时间：2024-11-25

正如 OpenAI 的 o1 等模型所展示的那样，大语言模型（LLM）在推理能力方面取得了长足进步，特别是通过推理时（inference-time）扩展。然而，当前的视觉语言模型（VLM）在执行系统化和结构化推理方面往往表现不佳，尤其是在处理复杂的视觉问答任务时。

在这项工作中，来自北京大学、清华大学的研究团队及其合作者，提出了用于进行自主多阶段推理的视觉语言模型——LLaVA-o1。与思维链提示不同，LLaVA-o1 可独立完成总结、视觉解读、逻辑推理和结论生成等连续阶段。这种结构化方法使 LLaVA-o1 在推理密集型任务中的精确度得到显著提高。

为实现这一目标，他们编译了 LLaVA-o1-100k 数据集，整合了来自各种视觉问答来源的样本，并提供了结构化推理注释。此外，他们还提出了一种推理时阶段级波束搜索方法，从而实现了有效的推理时扩展。值得注意的是，LLaVA-o1 仅用了 100k 个训练样本和一种简单有效的推理时扩展方法，不仅在广泛的多模态推理基准上比其基础模型高出 8.9%，而且还超过了更大闭源模型的性能，如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。

论文链接：https://arxiv.org/abs/2411.10440

fr2.1.png

来源：学术头条

新闻公告

清华北大等推出LLaVA-o1: 让视觉语言模型逐步推理