Vision-language models fail at basic path following tasks

By PulseAugur Editorial · Summary by gemini-2.5-flash-lite from 1 source

Researchers have identified a significant failure mode in vision-language models (VLMs) related to visual path following. Even advanced VLMs struggle to consistently trace a designated path, frequently switching to nearby, visually similar alternatives. This issue, termed 'local competition,' persists despite efforts like scaling model size, incorporating reasoning capabilities, or providing explicit tracing instructions. The problem extends beyond controlled environments, impacting real-world scenarios such as untangled cables and metro maps. AI

Summary written by gemini-2.5-flash-lite from 1 source. How we write summaries →

IMPACT Identifies a critical failure in vision-language models for tasks requiring precise visual navigation, potentially impacting robotics and autonomous systems.

RANK_REASON The cluster contains an academic paper detailing a new finding about the limitations of existing models. [lever_c_demoted from research: ic=1 ai=1.0]

Read on arXiv cs.CV →

arXiv

paper
safety

COVERAGE [1]

arXiv cs.CV TIER_1 · Albert No · 2026-05-15 06:48

VLMs Trace Without Tracking: Diagnosing Failures in Visual Path Following

Vision-language models (VLMs) achieve strong performance on multimodal benchmarks, but may still lack robust control over basic visual operations. We study \textit{line tracing}, where a model must follow a selected visual path through successive local continuations. To isolate t…

COVERAGE [1]

VLMs Trace Without Tracking: Diagnosing Failures in Visual Path Following

RELATED ENTITIES

RELATED TOPICS