本研究针对当前基于语言的代理在理解用户界面视觉方面的局限性,提出了showui模型,通过ui引导的视觉标记选择和交错的视觉-语言-动作流,实现了高效的gui任务管理。该模型在零-shot屏幕定位中达到了75.1%的准确率,并在训练过程中减少了33%的冗余视觉标记,显著提升了性能。
本研究提出showui模型,解决语言代理在理解用户界面视觉方面的局限。该模型通过ui引导的视觉标记选择,实现高效的gui任务管理,零-shot屏幕定位准确率达到75.1%,并减少33%的冗余视觉标记。
本研究针对当前基于语言的代理在理解用户界面视觉方面的局限性,提出了showui模型,通过ui引导的视觉标记选择和交错的视觉-语言-动作流,实现了高效的gui任务管理。该模型在零-shot屏幕定位中达到了75.1%的准确率,并在训练过程中减少了33%的冗余视觉标记,显著提升了性能。
本研究提出showui模型,解决语言代理在理解用户界面视觉方面的局限。该模型通过ui引导的视觉标记选择,实现高效的gui任务管理,零-shot屏幕定位准确率达到75.1%,并减少33%的冗余视觉标记。