模型策略
Tip
只想尽快跑起来?直接前往 常用模型配置,里面有可直接使用的配置。
本篇文档会重点介绍 Midscene 的模型选用策略。如果你需要进行模型配置,请参考 常用模型配置。
背景知识:UI 自动化的技术路线
使用 AI 模型驱动 UI 自动化有两个关键点:规划合理的操作路径,以及准确找到需要交互的元素。其中,“元素定位”能力会直接影响自动化任务的成功率。
为了完成元素定位工作,UI 自动化框架一般 有两种技术路线:
- 基于 DOM + 截图标注:提前提取页面的 DOM 结构,结合截图做好标注,请模型“挑选”其中的内容。
- 纯视觉:利用模型的视觉定位能力,基于截图完成所有分析工作。模型收到的只有图片,没有 DOM,也没有标注信息。
Midscene 采用纯视觉路线来完成元素定位
Midscene 早期同时兼容「DOM 定位」和「纯视觉」两种技术路线,交由开发者自行选择比对。但在几十个版本迭代、上百个项目的测试后,我们有了一些新的发现。
DOM 定位方案的稳定性不足预期。它常在 Canvas 元素、CSS background-image 绘制的控件、跨域 iframe 内容、缺少辅助技术标注的元素等场景中出现定位偏差。这些异常会让开发者投入大量时间排查和修复,甚至陷入 Prompt 调优怪圈。
与此同时,我们发现「纯视觉」方案开始体现出它的优越性:
- 效果稳定:这些模型在 UI 操作规划、组件定位、界面理解等领域的综合表现较好,能够帮助开发者更快上手。
- 适用于任意系统:自动化框架不再依赖 UI 渲染的技术栈。无论是 Android、iOS、桌面应用,还是浏览器中的
<canvas>标签,只要能获取截图,Midscene 即可完成交互操作。 - 能校验用户真正看到的效果:视觉方案基于渲染后的画面进行推理,可以对颜色、高亮状态、布局等视觉结果做断言。这些内容是基于 DOM 的校验无法覆盖的。
- 易于编写:抛弃各类 selector 和 DOM 之后,开发者与模型的“磨合”会变得更简单,不熟悉渲染技术的新 人也能很快上手。
- token 量显著下降:相较于 DOM 方案,视觉方案的 token 使用量最多可以减少 80%,成本更低,且本地运行速度也变得更快。
- 有开源模型解决方案:开源模型表现渐佳,开发者开始有机会进行私有化部署。比如 Qwen3-VL 提供的 8B、30B 等版本,在不少项目中都有不错的效果。
综合上述情况,从 1.0 版本开始,Midscene 只支持纯视觉方案,不再提供“提取 DOM”的兼容模式。这一限制针对 UI 操作与元素定位;在数据提取或页面理解场景中,仍可按需附带 DOM 信息。
推荐使用的多模态模型
经过大量项目实测,我们推荐使用这些模型作为使用 Midscene 的默认模型:豆包 Seed、千问 Qwen3.x、智谱 GLM-V、智谱 AutoGLM、Gemini 3.x 系列。
这些模型都具备良好的“元素定位”能力,且在任务规划、界面理解等场景上也有不错的表现。
如果你不知道从哪里开始,选用你眼下最容易获得的模型即可,然后在后续迭代中再进行横向比对。

