软件开发与交付 · 开源项目

OSWorld

[NeurIPS 2024] OSWorld：一个用于在真实计算机环境中评估多模态智能体开放性任务完成能力的基准测试。

AI Agent 框架开源能力构建项目项目可验证工作流评测体系

最适合谁需要软件开发与交付能力，并使用本地 CLI的用户

判断自己是不是目标用户。

能做什么技能包、使用配方、宿主说明、评估规则、预检清单

查看可带走的能力路径。

继续前继续完成沙箱验证和证据复核

未完成验证前保持审慎。

GitHub 快照2.9k 星标

478 分叉 · 94 贡献者

Doramagic.ai 最后验证日期：2026-07-29 验证方法：来源证据、语义档案、公开页面门禁和静态构建验收。

官方quick start 阅读项目说明书源仓库

快速判断 · 2026-07-29

OSWorld 项目是什么？

[NeurIPS 2024] OSWorld：一个用于在真实计算机环境中评估多模态智能体开放性任务完成能力的基准测试。
最适合：需要软件开发与交付能力，并使用本地 CLI的用户
不适合：不适合希望跳过沙箱验证、无法接受配置权限或维护成本的用户。
它给 AI 增加的能力：技能包、使用配方、宿主说明、评估规则、预检清单
第一步安全验证：继续完成沙箱验证和证据复核
当前验证状态：源码、Quick Start 和沙箱安装检查均记录为已通过。
最大风险：可能增加新用户试用和生产接入成本。
证据基础：https://github.com/xlang-ai/OSWorld、https://github.com/xlang-ai/OSWorld#readme、项目说明书、踩坑日志

一眼判断

先判断自己是否是目标用户，再决定是否继续。

最适合谁需要软件开发与交付能力，并使用本地 CLI的用户

判断自己是不是目标用户。

核心能力技能包、使用配方、宿主说明、评估规则、预检清单

不适合希望跳过沙箱验证、无法接受配置权限或维护成本的用户。

第一步验证继续完成沙箱验证和证据复核

未完成验证前保持审慎。

它能做什么

把项目翻译成用户能判断的具体能力，而不是 Doramagic 的使用流程。

AI Agent 框架

[NeurIPS 2024] OSWorld：一个用于在真实计算机环境中评估多模态智能体开放性任务完成能力的基准测试。

ability-1

开源能力构建

帮助用户判断这个项目适合什么工作，而不是只看技术名词。

ability-2

项目项目

说明输入、输出、失败模式和继续前需要复核的边界。

ability-3

可验证工作流

沉淀为 Prompt、说明书、上下文包或预检清单等可带走资产。

ability-4

来源：https://github.com/xlang-ai/OSWorld、https://github.com/xlang-ai/OSWorld#readme、项目说明书、踩坑日志。这里只回答“它能帮我做什么”。

项目温度与外部声音

站点快照，非实时质量证明；用于开工前背景判断。

星标2.9k

分叉478

贡献者94

许可证未知

状态可发布

社区讨论

已收录 7 条来源

下面是已采集到的项目级社区讨论来源，来源平台：github。这些外部声音用于帮助判断真实使用反馈，不单独作为质量证明。

01
Pixel-blind CLI agent scores 77.9% on OSWorld test_all (vs 64.3% vision)
github / github_issue
02
Container starts but Chrome DevTools port returns 400, even with clean h
github / github_issue
03
Proposal: trace diagnostics for computer-use agent failures
github / github_issue
04
Guest VM shows a Snap Store "software updates available" popup on reset,
github / github_issue
05
Feasible-task evaluators return reward=1 without verifying the task was
github / github_issue
06
v0.1.16
github / github_release
07
v0.1.0
github / github_release

怎么开始使用

先试、再读项目说明书、再带给 AI，最后按官方quick start验证。

先试 Prompt

不安装项目，先体验能力节奏。

预览

读项目说明书

理解输入、输出、失败模式和边界。

说明书

带给 AI

把上下文交给你的宿主 AI 继续工作。

上下文

沙箱验证

进入主力环境前先完成安装入口与风险边界验证。

验证

Python / pip · 官方安装入口pip install osworld

来源：https://github.com/xlang-ai/OSWorld#readme。验证：已通过。

项目说明书

每个项目结构不同，Doramagic 保留原项目解释结构，并补充边界与踩坑日志。

草稿 · 项目说明书

OSWorld 说明书

[NeurIPS 2024] OSWorld：一个用于在真实计算机环境中评估多模态智能体开放性任务完成能力的基准测试。

打开完整说明书

https://github.com/xlang-ai/OSWorld 项目说明书
目录
说明书章节
相关页面
总览与系统架构
项目定位与目标
核心架构

带给 AI 的上下文包

决定继续后，把项目上下文带给你的宿主 AI。

标准项目包 + 用户可带走资产

这不是营销摘要。它是用户决定继续后，可交给 Claude Code、Codex、Gemini、Cursor 等宿主 AI 的开工前上下文。

下载完整包阅读项目说明书

完整包完整项目包资产带给 AI 的上下文包资产边界与风险卡资产项目说明书资产踩坑日志资产安装前试用 Prompt资产官方quick start证据文件REPO_INSPECTION.json

继续前检查

在复制命令、导入 AI、安装插件前，看清还不能相信什么。

检查 1

不要把试用当真实运行

试用 Prompt 只展示流程，不证明项目已安装或运行。

检查 2

确认宿主兼容

本地 CLI

检查 3

先隔离验证

继续完成沙箱验证和证据复核

继续完成沙箱验证和证据复核

踩坑日志与复核重点

Doramagic 记录的高风险项优先显示，避免用户把候选能力当成已验证能力。

high · 安装坑

来源证据：Guest VM shows a Snap Store "software updates available" popup on reset、derailing screenshot agents

GitHub 社区证据显示该项目存在一个安装相关的待验证问题：Guest VM shows a Snap Store "software updates available" popup on reset、derailing screenshot agents

可能增加新用户试用和生产接入成本。

high · 维护坑

来源证据：Proposal: trace diagnostics for computer-use agent failures

GitHub 社区证据显示该项目存在一个维护/版本相关的待验证问题：Proposal: trace diagnostics for computer-use agent failures

可能增加新用户试用和生产接入成本。

high · 安全/权限坑

来源证据：Container starts but Chrome DevTools port returns 400、even with clean happysixd/osworld-docker image and verified proxy

GitHub 社区证据显示该项目存在一个安全/权限相关的待验证问题：Container starts but Chrome DevTools port returns 400、even with clean happysixd/osworld-docker image and verified proxy

可能增加新用户试用和生产接入成本。

high · 安全/权限坑

来源证据：Feasible-task evaluators return reward=1 without verifying the task was done (loose substring matching、no causation/de…

GitHub 社区证据显示该项目存在一个安全/权限相关的待验证问题：Feasible-task evaluators return reward=1 without verifying the task was done (loose substring matching、no causation/delta check)

可能影响授权、密钥配置或安全边界。

high · 安全/权限坑

来源证据：Pixel-blind CLI agent scores 77.9% on OSWorld test_all (vs 64.3% vision) — sharing a CLI baseline + intent-aware judge

GitHub 社区证据显示该项目存在一个安全/权限相关的待验证问题：Pixel-blind CLI agent scores 77.9% on OSWorld test_all (vs 64.3% vision) — sharing a CLI baseline + intent-aware judge

可能阻塞安装或首次运行。

medium · 能力坑

能力判断依赖假设

README / 文档足够支持第一次验证，但仍需继续核对。

假设不成立时，用户拿不到承诺的能力。

medium · 维护坑

维护活跃度未知

未记录 last_activity_observed。

新项目、停更项目和活跃项目会被混在一起，推荐信任度下降。

medium · 安全/权限坑

存在评分风险

缺少可复核演示

风险会影响是否适合普通用户安装。

low · 维护坑

issue/PR 响应质量未知

Issue / PR 响应质量未知。

用户无法判断遇到问题后是否有人维护。

low · 维护坑

发布节奏不明确

发布活跃度未知。

安装命令和文档可能落后于代码，用户踩坑概率升高。

下一步：继续完成沙箱验证和证据复核。

OSWorld

OSWorld 项目 是什么？

一眼判断

它能做什么

AI Agent 框架

开源能力构建

项目项目

可验证工作流

项目温度与外部声音

社区讨论

怎么开始使用

先试 Prompt

读项目说明书

带给 AI

沙箱验证

项目说明书

OSWorld 说明书

带给 AI 的上下文包

标准项目包 + 用户可带走资产

继续前检查

不要把试用当真实运行

确认宿主兼容

先隔离验证

踩坑日志与复核重点

来源证据：Guest VM shows a Snap Store "software updates available" popup on reset、derailing screenshot agents

来源证据：Proposal: trace diagnostics for computer-use agent failures

来源证据：Container starts but Chrome DevTools port returns 400、even with clean happysixd/osworld-docker image and verified proxy

来源证据：Feasible-task evaluators return reward=1 without verifying the task was done (loose substring matching、no causation/de…

来源证据：Pixel-blind CLI agent scores 77.9% on OSWorld test_all (vs 64.3% vision) — sharing a CLI baseline + intent-aware judge

能力判断依赖假设

维护活跃度未知

存在评分风险

issue/PR 响应质量未知

发布节奏不明确

OSWorld 项目是什么？