Agent SDK 与运行时 · 开源项目

promptfoo

Agent SDK 项目，用于验证工具调用、状态管理、handoff、trace、评估和权限边界。

Agent SDK工具调用HandoffTrace评估边界

最适合谁正在构建可观测、可测试、多工具 Agent 应用的开发者。

判断自己是不是目标用户。

能做什么Agent 运行时预检、工具权限、状态/交接边界、trace 验收和评估清单

查看可带走的能力路径。

继续前先用假工具和临时凭据验证一个最小 agent loop。

未完成验证前保持审慎。

GitHub 快照22k 星标

2.0k 分叉 · 299 贡献者

Doramagic.ai 最后验证日期：2026-06-20 验证方法：来源证据、语义档案、公开页面门禁和静态构建验收。

官方quick start 阅读项目说明书源仓库

快速判断 · 2026-06-20

promptfoo 项目是什么？

promptfoo 是 Agent SDK / 运行时项目，用于组织工具调用、状态、handoff、trace 和评估边界。
最适合：正在构建可观测、可测试、多工具 Agent 应用的开发者。
不适合：不适合只需要一个 Prompt、简单 API 调用，或不能隔离工具权限的用户。
它给 AI 增加的能力：Agent 运行时预检、工具权限、状态/交接边界、trace 验收和评估清单
第一步安全验证：先用假工具和临时凭据验证一个最小 agent loop。
当前验证状态：源码、Quick Start 和沙箱安装检查均记录为已通过。
最大风险：Upgrade or migration may change expected behavior: 0.121.8
证据基础：https://github.com/promptfoo/promptfoo、https://github.com/promptfoo/promptfoo#readme、项目说明书、踩坑日志

一眼判断

先判断自己是否是目标用户，再决定是否继续。

最适合谁正在构建可观测、可测试、多工具 Agent 应用的开发者。

判断自己是不是目标用户。

核心能力Agent 运行时预检、工具权限、状态/交接边界、trace 验收和评估清单

不适合只需要一个 Prompt、简单 API 调用，或不能隔离工具权限的用户。

第一步验证先用假工具和临时凭据验证一个最小 agent loop。

未完成验证前保持审慎。

它能做什么

把项目翻译成用户能判断的具体能力，而不是 Doramagic 的使用流程。

安全审查与权限治理

测试提示词、智能体和 RAG 系统，提供 AI 红队/渗透测试/漏洞扫描；支持 GPT、Claude、Gemini、DeepSeek 等模型性能对比，使用声明式配置，集成命令行与 CI/CD，OpenAI 和 Anthropic 也在使用。

ability-1

知识库问答

帮助用户判断这个项目适合什么工作，而不是只看技术名词。

ability-2

多 Agent 协作

说明输入、输出、失败模式和继续前需要复核的边界。

ability-3

多角色协作流程

沉淀为 Prompt、说明书、上下文包或预检清单等可带走资产。

ability-4

来源：https://github.com/promptfoo/promptfoo、https://github.com/promptfoo/promptfoo#readme、项目说明书、踩坑日志。这里只回答“它能帮我做什么”。

项目温度与外部声音

站点快照，非实时质量证明；用于开工前背景判断。

星标22k

分叉2.0k

贡献者299

许可证未知

状态可发布

社区讨论

已收录 11 条来源

下面是已采集到的项目级社区讨论来源，来源平台：github。这些外部声音用于帮助判断真实使用反馈，不单独作为质量证明。

01
Per-test-case `repeat` option to control how many times individual tests
github / github_issue
02
0.121.15
github / github_release
03
0.121.14
github / github_release
04
code-scan-action: 0.1.7
github / github_release
05
0.121.13
github / github_release
06
code-scan-action: 0.1.6
github / github_release
07
0.121.12
github / github_release
08
0.121.11
github / github_release
09
0.121.10
github / github_release
10
0.121.9
github / github_release
11
0.121.8
github / github_release

怎么开始使用

先试、再读项目说明书、再带给 AI，最后按官方quick start验证。

先试 Prompt

不安装项目，先体验能力节奏。

预览

读项目说明书

理解输入、输出、失败模式和边界。

说明书

带给 AI

把上下文交给你的宿主 AI 继续工作。

上下文

沙箱验证

进入主力环境前先完成安装入口与风险边界验证。

验证

Node.js / npm · 官方安装入口npm install -g promptfoo

来源：https://github.com/promptfoo/promptfoo#readme。验证：已通过。

项目说明书

每个项目结构不同，Doramagic 保留原项目解释结构，并补充边界与踩坑日志。

草稿 · 项目说明书

promptfoo 说明书

打开完整说明书

https://github.com/promptfoo/promptfoo 项目说明书
目录
项目概览
相关页面
一、项目定位与目标
二、核心架构与组件划分
整体数据流

带给 AI 的上下文包

决定继续后，把项目上下文带给你的宿主 AI。

标准项目包 + 用户可带走资产

这不是营销摘要。它是用户决定继续后，可交给 Claude Code、Codex、Gemini、Cursor 等宿主 AI 的开工前上下文。

下载完整包阅读项目说明书

完整包完整项目包资产带给 AI 的上下文包资产边界与风险卡资产项目说明书资产踩坑日志资产安装前试用 Prompt资产官方quick start证据文件REPO_INSPECTION.json

继续前检查

在复制命令、导入 AI、安装插件前，看清还不能相信什么。

检查 1

不要把试用当真实运行

试用 Prompt 只展示流程，不证明项目已安装或运行。

检查 2

确认宿主兼容

继续前需要复核。

检查 3

先隔离验证

继续完成沙箱验证和证据复核

先用假工具和临时凭据验证一个最小 agent loop。

踩坑日志与复核重点

Doramagic 记录的高风险项优先显示，避免用户把候选能力当成已验证能力。

medium · 安装坑

失败模式：installation: 0.121.8

需要继续复核。

Upgrade or migration may change expected behavior: 0.121.8

medium · 安装坑

失败模式：installation: code-scan-action: 0.1.6

需要继续复核。

Upgrade or migration may change expected behavior: code-scan-action: 0.1.6

medium · 配置坑

可能修改宿主 AI 配置

项目面向 Claude/Cursor/Codex/Gemini/OpenCode 等宿主，或安装命令涉及用户配置目录。

安装可能改变本机 AI 工具行为，用户需要知道写入位置和回滚方法。

medium · 配置坑

失败模式：configuration: 0.121.15

需要继续复核。

Upgrade or migration may change expected behavior: 0.121.15

medium · 配置坑

失败模式：configuration: Per-test-case `repeat` option to control how many times individual tests run

需要继续复核。

Developers may misconfigure credentials、environment、or host setup: Per-test-case `repeat` option to control how many times individual tests run

medium · 配置坑

来源证据：Per-test-case `repeat` option to control how many times individual tests run

GitHub 社区证据显示该项目存在一个配置相关的待验证问题：Per-test-case `repeat` option to control how many times individual tests run

可能增加新用户试用和生产接入成本。

medium · 能力坑

能力判断依赖假设

README / 文档足够支持第一次验证，但仍需继续核对。

假设不成立时，用户拿不到承诺的能力。

medium · 运行坑

失败模式：runtime: 0.121.12

需要继续复核。

Upgrade or migration may change expected behavior: 0.121.12

medium · 运行坑

失败模式：runtime: 0.121.14

需要继续复核。

Upgrade or migration may change expected behavior: 0.121.14

medium · 维护坑

失败模式：migration: 0.121.13

需要继续复核。

Upgrade or migration may change expected behavior: 0.121.13

medium · 维护坑

维护活跃度未知

未记录 last_activity_observed。

新项目、停更项目和活跃项目会被混在一起，推荐信任度下降。

medium · 安全/权限坑

存在评分风险

缺少可复核演示

风险会影响是否适合普通用户安装。

下一步：先用假工具和临时凭据验证一个最小 agent loop。。

promptfoo

promptfoo 项目 是什么？

一眼判断

它能做什么

安全审查与权限治理

知识库问答

多 Agent 协作

多角色协作流程

项目温度与外部声音

社区讨论

怎么开始使用

先试 Prompt

读项目说明书

带给 AI

沙箱验证

项目说明书

promptfoo 说明书

带给 AI 的上下文包

标准项目包 + 用户可带走资产

继续前检查

不要把试用当真实运行

确认宿主兼容

先隔离验证

踩坑日志与复核重点

失败模式：installation: 0.121.8

失败模式：installation: code-scan-action: 0.1.6

可能修改宿主 AI 配置

失败模式：configuration: 0.121.15

失败模式：configuration: Per-test-case `repeat` option to control how many times individual tests run

来源证据：Per-test-case `repeat` option to control how many times individual tests run

能力判断依赖假设

失败模式：runtime: 0.121.12

失败模式：runtime: 0.121.14

失败模式：migration: 0.121.13

维护活跃度未知

存在评分风险

promptfoo 项目是什么？