观测与评估 · 开源项目

evidently

观测与评估项目，用于把运行日志、质量指标、数据漂移或实验结果转成可复核信号。

可观测性评估质量指标数据漂移实验追踪

最适合谁需要把 AI 应用、数据管道或实验结果接入可复核观测/评估流程的开发者。

判断自己是不是目标用户。

能做什么观测接入路径、指标边界、样本数据脱敏、评估验收和失败排查清单

查看可带走的能力路径。

继续前先用脱敏样本数据验证采集、指标解释和导出/删除路径。

未完成验证前保持审慎。

GitHub 快照7.6k 星标

865 分叉 · 97 贡献者

Doramagic.ai 最后验证日期：2026-06-29 验证方法：来源证据、语义档案、公开页面门禁和静态构建验收。

官方quick start 阅读项目说明书源仓库

快速判断 · 2026-06-29

evidently 项目是什么？

evidently 帮助开发者观察、评估或监控 AI/数据应用的行为和质量。
最适合：需要把 AI 应用、数据管道或实验结果接入可复核观测/评估流程的开发者。
不适合：不适合没有日志/样本数据、不能处理隐私边界，或只想安装一个聊天 UI 的用户。
它给 AI 增加的能力：观测接入路径、指标边界、样本数据脱敏、评估验收和失败排查清单
第一步安全验证：先用脱敏样本数据验证采集、指标解释和导出/删除路径。
当前验证状态：源码、Quick Start 和沙箱安装检查均记录为已通过。
最大风险：可能增加新用户试用和生产接入成本。
证据基础：https://github.com/evidentlyai/evidently、https://github.com/evidentlyai/evidently#readme、项目说明书、踩坑日志

一眼判断

先判断自己是否是目标用户，再决定是否继续。

最适合谁需要把 AI 应用、数据管道或实验结果接入可复核观测/评估流程的开发者。

判断自己是不是目标用户。

核心能力观测接入路径、指标边界、样本数据脱敏、评估验收和失败排查清单

不适合没有日志/样本数据、不能处理隐私边界，或只想安装一个聊天 UI 的用户。

第一步验证先用脱敏样本数据验证采集、指标解释和导出/删除路径。

未完成验证前保持审慎。

它能做什么

把项目翻译成用户能判断的具体能力，而不是 Doramagic 的使用流程。

软件开发与交付

Evidently 是一个开源的机器学习与大语言模型可观测性框架，可用于评估、测试和监控任何 AI 系统或数据流水线，覆盖从表格数据到生成式 AI 的场景，提供 100 多项指标。

ability-1

开源能力构建

帮助用户判断这个项目适合什么工作，而不是只看技术名词。

ability-2

项目项目

说明输入、输出、失败模式和继续前需要复核的边界。

ability-3

可验证工作流

沉淀为 Prompt、说明书、上下文包或预检清单等可带走资产。

ability-4

来源：https://github.com/evidentlyai/evidently、https://github.com/evidentlyai/evidently#readme、项目说明书、踩坑日志。这里只回答“它能帮我做什么”。

项目温度与外部声音

站点快照，非实时质量证明；用于开工前背景判断。

星标7.6k

分叉865

贡献者97

许可证未知

状态可发布

社区讨论

已收录 12 条来源

下面是已采集到的项目级社区讨论来源，来源平台：github。这些外部声音用于帮助判断真实使用反馈，不单独作为质量证明。

01
SemanticSimilarity fails with sentence-transformers > 5.3.0
github / github_issue
02
Make `LLMEval` descriptors plottable from Tests
github / github_issue
03
Legacy metrics to new Report API
github / github_issue
04
Unauthenticated path traversal arbitrary file read in Evidently UI datas
github / github_issue
05
Plotly Graph Objects - Deprecated module is in use.
github / github_issue
06
Protect this repo from AI-generated PRs
github / github_issue
07
Fix semantic similarity in LLM eval tutorial
github / github_issue
08
The fixed value for feel_zeroes in get_binned_data may lead to deviation
github / github_issue
09
Error when trying to create collector config in self-hosted environment
github / github_issue
10
python 3.13 support
github / github_issue
11
Modify scales of plots generated in report
github / github_issue
12
Test suite not visible in monitoring dashboard
github / github_issue

怎么开始使用

先试、再读项目说明书、再带给 AI，最后按官方quick start验证。

先试 Prompt

不安装项目，先体验能力节奏。

预览

读项目说明书

理解输入、输出、失败模式和边界。

说明书

带给 AI

把上下文交给你的宿主 AI 继续工作。

上下文

沙箱验证

进入主力环境前先完成安装入口与风险边界验证。

验证

Python / pip · 官方安装入口pip install evidently

来源：https://github.com/evidentlyai/evidently#readme。验证：已通过。

项目说明书

每个项目结构不同，Doramagic 保留原项目解释结构，并补充边界与踩坑日志。

草稿 · 项目说明书

evidently 说明书

打开完整说明书

https://github.com/evidentlyai/evidently 项目说明书
目录
说明书章节
相关页面
1. 项目定位与核心能力
2. 顶层架构与组件拓扑
3. 评估与测试体系

带给 AI 的上下文包

决定继续后，把项目上下文带给你的宿主 AI。

标准项目包 + 用户可带走资产

这不是营销摘要。它是用户决定继续后，可交给 Claude Code、Codex、Gemini、Cursor 等宿主 AI 的开工前上下文。

下载完整包阅读项目说明书

完整包完整项目包资产带给 AI 的上下文包资产边界与风险卡资产项目说明书资产踩坑日志资产安装前试用 Prompt资产官方quick start证据文件REPO_INSPECTION.json

继续前检查

在复制命令、导入 AI、安装插件前，看清还不能相信什么。

检查 1

不要把试用当真实运行

试用 Prompt 只展示流程，不证明项目已安装或运行。

检查 2

确认宿主兼容

本地 CLI

检查 3

先隔离验证

继续完成沙箱验证和证据复核

先用脱敏样本数据验证采集、指标解释和导出/删除路径。

踩坑日志与复核重点

Doramagic 记录的高风险项优先显示，避免用户把候选能力当成已验证能力。

high · 安装坑

来源证据：RMSE metric in RegressionQualityMetric is wrong

GitHub 社区证据显示该项目存在一个安装相关的待验证问题：RMSE metric in RegressionQualityMetric is wrong

可能增加新用户试用和生产接入成本。

high · 配置坑

来源证据：curr_small_hist and ref_small_hist not available in data drift JOSN object in latest version

GitHub 社区证据显示该项目存在一个配置相关的待验证问题：curr_small_hist and ref_small_hist not available in data drift JOSN object in latest version

可能增加新用户试用和生产接入成本。

high · 运行坑

来源证据：Fix semantic similarity in LLM 评估规则 tutorial

GitHub 社区证据显示该项目存在一个运行相关的待验证问题：Fix semantic similarity in LLM 评估规则 tutorial

可能增加新用户试用和生产接入成本。

high · 运行坑

来源证据：Legacy metrics to new Report API

GitHub 社区证据显示该项目存在一个运行相关的待验证问题：Legacy metrics to new Report API

可能增加新用户试用和生产接入成本。

high · 运行坑

来源证据：Make `LLMEval` descriptors plottable from Tests

GitHub 社区证据显示该项目存在一个运行相关的待验证问题：Make `LLMEval` descriptors plottable from Tests

可能增加新用户试用和生产接入成本。

high · 维护坑

来源证据：New scikit-learn version 1.3.0 breaks EmbeddingsDriftMetric model drift analysis

GitHub 社区证据显示该项目存在一个维护/版本相关的待验证问题：New scikit-learn version 1.3.0 breaks EmbeddingsDriftMetric model drift analysis

可能增加新用户试用和生产接入成本。

high · 维护坑

来源证据：Plotly Graph Objects - Deprecated module is in use.

GitHub 社区证据显示该项目存在一个维护/版本相关的待验证问题：Plotly Graph Objects - Deprecated module is in use.

可能影响升级、迁移或版本选择。

high · 安全/权限坑

来源证据：Protect this repo from AI-generated PRs

GitHub 社区证据显示该项目存在一个安全/权限相关的待验证问题：Protect this repo from AI-generated PRs

可能影响授权、密钥配置或安全边界。

high · 安全/权限坑

来源证据：SemanticSimilarity fails with sentence-transformers > 5.3.0

GitHub 社区证据显示该项目存在一个安全/权限相关的待验证问题：SemanticSimilarity fails with sentence-transformers > 5.3.0

可能影响授权、密钥配置或安全边界。

medium · 安装坑

来源证据：Error when trying to create collector config in self-hosted environment

GitHub 社区证据显示该项目存在一个安装相关的待验证问题：Error when trying to create collector config in self-hosted environment

可能影响升级、迁移或版本选择。

medium · 配置坑

来源证据：python 3.13 support

GitHub 社区证据显示该项目存在一个配置相关的待验证问题：python 3.13 support

可能增加新用户试用和生产接入成本。

medium · 能力坑

能力判断依赖假设

README / 文档足够支持第一次验证，但仍需继续核对。

假设不成立时，用户拿不到承诺的能力。

下一步：先用脱敏样本数据验证采集、指标解释和导出/删除路径。。

evidently

evidently 项目 是什么？

一眼判断

它能做什么

软件开发与交付

开源能力构建

项目项目

可验证工作流

项目温度与外部声音

社区讨论

怎么开始使用

先试 Prompt

读项目说明书

带给 AI

沙箱验证

项目说明书

evidently 说明书

带给 AI 的上下文包

标准项目包 + 用户可带走资产

继续前检查

不要把试用当真实运行

确认宿主兼容

先隔离验证

踩坑日志与复核重点

来源证据：RMSE metric in RegressionQualityMetric is wrong

来源证据：curr_small_hist and ref_small_hist not available in data drift JOSN object in latest version

来源证据：Fix semantic similarity in LLM 评估规则 tutorial

来源证据：Legacy metrics to new Report API

来源证据：Make `LLMEval` descriptors plottable from Tests

来源证据：New scikit-learn version 1.3.0 breaks EmbeddingsDriftMetric model drift analysis

来源证据：Plotly Graph Objects - Deprecated module is in use.

来源证据：Protect this repo from AI-generated PRs

来源证据：SemanticSimilarity fails with sentence-transformers > 5.3.0

来源证据：Error when trying to create collector config in self-hosted environment

来源证据：python 3.13 support

能力判断依赖假设

evidently 项目是什么？