Contextful Report

# https://github.com/Inferensys/contextful 项目说明书生成时间：2026-05-16 04:01:04 UTC ## 目录 - [项目概述](#page-1) - [系统架构](#page-2) - [搜索系统](#page-3) - [上下文包系统](#page-4) - [内存分类账](#page-5) - [数据存储与索引](#page-6) - [MCP 服务器集成](#page-7) - [解析与代码提取](#page-8) - [CLI 命令行工具](#page-9) - [部署与配置](#page-10) ## 项目概述 ### 相关页面相关主题：[系统架构](#page-2), [数据存储与索引](#page-6)

相关源码文件

以下源码文件用于生成本页说明： - [README.md](https://github.com/Inferensys/contextful/blob/main/README.md) - [package.json](https://github.com/Inferensys/contextful/blob/main/package.json) - [src/cli.ts](https://github.com/Inferensys/contextful/blob/main/src/cli.ts) - [src/search.ts](https://github.com/Inferensys/contextful/blob/main/src/search.ts) - [src/mcp-server.ts](https://github.com/Inferensys/contextful/blob/main/src/mcp-server.ts) - [src/report.ts](https://github.com/Inferensys/contextful/blob/main/src/report.ts)

# 项目概述 ## 项目简介 **Contextful**（也称 `cxf` 或 `contextful`）是一个本地代码索引与上下文检索系统，专为 AI 编程助手设计。该项目由 Inferensys 团队开发，旨在解决大型代码库中上下文信息过载的问题，帮助 AI Agent 在代码审查、重构、依赖分析等场景中高效获取精确的证据支撑[资料来源：README.md:1]() Contextful 的核心价值在于将传统的"暴力读取文件"模式转变为"证据驱动的紧凑上下文打包"模式。传统方式下，AI Agent 可能需要读取数十个文件才能理解一个问题，而 Contextful 能够根据查询意图返回一个经过排序、标注来源、符合 token 预算的紧凑证据包[资料来源：README.md:1-5]()。 ### 核心设计理念 Contextful 遵循以下设计原则： 1. **证据优先**：每个返回的上下文都附带文件引用和行号，AI 可以直接溯源 2. **意图感知**：系统能够分类用户查询（如精确搜索、影响分析、架构追踪等） 3. **预算可控**：返回结果严格遵守 token 预算限制，避免信息过载 4. **记忆持久化**：支持将 AI 学习到的经验持久化存储，供后续会话复用 ## 技术架构 ### 整体架构图 ```mermaid graph TD subgraph 输入层 Q[用户查询] W[工作区文件] M[记忆数据] end subgraph 处理层 C[CLI命令解析] S[搜索引擎] G[图数据库] I[索引引擎] end subgraph MCP层 MCP[MCP Server] TOOLS[7大工具集] end subgraph 输出层 P[Evidence Pack] R[Context Report] end Q --> C W --> I I --> G C --> S S --> G M --> S C --> MCP MCP --> TOOLS TOOLS --> P TOOLS --> R S --> P G --> P ``` ### 核心模块 | 模块名称 | 文件路径 | 职责说明 | |---------|---------|---------| | CLI 解析器 | `src/cli.ts` | 命令行参数解析与路由 | | 搜索引擎 | `src/search.ts` | 全文检索、意图分类、结果排序 | | 索引引擎 | `src/extract.ts` | 符号提取、依赖关系图构建 | | MCP 服务 | `src/mcp-server.ts` | MCP 协议实现与工具暴露 | | 报告生成 | `src/report.ts` | 上下文报告与证据包渲染 | ## 功能特性 ### CLI 命令行工具 Contextful 提供完整的命令行界面，支持以下操作[资料来源：src/cli.ts:1-100]()： | 命令 | 功能描述 | 核心参数 | |------|---------|---------| | `cxf index` | 建立或更新工作区索引 | `--workspace`, `--watch` | | `cxf daemon` | 启动本地索引守护进程 | `--workspace` | | `cxf query` | 创建证据包 | `--workspace`, `--budget`, `--json` | | `cxf search` | 搜索上下文 | `--workspace`, `--limit`, `--kind` | | `cxf report` | 生成上下文报告 | `--workspace`, `--format` | | `cxf memory add` | 存储经验教训 | `--claim`, `--evidence`, `--scope` | | `cxf server` | 启动 MCP 服务 | 无 | ### MCP 工具集 Contextful 作为 MCP（Model Context Protocol）服务器，暴露了 7 个核心工具[资料来源：src/mcp-server.ts:1-50]()： | 工具名称 | 功能说明 | |---------|---------| | `context_pack` | 返回排序、标注来源、符合预算的证据包 | | `search_code` | 强大的代码、文档、符号和记忆搜索 | | `trace_path` | 跨文件、符号、模块、配置的图遍历 | | `impact_analysis` | 逆向依赖分析与影响范围识别 | | `why_changed` | 结合 Git 历史的变更原因分析 | | `recall_memory` | 搜索持久化的经验教训 | | `write_lesson` | 写入带证据的经验教训 | ### 搜索意图分类系统能够将用户查询自动分类为以下意图类型[资料来源：src/search.ts:1-30]()： | 意图类型 | 触发关键词 | 典型使用场景 | |---------|-----------|-------------| | `exact` | 文件路径、符号名、正则表达式 | 精确查找定义或文件 | | `code` | 函数、变量、参数、实现 | 代码实现分析 | | `memory` | 记忆、经验、教训、会话 | 经验检索 | | `impact` | 影响、依赖、影响范围 | 变更影响分析 | | `historical` | 为什么、变更、历史、提交 | 变更原因追溯 | | `architectural` | 架构、流程、路径、依赖 | 系统架构分析 | | `docs` | 文档、指南、README、配置 | 文档查找 | | `vague` | 通用查询 | 模糊匹配 | ### 索引能力系统支持多种编程语言的代码索引[资料来源：src/extract.ts:1-80]()： | 语言 | 支持类型 | 提取内容 | |------|---------|---------| | TypeScript/JavaScript | 函数、类、接口、类型 | 函数声明、导出状态、签名 | | Python | 函数、类 | 函数定义、类定义 | | Go | 函数、结构体、接口 | 函数声明、包级导出 | | Rust | 函数、结构体、枚举、特征、impl | 函数、结构体、特征实现 | | Markdown | 标题 | 层级标题结构 | | JSON | 配置键 | 顶层键名 | | Go | import 路径 | 包引用 | | Rust | use/mod 语句 | 模块引用 | ## 工作流程 ### 索引构建流程 ```mermaid graph LR A[文件扫描] --> B[语言检测] B --> C[符号提取] C --> D[依赖关系提取] D --> E[全文分块] E --> F[SQLite存储] F --> G[FTS全文索引] G --> H[图数据库索引] ``` ### 证据包生成流程 ```mermaid graph TD Q[query查询] --> C{意图分类} C -->|code| F1[FTS全文搜索] C -->|impact| F2[图遍历分析] C -->|memory| F3[记忆库搜索] C -->|historical| F4[Git历史查询] F1 --> R[结果合并] F2 --> R F3 --> R F4 --> R R --> D[相关性评分] D --> S[Token预算分配] S --> P[Evidence Pack] P --> CITE[引用标注] P --> GRAPH[图路径连接] P --> CONF[置信度计算] CITE --> OUTPUT[最终输出] GRAPH --> OUTPUT CONF --> OUTPUT ``` ## 依赖关系 ### 核心依赖 | 依赖包 | 版本 | 用途 | |--------|------|------| | `@modelcontextprotocol/sdk` | ^1.29.0 | MCP 协议实现 | | `better-sqlite3` | ^12.10.0 | SQLite 数据库引擎 | | `commander` | ^14.0.3 | CLI 命令解析 | | `fast-glob` | ^3.3.3 | 文件模式匹配 | | `web-tree-sitter` | ^0.20.8 | 语法树解析 | | `zod` | ^4.4.3 | 数据验证 | ### 开发依赖 | 依赖包 | 版本 | 用途 | |--------|------|------| | `typescript` | ^6.0.3 | 类型检查与编译 | | `vitest` | ^4.1.6 | 单元测试框架 | ### 环境要求 - **Node.js 版本**: >= 20[资料来源：package.json:45]() ### 支持的 IDE 项目已针对以下 IDE 和编辑器进行测试[资料来源：package.json:10-18]()： - Windsurf - GitHub Copilot - VS Code - Cline - Roo Code - Continue - Zed ## 项目元数据 | 属性 | 值 | |------|-----| | 项目名称 | contextful | | CLI 别名 | `cxf` | | MCP 名称 | `io.github.Inferensys/contextful` | | 许可证 | MIT | | 仓库地址 | `git+https://github.com/Inferensys/contextful.git` | | 官网 | https://inferensys.github.io/contextful/ | | 问题追踪 | https://github.com/Inferensys/contextful/issues | ## 使用示例 ### 安装与索引 ```bash # 全局安装 npx @inferensys/contextful index --workspace . # 持续监听文件变化 npx @inferensys/contextful index --workspace . --watch ``` ### 查询上下文 ```bash # 基本查询 cxf query "where is user auth handled" --workspace . --budget 2000 # 输出 JSON 格式 cxf query "memory ledger implementation" --workspace . --json ``` ### MCP 服务模式 ```bash # 启动 MCP 服务器 npx @inferensys/contextful server ``` ## 数据模型 ### 证据包结构 ```mermaid classDiagram class EvidencePack { +string id +string query +string scope +SearchIntent intent +string summary +SearchHit[] citations +FileContext[] files +SymbolRecord[] symbols +GraphPath[] graphPaths +SearchHit[] memoryHits +number confidence +number tokenEstimate +number budget +string createdAt } class SearchHit { +string ref +string path +string title +string kind +string excerpt +number rank } class GraphPath { +string from +string to +string edgeType +string filePath +number line } EvidencePack --> SearchHit EvidencePack --> GraphPath ``` ### 记忆条目结构 | 字段 | 类型 | 说明 | |------|------|------| | `id` | string | 唯一标识符 | | `claim` | string | 经验主张 | | `evidenceRefs` | string[] | 证据引用列表 | | `scope` | string | 作用范围（repo/global） | | `confidence` | number | 置信度（0-1） | | `createdAt` | string | 创建时间 | ## 报告功能系统支持生成多格式的上下文报告[资料来源：src/report.ts:1-60]()： | 格式 | 说明 | |------|------| | `markdown` | 默认格式，Markdown 渲染 | | `json` | 结构化 JSON 输出 | | `html` | 独立 HTML 页面，可直接在浏览器打开 | ### 报告包含内容 - **索引状态**：已索引文件数、符号数、块数 - **统计摘要**：Token 使用情况、节省比例估算 - **警告信息**：潜在问题提示（如未索引文件、依赖缺失） - **Token 节省估算**：相对于未使用系统的平均节省比例 --- **相关链接**： - 官方文档：https://inferensys.github.io/contextful/ - 问题反馈：https://github.com/Inferensys/contextful/issues - 源码仓库：https://github.com/Inferensys/contextful --- ## 系统架构 ### 相关页面相关主题：[项目概述](#page-1), [数据存储与索引](#page-6), [MCP 服务器集成](#page-7)

相关源码文件

以下源码文件用于生成本页说明： - [src/mcp-server.ts](https://github.com/Inferensys/contextful/blob/main/src/mcp-server.ts) - [src/indexer.ts](https://github.com/Inferensys/contextful/blob/main/src/indexer.ts) - [src/cli.ts](https://github.com/Inferensys/contextful/blob/main/src/cli.ts) - [src/search.ts](https://github.com/Inferensys/contextful/blob/main/src/search.ts) - [src/extract.ts](https://github.com/Inferensys/contextful/blob/main/src/extract.ts) - [src/report.ts](https://github.com/Inferensys/contextful/blob/main/src/report.ts)

# 系统架构 ## 1. 概述 Contextful 是一个基于语义索引的上下文检索系统，旨在为 AI 代理提供精准、紧凑且有据可查的证据包。系统通过解析、索引代码仓库中的符号、导入关系和文档片段，使代理能够在执行任务时快速获取相关上下文，避免随机文件读取带来的效率低下问题。资料来源：[README.md]() ## 2. 整体架构 Contextful 采用分层架构设计，主要包含以下层次： | 层次 | 职责 | 核心模块 | |------|------|----------| | CLI 层 | 用户交互接口 | `src/cli.ts` | | MCP 服务层 | 与 AI 代理的标准通信协议 | `src/mcp-server.ts` | | 搜索/查询层 | 语义检索和证据包生成 | `src/search.ts` | | 索引层 | 代码解析和数据库写入 | `src/indexer.ts` | | 提取层 | 符号和依赖关系解析 | `src/extract.ts` | | 工具层 | 通用工具函数 | `src/util.ts` | ```mermaid graph TD A[CLI 客户端] --> B[MCP Server] C[AI 代理] --> B B --> D[Search Module] D --> E[Index Layer] E --> F[SQLite Kernel DB] G[File System] --> E D --> G ``` 资料来源：[src/cli.ts:40-65]()，[src/search.ts:1-50]() ## 3. 核心组件详解 ### 3.1 索引子系统 (Indexer) 索引子系统负责扫描工作区文件并将其内容转换为可检索的数据库记录。索引过程包括文件发现、语言检测、符号提取和依赖关系分析四个阶段。 ```mermaid graph LR A[文件扫描] --> B[语言检测] B --> C[符号提取] C --> D[依赖分析] D --> E[分块存储] ``` #### 索引流程 | 阶段 | 功能 | 关键函数 | |------|------|----------| | 文件发现 | 递归扫描目录，忽略隐藏文件和测试文件 | `scanWorkspace()` | | 语言检测 | 根据扩展名识别 TypeScript/JavaScript、Python、Go、Rust 等语言 | `detectLanguage()` | | 符号提取 | 解析函数、类、接口、类型定义 | `extractSymbols()` | | 依赖分析 | 提取 import/require/use 语句 | `extractEdges()` | | 内容分块 | 将文件内容切分为可管理的片段 | `textChunks()` | 资料来源：[src/extract.ts:1-50]()，[src/indexer.ts]() #### 支持的编程语言系统支持多种编程语言的符号提取和依赖分析： | 语言 | 符号类型 | 依赖检测 | |------|----------|----------| | TypeScript/JavaScript | function, class, interface, type, const | `import from`、`require()` | | Python | function, class | `from ... import`、`import` | | Go | function, struct, interface | 字符串字面量导入 | | Rust | function, struct, enum, trait, impl | `use`、`mod` | | Markdown | heading | 无依赖 | | JSON | config-key | 键值对配置 | 资料来源：[src/extract.ts:10-45]() ### 3.2 搜索与查询子系统 (Search) 搜索子系统是系统的核心大脑，负责理解用户查询意图并返回最相关的上下文片段。 ```mermaid graph TD A[用户查询] --> B{意图分类} B -->|code| C[代码搜索] B -->|symbol| D[符号搜索] B -->|impact| E[影响分析] B -->|historical| F[历史追溯] B -->|architectural| G[架构路径] B -->|docs| H[文档检索] C --> I[全文索引查询] D --> J[符号表查询] E --> K[依赖图遍历] F --> L[Git 历史读取] I --> M[BM25 排序] J --> M K --> M M --> N[证据包组装] ``` #### 意图分类器查询意图自动分类为以下类型： | 意图 | 检测关键词 | 搜索模式 | |------|------------|----------| | `code` | how, implement, code, function | 全文搜索 | | `symbol` | class, interface, function name | 精确符号匹配 | | `impact` | impact, affected, depends, blast radius | 逆向依赖分析 | | `historical` | why, changed, commit, history | Git 历史 + 当前代码 | | `architectural` | architecture, flow, path, trace | 图遍历 | | `docs` | resource, docs, documentation, guide | 文档优先 | | `vague` | 通用模糊查询 | 扩展术语 + 全文搜索 | 资料来源：[src/search.ts:1-20]() ### 3.3 证据包系统 (Evidence Pack) 证据包是系统返回给 AI 代理的核心数据结构，包含查询答案的所有支持证据。 ```mermaid graph TD A[createContextPack] --> B[searchContext] B --> C{选择命中} C -->|hits| D[topKByScore] C -->|graphPaths| E[loadGraphPaths] C -->|memoryHits| F[内存记忆] D --> G[组装证据包] E --> G F --> G G --> H[EvidencePack] H --> I[summary 摘要] H --> J[citations 引用] H --> K[symbols 符号] H --> L[graphPaths 路径] ``` #### 证据包数据结构 ```typescript interface EvidencePack { id: string; // 唯一标识符 query: string; // 原始查询 scope: string; // 作用域 (repo|file|session) intent: SearchIntent; // 识别的查询意图 summary: string; // 自然语言摘要 citations: SearchHit[]; // 命中的上下文片段 files: FileReference[]; // 相关文件列表 symbols: SymbolRecord[]; // 匹配的符号 graphPaths: GraphPath[]; // 图路径连接 memoryHits: SearchHit[]; // 记忆系统命中 confidence: number; // 置信度 (0.1-0.92) tokenEstimate: number; // 估算的 token 数量 budget: number; // token 预算上限 createdAt: string; // 创建时间戳 } ``` 资料来源：[src/search.ts:150-200]()，[src/types.ts]() ### 3.4 MCP 服务层 MCP (Model Context Protocol) 服务层提供了与 AI 代理通信的标准接口，使 Contextful 可作为工具被集成到任何兼容 MCP 的代理中。 ```mermaid graph LR A[AI Agent] -->|stdio| B[MCP Server] B -->|context_pack| C[createContextPack] B -->|search_code| D[searchContext] B -->|trace_path| E[traceGraph] B -->|impact_analysis| F[impactAnalysis] B -->|why_changed| G[whyChanged] B -->|recall_memory| H[recallMemory] B -->|write_lesson| I[writeLesson] ``` #### MCP 工具列表 | 工具名 | 功能 | 参数 | |--------|------|------| | `context_pack` | 生成带证据的上下文包 | query, budget, scope | | `search_code` | 搜索代码、文档、符号、记忆 | query, mode, filters | | `trace_path` | 图遍历追踪符号/模块依赖 | from, to, edge_types | | `impact_analysis` | 分析符号/文件的逆向依赖 | symbol_or_file | | `why_changed` | 追溯变更历史 | symbol_or_file | | `recall_memory` | 搜索记忆系统 | query, scope | | `write_lesson` | 写入学习记忆 | claim, evidence_refs | 资料来源：[src/mcp-server.ts]()，[README.md]() ### 3.5 CLI 命令行接口 CLI 模块提供了独立的命令行工具 `cxf` (contextful) 供开发者直接使用。 #### 命令概览 | 命令 | 描述 | 核心选项 | |------|------|----------| | `index` | 索引工作区文件 | `--workspace`, `--watch` | | `daemon` | 启动本地索引守护进程 | `--workspace` | | `query` | 创建证据包 | `--workspace`, `--budget`, `--json` | | `search` | 搜索索引内容 | `--workspace`, `--limit`, `--kind` | | `report` | 生成上下文报告 | `--workspace`, `--format` | | `memory add` | 添加学习记忆 | `--claim`, `--evidence`, `--confidence` | | `server` | 启动 MCP 服务 | 无 | 资料来源：[src/cli.ts:1-80]() #### 使用示例 ```bash # 索引当前目录 cxf index --workspace . # 启动守护进程监听变更 cxf daemon --workspace . # 查询上下文 cxf query "用户认证在哪里处理" --workspace . --budget 2000 # 生成报告 cxf report --workspace . --format markdown ``` ## 4. 数据模型 ### 4.1 内核数据库 (SQLite) 系统使用 SQLite 作为内核数据库，存储以下核心表结构： | 表名 | 用途 | 核心字段 | |------|------|----------| | `files` | 已索引文件元数据 | path, language, hash, indexed_at | | `chunks` | 文件分块内容 | file_id, path, title, text, kind | | `chunks_fts` | 全文搜索索引 | BM25 排序的 FTS5 表 | | `symbols` | 代码符号表 | name, kind, file_path, line, signature | | `edges` | 依赖关系图 | source_path, target_name, edge_type | | `memory` | 学习记忆存储 | id, claim, evidence, confidence, scope | | `queries` | 查询历史 | query, intent, timestamp | 资料来源：[src/indexer.ts]()，[src/search.ts:50-100]() ### 4.2 符号提取数据模型 ```typescript interface SymbolRecord { ref: string; // 文件引用，如 "file:src/auth.ts:1-20" name: string; // 符号名称 kind: string; // 类型：function, class, interface, struct, enum filePath: string; // 文件路径 line: number; // 定义行号 signature?: string; // 函数签名摘要 exported?: boolean; // 是否导出 } interface RawEdge { targetName: string; // 目标名称 targetType: string; // 目标类型：module, config edgeType: string; // 边类型：IMPORTS, CONFIGURES filePath: string; // 源文件路径 line: number; // 行号 } ``` 资料来源：[src/extract.ts:1-30]() ## 5. 工作流程 ### 5.1 索引完整流程 ```mermaid sequenceDiagram participant User participant CLI as CLI/Server participant Indexer participant Extractor participant DB as Kernel DB User->>CLI: cxf index --workspace . CLI->>Indexer: scanWorkspace(workspace) Indexer->>Indexer: 遍历所有文件 loop 每个文件 Indexer->>Extractor: extractSymbols(content, language) Extractor-->>Indexer: symbols[] Indexer->>Extractor: extractEdges(content, language) Extractor-->>Indexer: edges[] Indexer->>Extractor: textChunks(content) Extractor-->>Indexer: chunks[] Indexer->>DB: insert records end DB-->>CLI: indexing complete CLI-->>User: status report ``` ### 5.2 查询证据包生成流程 ```mermaid sequenceDiagram participant Agent participant MCP as MCP Server participant Search participant DB as Kernel DB Agent->>MCP: context_pack("用户认证", budget=2000) MCP->>Search: createContextPack({query, budget}) Search->>Search: classifyQuery(query) -> intent Search->>Search: searchContext({query, intent}) Search->>DB: FTS query + BM25 DB-->>Search: ranked hits Search->>Search: selectTopK(hits, budget) Search->>DB: loadSymbolsForPaths() Search->>DB: loadGraphPaths() Search-->>MCP: EvidencePack MCP-->>Agent: EvidencePack (JSON/Markdown) ``` ## 6. 记忆系统 Contextful 内置了一个证据支持的学习记忆系统，允许 AI 代理保存从查询中获得的经验教训。 ### 6.1 记忆数据结构 | 字段 | 类型 | 说明 | |------|------|------| | `id` | string | 唯一标识符 | | `claim` | string | 经验断言/教训 | | `evidence` | SearchHit[] | 支持证据引用 | | `confidence` | number | 置信度 (0-1) | | `scope` | string | 作用域 (repo/file/session) | | `createdAt` | string | 创建时间 | ### 6.2 记忆查询记忆系统支持通过自然语言查询检索相关经验，与常规代码搜索并行执行，结果合并到证据包中。资料来源：[src/search.ts:200-250]() ## 7. 报告系统报告模块提供工作区的整体上下文分析视图。 ```mermaid graph TD A[generateReport] --> B[getIndexStatus] A --> C[getQueryStats] A --> D[getStaleMemories] B --> E[renderReport] C --> E D --> E E -->|markdown| F[Markdown 格式] E -->|json| G[JSON 格式] E -->|html| H[HTML 格式] ``` ### 7.1 报告内容 | 部分 | 内容 | |------|------| | 状态概览 | 文件数、符号数、索引状态 | | 语言覆盖 | 各编程语言的文件数量统计 | | 热门查询 | 最常使用的查询及意图分布 | | 陈旧记忆 | 需要更新的学习记忆 | | 代理指导 | 最佳实践建议 | | 警告 | 索引过程中的潜在问题 | 资料来源：[src/report.ts:1-100]() ## 8. 扩展机制 ### 8.1 自定义文件类型支持系统通过 `extract.ts` 中的语言检测器支持扩展新的编程语言。需要实现： 1. **符号提取**：匹配函数/类/类型定义的正则表达式 2. **依赖分析**：匹配导入语句的模式 3. **分块策略**：适用于该语言内容的分块算法 ### 8.2 MCP 工具扩展 MCP 服务层支持注册新的工具函数，遵循以下签名： ```typescript interface MCPTool { name: string; description: string; inputSchema: object; handler: (params: object) => Promise