# bm25s - Doramagic AI Context Pack

> 定位：安装前体验与判断资产。它帮助宿主 AI 有一个好的开始，但不代表已经安装、执行或验证目标项目。

## 充分原则

- **充分原则，不是压缩原则**：AI Context Pack 应该充分到让宿主 AI 在开工前理解项目价值、能力边界、使用入口、风险和证据来源；它可以分层组织，但不以最短摘要为目标。
- **压缩策略**：只压缩噪声和重复内容，不压缩会影响判断和开工质量的上下文。

## 给宿主 AI 的使用方式

你正在读取 Doramagic 为 bm25s 编译的 AI Context Pack。请把它当作开工前上下文：帮助用户理解适合谁、能做什么、如何开始、哪些必须安装后验证、风险在哪里。不要声称你已经安装、运行或执行了目标项目。

## Claim 消费规则

- **事实来源**：Repo Evidence + Claim/Evidence Graph；Human Wiki 只提供显著性、术语和叙事结构。
- **事实最低状态**：`supported`
- `supported`：可以作为项目事实使用，但回答中必须引用 claim_id 和证据路径。
- `weak`：只能作为低置信度线索，必须要求用户继续核实。
- `inferred`：只能用于风险提示或待确认问题，不能包装成项目事实。
- `unverified`：不得作为事实使用，应明确说证据不足。
- `contradicted`：必须展示冲突来源，不得替用户强行选择一个版本。

## 它最适合谁

- **正在使用 Claude/Codex/Cursor/Gemini 等宿主 AI 的开发者**：README 或插件配置提到多个宿主 AI。 证据：`README.md` Claim：`clm_0002` supported 0.86

## 它能做什么

- **命令行启动或安装流程**（需要安装后验证）：项目文档中存在可执行命令，真实使用需要在本地或宿主环境中运行这些命令。 证据：`README.md` Claim：`clm_0001` supported 0.86

## 怎么开始

- `pip install bm25s` 证据：`README.md` Claim：`clm_0003` supported 0.86, `clm_0004` supported 0.86, `clm_0006` supported 0.86, `clm_0007` supported 0.86
- `pip install "bm25s[core]"` 证据：`README.md` Claim：`clm_0004` supported 0.86
- `pip install PyStemmer` 证据：`README.md` Claim：`clm_0005` supported 0.86
- `pip install "bm25s[full]"` 证据：`README.md` Claim：`clm_0006` supported 0.86
- `pip install "bm25s[cli]"` 证据：`README.md` Claim：`clm_0007` supported 0.86
- `pip install huggingface_hub` 证据：`README.md` Claim：`clm_0008` supported 0.86

## 继续前判断卡

- **当前建议**：需要管理员/安全审批
- **为什么**：继续前可能涉及密钥、账号、外部服务或敏感上下文，建议先经过管理员或安全审批。

### 30 秒判断

- **现在怎么做**：需要管理员/安全审批
- **最小安全下一步**：先跑 Prompt Preview；若涉及凭证或企业环境，先审批再试装
- **先别相信**：真实输出质量不能在安装前相信。
- **继续会触碰**：命令执行、本地环境或项目文件、环境变量 / API Key

### 现在可以相信

- **适合人群线索：正在使用 Claude/Codex/Cursor/Gemini 等宿主 AI 的开发者**（supported）：有 supported claim 或项目证据支撑，但仍不等于真实安装效果。 证据：`README.md` Claim：`clm_0002` supported 0.86
- **能力存在：命令行启动或安装流程**（supported）：可以相信项目包含这类能力线索；是否适合你的具体任务仍要试用或安装后验证。 证据：`README.md` Claim：`clm_0001` supported 0.86
- **存在 Quick Start / 安装命令线索**（supported）：可以相信项目文档出现过启动或安装入口；不要因此直接在主力环境运行。 证据：`README.md` Claim：`clm_0003` supported 0.86, `clm_0004` supported 0.86, `clm_0006` supported 0.86, `clm_0007` supported 0.86

### 现在还不能相信

- **真实输出质量不能在安装前相信。**（unverified）：Prompt Preview 只能展示引导方式，不能证明真实项目中的结果质量。
- **宿主 AI 版本兼容性不能在安装前相信。**（unverified）：Claude、Cursor、Codex、Gemini 等宿主加载规则和版本差异必须在真实环境验证。
- **不会污染现有宿主 AI 行为，不能直接相信。**（inferred）：Skill、plugin、AGENTS/CLAUDE/GEMINI 指令可能改变宿主 AI 的默认行为。
- **可安全回滚不能默认相信。**（unverified）：除非项目明确提供卸载和恢复说明，否则必须先在隔离环境验证。
- **真实安装后是否与用户当前宿主 AI 版本兼容？**（unverified）：兼容性只能通过实际宿主环境验证。
- **项目输出质量是否满足用户具体任务？**（unverified）：安装前预览只能展示流程和边界，不能替代真实评测。
- **安装命令是否需要网络、权限或全局写入？**（unverified）：这影响企业环境和个人环境的安装风险。 证据：`README.md`

### 继续会触碰什么

- **命令执行**：包管理器、网络下载、本地插件目录、项目配置或用户主目录。 原因：运行第一条命令就可能产生环境改动；必须先判断是否值得跑。 证据：`README.md`
- **本地环境或项目文件**：安装结果、插件缓存、项目配置或本地依赖目录。 原因：安装前无法证明写入范围和回滚方式，需要隔离验证。 证据：`README.md`
- **环境变量 / API Key**：项目入口文档明确出现 API key、token、secret 或账号凭证配置。 原因：如果真实安装需要凭证，应先使用测试凭证并经过权限/合规判断。 证据：`README.md`, `examples/index_to_hf.py`
- **宿主 AI 上下文**：AI Context Pack、Prompt Preview、Skill 路由、风险规则和项目事实。 原因：导入上下文会影响宿主 AI 后续判断，必须避免把未验证项包装成事实。

### 最小安全下一步

- **先跑 Prompt Preview**：用安装前交互式试用判断工作方式是否匹配，不需要授权或改环境。（适用：任何项目都适用，尤其是输出质量未知时。）
- **只在隔离目录或测试账号试装**：避免安装命令污染主力宿主 AI、真实项目或用户主目录。（适用：存在命令执行、插件配置或本地写入线索时。）
- **不要使用真实生产凭证**：环境变量/API key 一旦进入宿主或工具链，可能产生账号和合规风险。（适用：出现 API、TOKEN、KEY、SECRET 等环境线索时。）
- **安装后只验证一个最小任务**：先验证加载、兼容、输出质量和回滚，再决定是否深用。（适用：准备从试用进入真实工作流时。）

### 退出方式

- **保留安装前状态**：记录原始宿主配置和项目状态，后续才能判断是否可恢复。
- **记录安装命令和写入路径**：没有明确卸载说明时，至少要知道哪些目录或配置需要手动清理。
- **准备撤销测试 API key 或 token**：测试凭证泄露或误用时，可以快速止损。
- **如果没有回滚路径，不进入主力环境**：不可回滚是继续前阻断项，不应靠信任或运气继续。

## 哪些只能预览

- 解释项目适合谁和能做什么
- 基于项目文档演示典型对话流程
- 帮助用户判断是否值得安装或继续研究

## 哪些必须安装后验证

- 真实安装 Skill、插件或 CLI
- 执行脚本、修改本地文件或访问外部服务
- 验证真实输出质量、性能和兼容性

## 边界与风险判断卡

- **把安装前预览误认为真实运行**：用户可能高估项目已经完成的配置、权限和兼容性验证。 处理方式：明确区分 prompt_preview_can_do 与 runtime_required。 Claim：`clm_0009` inferred 0.45
- **命令执行会修改本地环境**：安装命令可能写入用户主目录、宿主插件目录或项目配置。 处理方式：先在隔离环境或测试账号中运行。 证据：`README.md` Claim：`clm_0010` supported 0.86
- **待确认**：真实安装后是否与用户当前宿主 AI 版本兼容？。原因：兼容性只能通过实际宿主环境验证。
- **待确认**：项目输出质量是否满足用户具体任务？。原因：安装前预览只能展示流程和边界，不能替代真实评测。
- **待确认**：安装命令是否需要网络、权限或全局写入？。原因：这影响企业环境和个人环境的安装风险。

## 开工前工作上下文

### 加载顺序

- 先读取 how_to_use.host_ai_instruction，建立安装前判断资产的边界。
- 读取 claim_graph_summary，确认事实来自 Claim/Evidence Graph，而不是 Human Wiki 叙事。
- 再读取 intended_users、capabilities 和 quick_start_candidates，判断用户是否匹配。
- 需要执行具体任务时，优先查 role_skill_index，再查 evidence_index。
- 遇到真实安装、文件修改、网络访问、性能或兼容性问题时，转入 risk_card 和 boundaries.runtime_required。

### 任务路由

- **命令行启动或安装流程**：先说明这是安装后验证能力，再给出安装前检查清单。 边界：必须真实安装或运行后验证。 证据：`README.md` Claim：`clm_0001` supported 0.86

### 上下文规模

- 文件总数：43
- 重要文件覆盖：37/43
- 证据索引条目：35
- 角色 / Skill 条目：2

### 证据不足时的处理

- **missing_evidence**：说明证据不足，要求用户提供目标文件、README 段落或安装后验证记录；不要补全事实。
- **out_of_scope_request**：说明该任务超出当前 AI Context Pack 证据范围，并建议用户先查看 Human Manual 或真实安装后验证。
- **runtime_request**：给出安装前检查清单和命令来源，但不要替用户执行命令或声称已执行。
- **source_conflict**：同时展示冲突来源，标记为待核实，不要强行选择一个版本。

## Prompt Recipes

### 适配判断

- 目标：判断这个项目是否适合用户当前任务。
- 预期输出：适配结论、关键理由、证据引用、安装前可预览内容、必须安装后验证内容、下一步建议。

```text
请基于 bm25s 的 AI Context Pack，先问我 3 个必要问题，然后判断它是否适合我的任务。回答必须包含：适合谁、能做什么、不能做什么、是否值得安装、证据来自哪里。所有项目事实必须引用 evidence_refs、source_paths 或 claim_id。
```

### 安装前体验

- 目标：让用户在安装前感受核心工作流，同时避免把预览包装成真实能力或营销承诺。
- 预期输出：一段带边界标签的体验剧本、安装后验证清单和谨慎建议；不含真实运行承诺或强营销表述。

```text
请把 bm25s 当作安装前体验资产，而不是已安装工具或真实运行环境。

请严格输出四段：
1. 先问我 3 个必要问题。
2. 给出一段“体验剧本”：用 [安装前可预览]、[必须安装后验证]、[证据不足] 三种标签展示它可能如何引导工作流。
3. 给出安装后验证清单：列出哪些能力只有真实安装、真实宿主加载、真实项目运行后才能确认。
4. 给出谨慎建议：只能说“值得继续研究/试装”“先补充信息后再判断”或“不建议继续”，不得替项目背书。

硬性边界：
- 不要声称已经安装、运行、执行测试、修改文件或产生真实结果。
- 不要写“自动适配”“确保通过”“完美适配”“强烈建议安装”等承诺性表达。
- 如果描述安装后的工作方式，必须使用“如果安装成功且宿主正确加载 Skill，它可能会……”这种条件句。
- 体验剧本只能写成“示例台词/假设流程”：使用“可能会询问/可能会建议/可能会展示”，不要写“已写入、已生成、已通过、正在运行、正在生成”。
- Prompt Preview 不负责给安装命令；如用户准备试装，只能提示先阅读 Quick Start 和 Risk Card，并在隔离环境验证。
- 所有项目事实必须来自 supported claim、evidence_refs 或 source_paths；inferred/unverified 只能作风险或待确认项。

```

### 角色 / Skill 选择

- 目标：从项目里的角色或 Skill 中挑选最匹配的资产。
- 预期输出：候选角色或 Skill 列表，每项包含适用场景、证据路径、风险边界和是否需要安装后验证。

```text
请读取 role_skill_index，根据我的目标任务推荐 3-5 个最相关的角色或 Skill。每个推荐都要说明适用场景、可能输出、风险边界和 evidence_refs。
```

### 风险预检

- 目标：安装或引入前识别环境、权限、规则冲突和质量风险。
- 预期输出：环境、权限、依赖、许可、宿主冲突、质量风险和未知项的检查清单。

```text
请基于 risk_card、boundaries 和 quick_start_candidates，给我一份安装前风险预检清单。不要替我执行命令，只说明我应该检查什么、为什么检查、失败会有什么影响。
```

### 宿主 AI 开工指令

- 目标：把项目上下文转成一次对话开始前的宿主 AI 指令。
- 预期输出：一段边界明确、证据引用明确、适合复制给宿主 AI 的开工前指令。

```text
请基于 bm25s 的 AI Context Pack，生成一段我可以粘贴给宿主 AI 的开工前指令。这段指令必须遵守 not_runtime=true，不能声称项目已经安装、运行或产生真实结果。
```

## 角色 / Skill 索引

- 共索引 2 个角色 / Skill / 项目文档条目。

- **Installation**（project_doc）：BM25S or BM25-Sparse is an ultrafast implementation of BM25 in pure Python, powered by Numpy 激活提示：当用户需要理解项目结构、安装方式或边界时参考。 证据：`README.md`
- **🛠️ Installation**（project_doc）：The easiest way to add powerful search to your Python projects or command line. 激活提示：当用户需要理解项目结构、安装方式或边界时参考。 证据：`bm25s/high_level/README.md`

## 证据索引

- 共索引 35 条证据。

- **Installation**（documentation）：BM25S or BM25-Sparse is an ultrafast implementation of BM25 in pure Python, powered by Numpy 证据：`README.md`
- **🛠️ Installation**（documentation）：The easiest way to add powerful search to your Python projects or command line. 证据：`bm25s/high_level/README.md`
- **License**（source_file）：Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files the "Software" , to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: 证据：`LICENSE`
- **Step 1: Calculate the number of documents containing each token**（source_file）：NUMBA AVAILABLE = True ⋮---- njit = lambda x: x NUMBA AVAILABLE = False ⋮---- SCIPY AVAILABLE = True ⋮---- SCIPY AVAILABLE = False ⋮---- retrieve numba functional = None def faketqdm args, kwargs ⋮---- tqdm = faketqdm ⋮---- logger = logging.getLogger "bm25s" ⋮---- class Results NamedTuple ⋮---- documents: np.ndarray scores: np.ndarray def len self ⋮---- @classmethod def merge cls, results: List "Results" - "Results" ⋮---- documents = np.concatenate r.documents for r in results , axis=0 scores = np.concatenate r.scores for r in results , axis=0 ⋮---- unique tokens = set ⋮---- def is list of list of type obj, type =int ⋮---- first elem = obj 0 ⋮---- first token = first elem 0 ⋮---- def is tup… 证据：`bm25s/__init__.py`
- **Hf**（source_file）：def faketqdm args, kwargs ⋮---- tqdm = faketqdm ⋮---- README TEMPLATE = """--- def batch tokenize tokenizer, texts, add special tokens=False ⋮---- tokenizer kwargs = dict tokenized = tokenizer texts, tokenizer kwargs output = ⋮---- def is dir empty local save dir def can save locally local save dir, overwrite local: bool - bool class TokenizerHF Tokenizer ⋮---- api = HfApi token=token repo url = api.create repo repo id = repo url.repo id saving locally = can save locally local dir, overwrite local ⋮---- save dir = local dir ⋮---- save dir = tempfile.mkdtemp ⋮---- repo url = api.repo info repo id ⋮---- snapshot = api.snapshot download ⋮---- class BM25HF BM25 ⋮---- num docs = self.scores "num… 证据：`bm25s/hf.py`
- **Scoring**（source_file）：def faketqdm args, kwargs ⋮---- tqdm = faketqdm ⋮---- HAS NUMBA = True ⋮---- HAS NUMBA = False def njit args, kwargs ⋮---- def decorator func ⋮---- unique tokens = set unique tokens doc frequencies = {token: 0 for token in unique tokens} ⋮---- shared tokens = unique tokens.intersection doc tokens ⋮---- n vocab = len doc frequencies idf array = np.zeros n vocab, dtype=dtype ⋮---- nonoccurrence array = np.zeros n vocab, dtype=dtype ⋮---- idf = compute idf fn df, N=n docs tfc = calculate tfc fn ⋮---- def score tfc robertson tf array, l d, l avg, k1, b, delta=None def score tfc lucene tf array, l d, l avg, k1, b, delta=None def score tfc atire tf array, l d, l avg, k1, b, delta=None def score t… 证据：`bm25s/scoring.py`
- **Selection**（source_file）：JAX IS AVAILABLE = False ⋮---- JAX IS AVAILABLE = True = jax.lax.top k np.array 0 5 , 1 def topk numpy query scores, k, sorted ⋮---- partitioned ind = np.argpartition query scores, -k partitioned ind = partitioned ind.take indices=range -k, 0 partitioned scores = np.take query scores, partitioned ind ⋮---- sorted trunc ind = np.flip np.argsort partitioned scores ind = partitioned ind sorted trunc ind query scores = partitioned scores sorted trunc ind ⋮---- ind = partitioned ind query scores = partitioned scores ⋮---- def topk jax query scores, k ⋮---- topk scores = np.asarray topk scores topk indices = np.asarray topk indices ⋮---- def topk query scores, k, backend="auto", sorted=True ⋮----… 证据：`bm25s/selection.py`
- **Stopwords**（source_file）：STOPWORDS EN = STOPWORDS EN PLUS = STOPWORDS GERMAN = STOPWORDS DUTCH = STOPWORDS FRENCH = STOPWORDS SPANISH = STOPWORDS PORTUGUESE = STOPWORDS ITALIAN = STOPWORDS RUSSIAN = STOPWORDS SWEDISH = STOPWORDS NORWEGIAN = STOPWORDS CHINESE = STOPWORDS TURKISH = STOPWORDS KOREAN = 证据：`bm25s/stopwords.py`
- **Index And Retrieve With Numba**（source_file）：def main dataset='scifact', dataset dir='./datasets' ⋮---- queries = ⋮---- corpus: dict = bm25s.utils.beir.load corpus dataset=dataset, save dir=dataset dir corpus records = corpus lst = r "title" + " " + r "text" for r in corpus records retriever = bm25s.BM25 corpus=corpus records, backend='numba' ⋮---- stemmer = Stemmer.Stemmer "english" tokenizer = bm25s.tokenization.Tokenizer stemmer=stemmer queries tokenized = tokenizer.tokenize queries results = retriever.retrieve queries tokenized, k=3 result = results.documents 0 证据：`examples/index_and_retrieve_with_numba.py`
- **get memory usage**（source_file）：def main save dir="datasets", index dir="bm25s indices/", dataset="nq" ⋮---- index dir = Path index dir / dataset ⋮---- corpus = bm25s.utils.beir.load corpus dataset, save dir=save dir corpus records = corpus lst = r "title" + " " + r "text" for r in corpus records stemmer = Stemmer.Stemmer "english" tokenizer = bm25s.tokenization.Tokenizer stemmer=stemmer corpus tokens = tokenizer.tokenize corpus lst, return as="tuple" retriever = bm25s.BM25 corpus=corpus records, backend="numba" ⋮---- get memory usage mem use = bm25s.utils.benchmark.get max memory usage 证据：`examples/index_nq.py`
- **you can do the same with a tokenizer class**（source_file）：def main user, save dir="datasets", repo name="bm25s-scifact-testing", dataset="scifact" ⋮---- data path = beir.util.download and unzip BASE URL.format dataset , save dir ⋮---- corpus records = corpus lst = r "title" + " " + r "text" for r in corpus records stemmer = Stemmer.Stemmer "english" corpus tokenized = bm25s.tokenize corpus lst, stemmer=stemmer retriever = bm25s.hf.BM25HF ⋮---- hf token = os.getenv "HF TOKEN" ⋮---- you can do the same with a tokenizer class tokenizer = bm25s.hf.TokenizerHF stemmer=stemmer ⋮---- you can also load the retriever and tokenizer from the hub tokenizer new = bm25s.hf.TokenizerHF stemmer=stemmer, stopwords= ⋮---- You can do the same for stopwords stopwords… 证据：`examples/index_to_hf.py`
- **Tokenize the queries**（source_file）：def main user, repo name="bm25s-scifact-index" ⋮---- queries = retriever = bm25s.hf.BM25HF.load from hub Tokenize the queries stemmer = Stemmer.Stemmer "english" queries tokenized = bm25s.tokenize queries, stemmer=stemmer results = retriever.retrieve queries tokenized, k=3 result = results.documents 0 证据：`examples/retrieve_from_hf.py`
- **Retrieve With Numba Hf**（source_file）：def main repo name="xhluca/bm25s-fiqa-index" ⋮---- queries = retriever = bm25s.hf.BM25HF.load from hub ⋮---- stemmer = Stemmer.Stemmer "english" tokenizer = bm25s.tokenization.Tokenizer stemmer=stemmer queries tokenized = tokenizer.tokenize queries results = retriever.retrieve queries tokenized, k=3 result = results.documents 0 证据：`examples/retrieve_with_numba_hf.py`
- **Save And Reload End To End**（source_file）：corpus = ⋮---- tokenizer = Tokenizer splitter=lambda x: x.split corpus tokens = tokenizer.tokenize corpus, return as="tuple" retriever = bm25s.BM25 corpus=corpus ⋮---- reloaded retriever = bm25s.BM25.load "bm25s index readme", load corpus=True reloaded tokenizer = Tokenizer splitter=lambda x: x.split ⋮---- queries = "widely used text ranking function" query tokens = reloaded tokenizer.tokenize queries, update vocab=False 证据：`examples/save_and_reload_end_to_end.py`
- **Setup**（source_file）：package name = "bm25s" base dir = Path file .resolve .parent def normalize version value ⋮---- version = value.strip ⋮---- version = version.rsplit "/", 1 -1 ⋮---- version = version 1: ⋮---- def version from environment ⋮---- value = os.environ.get key ⋮---- value = os.environ.get "GITHUB REF NAME" ⋮---- github ref = os.environ.get "GITHUB REF", "" ⋮---- def version from pkg info package dir ⋮---- pkg info = package dir / "PKG-INFO" ⋮---- def git describe package dir, args def version from git package dir ⋮---- exact tag = git describe package dir, "--exact-match" ⋮---- description = git describe package dir, "--long" ⋮---- match = re.match r" .+ - \d+ -g 0-9a-f + $", description ⋮---- vers… 证据：`setup.py`
- **Init**（source_file）：class BM25Search ⋮---- self.leave progress = leave progress = False self.show progress = show progress = True ⋮---- stemmer = Stemmer.Stemmer "english" bm25 kwargs default = dict tokenizer kwargs default = dict ⋮---- tokenized = self.tokenizer.tokenize ⋮---- create empty token = True ⋮---- create empty token = False ⋮---- def search self, queries: List str , k: int = 10, n jobs: int = 1 ⋮---- num docs = len self.corpus ⋮---- k = num docs tokenized queries = self.tokenizer.tokenize non empty indices = empty indices = ⋮---- results = None len queries ⋮---- non empty ids = tokenized queries.ids i for i in non empty indices non empty tokenized = self.tokenizer.to tokenized tuple non empty ids ⋮… 证据：`bm25s/high_level/__init__.py`
- **Setup**（source_file）：current dir = os.path.dirname os.path.abspath file ⋮---- package name = "BM25" base dir = Path current dir def normalize version value ⋮---- version = value.strip ⋮---- version = version.rsplit "/", 1 -1 ⋮---- version = version 1: ⋮---- def version from environment ⋮---- value = os.environ.get key ⋮---- value = os.environ.get "GITHUB REF NAME" ⋮---- github ref = os.environ.get "GITHUB REF", "" ⋮---- def version from pkg info package dir ⋮---- pkg info = package dir / "PKG-INFO" ⋮---- def git describe package dir, args def version from git package dir ⋮---- exact tag = git describe package dir, "--exact-match" ⋮---- description = git describe package dir, "--long" ⋮---- match = re.match r" .… 证据：`bm25s/high_level/setup.py`
- **Init**（source_file）：all = "server" 证据：`bm25s/mcp/__init__.py`
- **Retrieve Utils**（source_file）：compute relevance from scores jit ready = njit compute relevance from scores jit ready ⋮---- N = len query pointers - 1 topk scores = np.zeros N, k , dtype=dtype topk indices = np.zeros N, k , dtype=int dtype ⋮---- query tokens single = query tokens ids flat query pointers i : query pointers i + 1 scores single = compute relevance from scores jit ready ⋮---- nonoccurrence scores = nonoccurrence array query tokens single .sum ⋮---- scores single = scores single weight mask ⋮---- error msg = "The numba backend must be selected when retrieving using the numba backend. Please choose a different backend or change the backend selection parameter to numba." ⋮---- allowed return as = "tuple", "docu… 证据：`bm25s/numba/retrieve_utils.py`
- **Selection**（source_file）：@njit def numba unsorted top k legacy array: np.ndarray, k: int ⋮---- top k values = np.zeros k, dtype=np.float32 top k indices = np.zeros k, dtype=np.int32 min value = 0.0 min value idx = 0 ⋮---- min value idx = top k values.argmin min value = top k values min value idx ⋮---- @njit def sift down values, indices, startpos, pos ⋮---- new value = values pos new index = indices pos ⋮---- parentpos = pos - 1 1 parent value = values parentpos ⋮---- pos = parentpos ⋮---- @njit def sift up values, indices, pos, length ⋮---- startpos = pos ⋮---- childpos = 2 pos + 1 ⋮---- rightpos = childpos + 1 ⋮---- childpos = rightpos ⋮---- pos = childpos ⋮---- @njit def heap push values, indices, value, index,… 证据：`bm25s/numba/selection.py`
- **Check if it's a name**（source_file）：def get user indices dir def list user indices ⋮---- indices dir = get user indices dir ⋮---- indices = ⋮---- def select index interactive ⋮---- indices = list user indices ⋮---- console = Console table = Table title="Available Indices", show header=True, header style="bold cyan" ⋮---- choice = Prompt.ask ⋮---- idx = int choice - 1 ⋮---- selected = indices idx ⋮---- Check if it's a name ⋮---- Fallback to simple text-based selection ⋮---- choice = input "Select an index number or name : " .strip ⋮---- def index command args ⋮---- """ Index documents from a file and save the index to disk. Uses the high-level API for loading and indexing. """ ⋮---- input file = Path args.file ⋮---- Determine… 证据：`bm25s/terminal/__init__.py`
- **Benchmark**（source_file）：logger = logging.getLogger name ⋮---- resource = None def get max memory usage format="GB" ⋮---- usage kb = resource.getrusage resource.RUSAGE SELF .ru maxrss ⋮---- class Timer ⋮---- def init self, prefix="", precision=4 def start self, name ⋮---- start time = time.monotonic ⋮---- def stop self, name, show=False, n total=None ⋮---- stop time = time.monotonic r = self.results name ⋮---- def pause self, name ⋮---- paused time = time.monotonic ⋮---- def resume self, name def is paused self, name def is resumed self, name def has started self, name def has stopped self, name def elapsed self, name, precision=None ⋮---- precision = self.precision ⋮---- def show self, name, offset=0, n total=None… 证据：`bm25s/utils/benchmark.py`
- **Byte-compiled / optimized / DLL files**（source_file）：Byte-compiled / optimized / DLL files pycache / .py cod $py.class 证据：`.gitignore`
- **Cli**（source_file）：def main ⋮---- parser = argparse.ArgumentParser description="BM25S CLI" subparsers = parser.add subparsers dest="command", help="Available commands" mcp parser = subparsers.add parser "mcp", help="MCP Server commands" mcp subparsers = mcp parser.add subparsers dest="mcp command", help="MCP actions" launch parser = mcp subparsers.add parser "launch", help="Launch the MCP server" ⋮---- index parser = subparsers.add parser ⋮---- search parser = subparsers.add parser ⋮---- args = parser.parse args 证据：`bm25s/cli.py`
- **Exception handling for stemmer when we are using PyStemmer, which has a stemWords method**（source_file）：def faketqdm args, kwargs ⋮---- tqdm = faketqdm ⋮---- class Tokenized NamedTuple ⋮---- ids: List List int vocab: Dict str, int def repr self ⋮---- lines print max num = 10 single doc print max len = 10 lines = "Tokenized ", ' "ids": ' ⋮---- preview = document :single doc print max len ⋮---- vocab keys = sorted list self.vocab.keys ⋮---- val = self.vocab key ⋮---- class Tokenizer ⋮---- """ Tokenizer class for tokenizing a list of strings and converting them to token IDs. Parameters ---------- lower : bool, optional Whether to convert the text to lowercase before tokenization splitter : Union str, Callable , optional If a string is provided, the tokenizer will interpret it as a regex pattern,… 证据：`bm25s/tokenization.py`
- **Version**（source_file）：DISTRIBUTION NAME = "bm25s" FALLBACK VERSION = "0.0.0" def discover version - str version = discover version 证据：`bm25s/version.py`
- **Evaluate On Beir**（source_file）：def postprocess results for eval results, scores, query ids ⋮---- results record = result dict for eval = { ⋮---- def run benchmark dataset, save dir="datasets" ⋮---- data path = beir.util.download and unzip BASE URL.format dataset , save dir split = "test" if dataset != "msmarco" else "dev" ⋮---- stemmer = Stemmer.Stemmer "english" corpus tokens = bm25s.tokenize ⋮---- query tokens = bm25s.tokenize model = bm25s.BM25 method="lucene", k1=1.2, b=0.75 ⋮---- results dict = postprocess results for eval queried results, queried scores, qids 证据：`examples/evaluate_on_beir.py`
- **You can save the arrays to a directory...**（source_file）：corpus json = corpus text = doc "text" for doc in corpus json corpus tokens = bm25s.tokenize corpus text, stopwords="en" retriever = bm25s.BM25 corpus=corpus json ⋮---- query = "does the fish purr like a cat?" query tokens = bm25s.tokenize query ⋮---- You can save the arrays to a directory... Note that this will fail if your corpus passed to BM25 corpus=... is not serializable ⋮---- reloaded retriever = bm25s.BM25.load "animal index bm25", load corpus=True 证据：`examples/index_with_metadata.py`
- **Nltk Stemmer**（source_file）：class NLTKMultiStemmer ⋮---- def init self, stemmer name='porter', language='english' def stem self, tokens - list def set stemmer self, stemmer name, language='english' nltk stemmer = NLTKMultiStemmer corpus tokens = bm25s.tokenize corpus, stopwords=None, stemmer=nltk stemmer.stem 证据：`examples/nltk_stemmer.py`
- **Retrieve Nq**（source_file）：def main index dir="bm25s indices", data dir="datasets", dataset="nq", split="test", mmap=True ⋮---- index dir = Path index dir / dataset ⋮---- timer = bm25s.utils.benchmark.Timer " BM25S " queries = bm25s.utils.beir.load queries dataset, save dir=data dir qrels = bm25s.utils.beir.load qrels dataset, split=split, save dir=data dir queries lst = v "text" for k, v in queries.items if k in qrels ⋮---- stemmer = Stemmer.Stemmer "english" queries tokenized = bm25s.tokenize queries lst, stemmer=stemmer, return ids=False mem use = bm25s.utils.benchmark.get max memory usage ⋮---- t = timer.start "Loading index" retriever = bm25s.BM25.load index dir, mmap=mmap, load corpus=True ⋮---- num docs = retr… 证据：`examples/retrieve_nq.py`
- **Tokenize the queries**（source_file）：def main index dir="bm25s indices/", data dir="datasets", dataset="nq", split="test", bsize=20 ⋮---- index dir = Path index dir / dataset mmap = True ⋮---- timer = bm25s.utils.benchmark.Timer " BM25S " queries = bm25s.utils.beir.load queries dataset, save dir=data dir qrels = bm25s.utils.beir.load qrels dataset, split=split, save dir=data dir queries lst = v "text" for k, v in queries.items if k in qrels ⋮---- Tokenize the queries stemmer = Stemmer.Stemmer "english" queries tokenized = bm25s.tokenize queries lst, stemmer=stemmer, return ids=False mem use = bm25s.utils.benchmark.get max memory usage ⋮---- t = timer.start "Loading index" retriever = bm25s.BM25.load index dir, mmap=mmap, load… 证据：`examples/retrieve_nq_with_batching.py`
- **Retrieve With Numba Advanced**（source_file）：def main repo name="xhluca/bm25s-fiqa-index" ⋮---- queries = retriever = bm25s.hf.BM25HF.load from hub stemmer = Stemmer.Stemmer "english" queries tokenized = bm25s.tokenize queries, stemmer=stemmer ⋮---- results = retriever.retrieve queries tokenized, k=3, backend selection="numba" result = results.documents 0 证据：`examples/retrieve_with_numba_advanced.py`
- **Verify correct document retrieved**（source_file）：def main ⋮---- data dir = "tests/data" ⋮---- txt path = os.path.join data dir, "dummy.txt" corpus = bm25.load txt path retriever = bm25.index corpus query = "test" results = retriever.search query , k=2 ⋮---- Verify correct document retrieved ⋮---- csv path = os.path.join data dir, "dummy.csv" corpus = bm25.load csv path, document column="text" ⋮---- query = "fast" results = retriever.search query , k=1 ⋮---- jsonl path = os.path.join data dir, "dummy.jsonl" corpus = bm25.load jsonl path, document column="text" ⋮---- query = "world" 证据：`examples/simple_load.py`
- **Tokenize Multiprocess**（source_file）：def tokenize fn texts def chunk lst, n def unchunk lsts ⋮---- dataset = "nq" save dir = "datasets" split = "test" num processes = 4 data path = beir.util.download and unzip BASE URL.format dataset , save dir ⋮---- timer = Timer " Tokenization " t = timer.start "single-threaded" tokens = bm25s.tokenize texts=corpus lst, return ids=False ⋮---- corpus chunks = chunk corpus lst, 1000 t = timer.start f"num processes={num processes}" ⋮---- tokens lst chunks = pool.map tokenize fn, corpus chunks ⋮---- tokens lst final = unchunk tokens lst chunks 证据：`examples/tokenize_multiprocess.py`
- **the same can be done for stopwords**（source_file）：def main data dir="datasets", dataset="scifact" ⋮---- data path = beir.util.download and unzip BASE URL.format dataset , data dir loader = GenericDataLoader data folder=data path ⋮---- corpus lst = doc "title" + " " + doc "text" for doc in corpus.values queries lst = list queries.values stemmer = Stemmer.Stemmer "english" tokenizer = Tokenizer ⋮---- splitter=r"\w+", by default r" ?u \b\w\w+\b", can also be a function ⋮---- corpus tokenized = tokenizer.tokenize tokenizer stream = tokenizer.streaming tokenize query ids = ⋮---- res = tokenizer.to tokenized tuple query ids ⋮---- query strs = tokenizer.decode query ids ⋮---- retriever = bm25s.BM25 ⋮---- vocab dict = tokenizer.get vocab dict ⋮---… 证据：`examples/tokenizer_class.py`

## 宿主 AI 必须遵守的规则

- **把本资产当作开工前上下文，而不是运行环境。**：AI Context Pack 只包含证据化项目理解，不包含目标项目的可执行状态。 证据：`README.md`, `bm25s/high_level/README.md`, `LICENSE`
- **回答用户时区分可预览内容与必须安装后才能验证的内容。**：安装前体验的消费者价值来自降低误装和误判，而不是伪装成真实运行。 证据：`README.md`, `bm25s/high_level/README.md`, `LICENSE`

## 用户开工前应该回答的问题

- 你准备在哪个宿主 AI 或本地环境中使用它？
- 你只是想先体验工作流，还是准备真实安装？
- 你最在意的是安装成本、输出质量、还是和现有规则的冲突？

## 验收标准

- 所有能力声明都能回指到 evidence_refs 中的文件路径。
- AI_CONTEXT_PACK.md 没有把预览包装成真实运行。
- 用户能在 3 分钟内看懂适合谁、能做什么、如何开始和风险边界。

---

## Doramagic Context Augmentation

下面内容用于强化 Repomix/AI Context Pack 主体。Human Manual 只提供阅读骨架；踩坑日志会被转成宿主 AI 必须遵守的工作约束。

## Human Manual 骨架

使用规则：这里只是项目阅读路线和显著性信号，不是事实权威。具体事实仍必须回到 repo evidence / Claim Graph。

宿主 AI 硬性规则：
- 不得把页标题、章节顺序、摘要或 importance 当作项目事实证据。
- 解释 Human Manual 骨架时，必须明确说它只是阅读路线/显著性信号。
- 能力、安装、兼容性、运行状态和风险判断必须引用 repo evidence、source path 或 Claim Graph。

- **项目概览、安装与快速开始**：importance `high`
  - source_paths: README.md, setup.py, bm25s/__init__.py, bm25s/version.py
- **核心 API：BM25 类、分词器与评分变体**：importance `high`
  - source_paths: bm25s/__init__.py, bm25s/scoring.py, bm25s/tokenization.py, bm25s/stopwords.py, bm25s/selection.py
- **性能优化：Numba 后端、内存映射与 Hugging Face 集成**：importance `high`
  - source_paths: bm25s/numba/__init__.py, bm25s/numba/retrieve_utils.py, bm25s/numba/selection.py, bm25s/hf.py, bm25s/utils/benchmark.py
- **CLI、High-Level API、MCP 服务器、持久化与已知问题**：importance `high`
  - source_paths: bm25s/cli.py, bm25s/high_level/__init__.py, bm25s/high_level/setup.py, bm25s/high_level/README.md, bm25s/mcp/__init__.py

## Repo Inspection Evidence / 源码检查证据

- repo_clone_verified: true
- repo_inspection_verified: true
- repo_commit: `c37c81c771ee5731fc7909925ca990bbd5994cf8`
- inspected_files: `README.md`, `examples/evaluate_on_beir.py`, `examples/index_and_retrieve_with_numba.py`, `examples/index_nq.py`, `examples/index_to_hf.py`, `examples/index_with_metadata.py`, `examples/mcp/create_index.py`, `examples/mcp/verify_server.py`, `examples/nltk_stemmer.py`, `examples/retrieve_from_hf.py`, `examples/retrieve_nq.py`, `examples/retrieve_nq_with_batching.py`, `examples/retrieve_with_numba_advanced.py`, `examples/retrieve_with_numba_hf.py`, `examples/save_and_reload_end_to_end.py`, `examples/simple_load.py`, `examples/tokenize_multiprocess.py`, `examples/tokenizer_class.py`

宿主 AI 硬性规则：
- 没有 repo_clone_verified=true 时，不得声称已经读过源码。
- 没有 repo_inspection_verified=true 时，不得把 README/docs/package 文件判断写成事实。
- 没有 quick_start_verified=true 时，不得声称 Quick Start 已跑通。

## Doramagic Pitfall Constraints / 踩坑约束

这些规则来自 Doramagic 发现、验证或编译过程中的项目专属坑点。宿主 AI 必须把它们当作工作约束，而不是普通说明文字。

### Constraint 1: 来源证据：Version mismatch in version.py: Recommend adaptive version strategy

- Trigger: GitHub 社区证据显示该项目存在一个安装相关的待验证问题：Version mismatch in version.py: Recommend adaptive version strategy
- Host AI rule: 来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- Why it matters: 可能增加新用户试用和生产接入成本。
- Evidence: community_evidence:github | https://github.com/xhluca/bm25s/issues/184 | 来源讨论提到 python 相关条件，需在安装/试用前复核。
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。

### Constraint 2: 来源证据：`resource module not available on Windows` printed to stdout

- Trigger: GitHub 社区证据显示该项目存在一个安装相关的待验证问题：`resource module not available on Windows` printed to stdout
- Host AI rule: 来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- Why it matters: 可能增加新用户试用和生产接入成本。
- Evidence: community_evidence:github | https://github.com/xhluca/bm25s/issues/178 | 来源讨论提到 python 相关条件，需在安装/试用前复核。
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。

### Constraint 3: 来源证据：jax import guard should also check for `RuntimeError`

- Trigger: GitHub 社区证据显示该项目存在一个安装相关的待验证问题：jax import guard should also check for `RuntimeError`
- Host AI rule: 来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- Why it matters: 可能增加新用户试用和生产接入成本。
- Evidence: community_evidence:github | https://github.com/xhluca/bm25s/issues/173 | 来源类型 github_issue 暴露的待验证使用条件。
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。

### Constraint 4: 来源证据：logger.warning on every import breaks MCP health checks on Windows

- Trigger: GitHub 社区证据显示该项目存在一个配置相关的待验证问题：logger.warning on every import breaks MCP health checks on Windows
- Host AI rule: 来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- Why it matters: 可能增加新用户试用和生产接入成本。
- Evidence: community_evidence:github | https://github.com/xhluca/bm25s/issues/186 | 来源讨论提到 python 相关条件，需在安装/试用前复核。
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。

### Constraint 5: 能力判断依赖假设

- Trigger: README/documentation is current enough for a first validation pass.
- Host AI rule: 将假设转成下游验证清单。
- Why it matters: 假设不成立时，用户拿不到承诺的能力。
- Evidence: capability.assumptions | https://github.com/xhluca/bm25s | README/documentation is current enough for a first validation pass.
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。

### Constraint 6: 来源证据：Format of corpus and API reference

- Trigger: GitHub 社区证据显示该项目存在一个运行相关的待验证问题：Format of corpus and API reference
- Host AI rule: 来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- Why it matters: 可能增加新用户试用和生产接入成本。
- Evidence: community_evidence:github | https://github.com/xhluca/bm25s/issues/158 | 来源类型 github_issue 暴露的待验证使用条件。
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。

### Constraint 7: 维护活跃度未知

- Trigger: 未记录 last_activity_observed。
- Host AI rule: 补 GitHub 最近 commit、release、issue/PR 响应信号。
- Why it matters: 新项目、停更项目和活跃项目会被混在一起，推荐信任度下降。
- Evidence: evidence.maintainer_signals | https://github.com/xhluca/bm25s | last_activity_observed missing
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。

- Trigger: no_demo
- Evidence: downstream_validation.risk_items | https://github.com/xhluca/bm25s | no_demo; severity=medium
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。

### Constraint 9: 存在评分风险

- Trigger: no_demo
- Why it matters: 风险会影响是否适合普通用户安装。
- Evidence: risks.scoring_risks | https://github.com/xhluca/bm25s | no_demo; severity=medium
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。

### Constraint 10: issue/PR 响应质量未知

- Trigger: issue_or_pr_quality=unknown。
- Host AI rule: 抽样最近 issue/PR，判断是否长期无人处理。
- Why it matters: 用户无法判断遇到问题后是否有人维护。
- Evidence: evidence.maintainer_signals | https://github.com/xhluca/bm25s | issue_or_pr_quality=unknown
- Hard boundary: 不要把这个坑点包装成已解决、已验证或可忽略，除非后续验证证据明确证明它已经关闭。