# https://github.com/adbar/trafilatura 项目说明书生成时间：2026-06-19 18:30:13 UTC ## 目录 - [Overview & System Architecture](#page-1) - [Text & Metadata Extraction Engine](#page-2) - [Web Crawling, Downloads & URL Discovery](#page-3) - [CLI, Configuration & Known Issues](#page-4) ## Overview & System Architecture ### 相关页面相关主题：[Text & Metadata Extraction Engine](#page-2), [Web Crawling, Downloads & URL Discovery](#page-3), [CLI, Configuration & Known Issues](#page-4)

相关源码文件

以下源码文件用于生成本页说明： - [README.md](https://github.com/adbar/trafilatura/blob/main/README.md) - [HISTORY.md](https://github.com/adbar/trafilatura/blob/main/HISTORY.md) - [CONTRIBUTING.md](https://github.com/adbar/trafilatura/blob/main/CONTRIBUTING.md) - [trafilatura/__init__.py](https://github.com/adbar/trafilatura/blob/main/trafilatura/__init__.py) - [trafilatura/core.py](https://github.com/adbar/trafilatura/blob/main/trafilatura/core.py) - [trafilatura/settings.py](https://github.com/adbar/trafilatura/blob/main/trafilatura/settings.py) - [trafilatura/readability_lxml.py](https://github.com/adbar/trafilatura/blob/main/trafilatura/readability_lxml.py)

# Overview & System Architecture ## 1. 项目定位与设计目标 Trafilatura 是一个面向网络文本发现与提取的 Python 库及命令行工具，由语言学家 Adrien Barbaresi 发起，最初为柏林-勃兰登堡科学院的语料库项目（DWDS 与 ZDL）服务。包元信息显示当前版本为 `2.1.0`，遵循 Apache-2.0 许可证资料来源：[trafilatura/__init__.py:1-15]()。项目的高层目标可以归纳为三点： - **网页抓取与正文提取**：从真实网页中精准识别主体内容、标题、作者、日期、站点名、分类与标签等元数据资料来源：[README.md:1-40]()。 - **多格式输出**：支持 TXT、Markdown、CSV、JSON、HTML、XML 与 XML-TEI 共七种输出格式资料来源：[README.md:30-60]()。 - **可配置的召回/精度权衡**：通过参数与配置文件，让用户在“少而准”和“多而全”之间灵活切换资料来源：[trafilatura/settings.py:1-40]()。在生态层面，Trafilatura 被 HuggingFace、IBM、Microsoft Research、Allen Institute、Stanford 等机构与公司集成使用，是学术与工业界数据采集的常见组件资料来源：[README.md:80-100]()。 ## 2. 系统架构总览整个系统的处理流程可以抽象为“输入 → 解析 → 提取 → 输出”四个阶段。下图展示从原始 URL 或 HTML 字符串到最终文档的核心数据流： ```mermaid flowchart LR A[URL / HTML 字符串] --> B[downloads.fetch_url / load_html] B --> C[lxml HTML Tree] C --> D[core._internal_extraction] D --> E{配置与启发式} E --> F[主提取器
XPath + fallback] F --> G[readability_lxml 备选] F --> H[jusText 备选] F --> I[baseline 备选] F --> J[元数据抽取
metadata.extract_metadata] J --> K[输出格式化
txt / md / json / xml / xmltei / csv / html] K --> L[最终结果] ``` 入口函数 `extract`、`bare_extraction`、`extract_with_metadata` 全部委托给 `_internal_extraction`，后者统一加载 HTML 树、按选项执行剪枝、调用正文提取器，并按 `output_format` 序列化结果资料来源：[trafilatura/core.py:1-80]()。当主提取器不确定时，readability、jusText 与 baseline 作为“备份提取器”接力兜底，从而在精度与召回之间形成多层防线资料来源：[trafilatura/readability_lxml.py:1-40]()。 ## 3. 核心模块与职责 | 模块 | 关键导出 | 职责 | |------|---------|------| | `trafilatura`（包入口） | `extract`、`bare_extraction`、`extract_with_metadata`、`extract_metadata`、`fetch_url`、`fetch_response`、`load_html`、`baseline`、`html2txt` | 暴露顶层 API；统一对外签名资料来源：[trafilatura/__init__.py:20-40]() | | `core` | `_internal_extraction` | 串联 HTML 解析、剪枝、提取、格式化全流程资料来源：[trafilatura/core.py:1-120]() | | `settings` | `DEFAULT_CONFIG`、`Options` 协议 | 集中维护默认参数、XPath 规则、语言映射与黑名单资料来源：[trafilatura/settings.py:1-40]() | | `readability_lxml` | `Document`、`Candidate` | 实现可读性打分，作为主提取失败时的备选路径资料来源：[trafilatura/readability_lxml.py:1-60]() | | `metadata` | `extract_metadata` | 从 JSON-LD、meta 标签、正文上下文中提取作者/日期/标题等资料来源：[trafilatura/core.py:60-100]() | | `downloads` | `fetch_url`、`fetch_response` | 网络层抓取，支持 sitemap、feed 抓取与礼貌爬取资料来源：[trafilatura/__init__.py:20-35]() | `settings.py` 中的常量定义了清理策略：例如 `MANUALLY_STRIPPED` 列出应直接剔除的元素，`BASIC_CLEAN_XPATH` 用于在树层面移除 `