标签结果

结构化数据提取相关项目

当前标签：结构化数据提取 · 6 个已发布项目。标签页只展示通过发布门禁的生产数据。

全部标签在全部项目中搜索

可发布 83k 星标

PaddleOCR 项目

PaddleOCR 是一款功能强大且轻量的 OCR 工具包，可将任意 PDF 或图像文档转换为结构化数据，衔接图像/PDF 与大语言模型（LLM），支持超过 100 种语言。

视觉生成视觉工作流编排结构化数据提取可验证工作流开源工具

可发布 24k 星标

crawlee 项目

Crawlee—一款用于 Node.js 的网页抓取与浏览器自动化库，可构建可靠的爬虫，基于 JavaScript 和 TypeScript。可提取数据用于 AI、LLM、RAG 或 GPTs，支持从网站下载 HTML、PDF、JPG、PNG 等文件，兼容 Puppeteer、Playwright、Cheerio、JSDOM 及原生 HTTP，提供有头与无头模式，并支持代理轮换。

浏览器 Agent 网页任务自动化浏览器自动化自动化工作流结构化数据提取

可发布 9.1k 星标