可发布
83k 星标
PaddleOCR 项目
PaddleOCR 是一款功能强大且轻量的 OCR 工具包,可将任意 PDF 或图像文档转换为结构化数据,衔接图像/PDF 与大语言模型(LLM),支持超过 100 种语言。
标签结果
当前标签:结构化数据提取 · 6 个已发布项目。标签页只展示通过发布门禁的生产数据。
PaddleOCR 是一款功能强大且轻量的 OCR 工具包,可将任意 PDF 或图像文档转换为结构化数据,衔接图像/PDF 与大语言模型(LLM),支持超过 100 种语言。
Crawlee—一款用于 Node.js 的网页抓取与浏览器自动化库,可构建可靠的爬虫,基于 JavaScript 和 TypeScript。可提取数据用于 AI、LLM、RAG 或 GPTs,支持从网站下载 HTML、PDF、JPG、PNG 等文件,兼容 Puppeteer、Playwright、Cheerio、JSDOM 及原生 HTTP,提供有头与无头模式,并支持代理轮换。
一个用于在文本、图像和结构化数据中检测、编辑、遮盖和匿名化敏感数据(PII)的开源框架,支持 NLP、模式匹配和可自定义的流水线。
使用 AI 驱动的爬虫、采集器和浏览器自动化从任意网站获取结构化数据,支持自然语言提示进行抓取与爬取,为你的大语言模型智能体提供新鲜数据。AI Studio 的 Python SDK,助你实现智能化的网页数据采集。
AI 原生搜索数据库,集成向量、文本、结构化与半结构化数据于一身,专为智能体存储设计,让智能体更智能、更易运行、更稳定。
用于非结构化数据的高性能检索引擎