Doramagic 项目包 · 项目说明书

pathway 项目

面向流处理、实时分析、LLM 流水线和 RAG 的 Python ETL 框架。

Pathway Framework Overview and Architecture

Pathway 是一款基于 Python 的 ETL 流处理框架,专注于流式分析、实时分析、LLM 管道以及检索增强生成(RAG)场景。它在 README.md 中被明确定义为 "a Python ETL framework for stream processing, real-time analytics, LLM pipelines, and RAG",并强调其易于使...

章节 相关页面

继续阅读本节完整说明和来源证据。

一、定位与核心价值

Pathway 是一款基于 Python 的 ETL 流处理框架,专注于流式分析、实时分析、LLM 管道以及检索增强生成(RAG)场景。它在 README.md 中被明确定义为 "a Python ETL framework for stream processing, real-time analytics, LLM pipelines, and RAG",并强调其易于使用的 Python API 允许用户无缝集成任意 Python ML 库。

该框架的核心价值体现在以下几点:

  • 统一的批流一体代码:同一份代码既可运行在本地开发、CI/CD 测试,也可用于批量作业、Stream 回放及生产级流处理场景,参见 README.md 中关于 "you can use it in both development and production environments, handling both batch and streaming data effectively" 的描述。
  • Rust 引擎与差分数据流:底层由基于 Differential Dataflow 的 Rust 引擎驱动,提供增量计算能力,参见 README.md 中 "powered by a scalable Rust engine based on Differential Dataflow and performs incremental computation" 的说明。
  • 丰富的连接器生态:内置 Kafka、GDrive、PostgreSQL、SharePoint 等连接器,并借助 Airbyte 连接器支持超过 300 种外部数据源,参见 README.md 关于 "Airbyte connector allows you to connect to more than 300 different data sources" 的描述。
  • 持久化与一致性:框架自动管理时间语义,能够在崩溃或更新后重启管道,并处理延迟和乱序数据,参见 README.md 中 "Persistence" 与 "Consistency" 章节的说明。

二、架构组成与运行时模型

Pathway 的整体架构可拆分为 Python API 层、连接器层、计算引擎层与外部集成层。Python API 层面向用户提供声明式的数据流编程接口;连接器层屏蔽底层数据源的差异;计算引擎层基于 Timely Dataflow 和 Differential Dataflow 实现增量、并行计算;外部集成层负责与向量数据库、HTTP 服务、监控系统等协同工作。

flowchart TB
    A[Python 业务逻辑 pw.run] --> B[连接器层 Kafka / Airbyte / SharePoint / FileSystem]
    B --> C[Rust 引擎 Timely + Differential Dataflow]
    C --> D[状态化变换 Join / Window / Group-by]
    D --> E[输出层 Kafka / Postgres / Vector Store / HTTP]
    C --> F[持久化与监控面板]
    E --> G[下游应用 RAG / 仪表盘 / 告警]

架构中关键的计算原语由 Timely Dataflow 提供支撑。Timely 的通信层为多线程 worker 之间的数据交换提供有类型的通道,参见 external/timely-dataflow/communication/src/lib.rs 中关于 "Threads are spawned with an allocator::Generic, whose allocate method returns a pair of several send endpoints and one receive endpoint" 的描述。Timely Dataflow 的完整教程索引可参考 external/timely-dataflow/mdbook/src/SUMMARY.md,其中覆盖了 Dataflow、Timestamps、Progress 等核心概念。

Pathway 本身支持多线程运行,开发者可以通过 pathway spawn --threads 3 python main.py 启动指定线程数的进程,参见 README.md 中关于 "Pathway Live Data Framework natively supports multithreading" 的说明。此外,Pathway 自带监控面板,可跟踪各连接器的消息数量与系统延迟,参见 README.md 中 "Pathway Live Data Framework comes with a monitoring dashboard" 的描述。

三、典型使用模式与代码示例

Pathway 提供了大量端到端示例项目,帮助开发者快速理解其编程范式。下列项目分别覆盖了不同应用场景:

LLM 场景下的文档解析、文本嵌入、LLM API 调用与索引管道等通用能力则封装在 python/pathway/xpacks/llm/README.md 中,提供 Pathway 兼容的 UDF 包装器与开箱即用的文档处理管道。

一个最简的 Pathway 管道包含 导入框架 → 读取/连接数据源 → 声明式变换 → 输出 → pw.run() 五个步骤,正如 README.md 中 "you can easily create your processing pipeline" 的示例所示。运行方式支持 python main.pypathway spawn python main.py 或 Docker 容器化部署(参见 README.md 中 "Docker" 章节)。

四、扩展生态与社区关注点

Pathway 通过 xpack 机制扩展功能。xpack-llm 提供 LLM 相关的连接器与算子,参见 python/pathway/xpacks/llm/README.md 中 "Pathway-compatible wrappers (UDFs) for popular AI and language modeling tasks" 的描述。模板与示例项目则集中在 examples/README.mdexamples/templates/el-pipeline/README.md 中,方便用户复用成熟模式。

社区当前的关注点集中在连接器完备性与元数据表达力上,例如:

  • NATS JetStream 支持(Issue #86):现有 NATS 连接器尚不支持 JetStream 持久化扩展。
  • 嵌套 pw.Schema(Issue #118):希望在 Schema 中嵌套其他 Schema 以表达更复杂的数据结构。
  • RAG 文档自定义元数据(Issue #114):在使用文件夹监控的 RAG 管道中,如何在切块(chunking)前为文档附加自定义元数据。
  • 依赖版本治理(Issue #243、#201):用户希望放宽 beartype 等第三方库的版本约束,并允许在 pw.io.airbyte.read 中覆盖 Airbyte 连接器的依赖版本。

最新版本 v0.31.1 引入了 pw.io.elasticsearch.read,通过轮询与时间戳对齐的方式在无 CDC API 的情况下保证不漏不重,参见 README.md 顶部 release notes 的描述。

See Also

来源:https://github.com/pathwaycom/pathway / 项目说明书

Core Concepts: Tables, Schemas, Transformations, and Temporal Data

Pathway 是一套面向流式数据的 Python ETL 框架,其核心抽象围绕 Table(表)、Schema(模式)、Transformation(变换) 和 Temporal Data(时态数据) 四个基本概念展开。这四者构成了 Pathway 数据处理流水线的基础语义层,所有上层连接器、索引器与 LLM/RAG 模板都构建于其上。底层的 Rust 引擎基于 Diff...

章节 相关页面

继续阅读本节完整说明和来源证据。

Pathway 是一套面向流式数据的 Python ETL 框架,其核心抽象围绕 Table(表)Schema(模式)Transformation(变换)Temporal Data(时态数据) 四个基本概念展开。这四者构成了 Pathway 数据处理流水线的基础语义层,所有上层连接器、索引器与 LLM/RAG 模板都构建于其上。底层的 Rust 引擎基于 Differential Dataflow,使所有变换天然支持增量更新,从而保证流式与批处理两种执行模式下语义一致。资料来源:README.md:21-26

1. Table:流式数据结构

Table 是 Pathway 中一切数据载体的最小单元。与静态 DataFrame 不同,Table 的每一行都带有时间戳与主键,并且会随着上游输入的更新而增量地发生插入、删除和修改。Table 类的核心定义位于 python/pathway/internals/table.py,它通过 ColumnReference 引用列,并通过 __getitem__filterselectjoin 等运算符重载提供声明式 API。资料来源:python/pathway/internals/table.py:1-50

Table 的主要操作语义包括:

操作说明返回
table.select(...)投影列或构造新列新的 Table
table.filter(...)谓词过滤保留满足条件的行
table.join(other, *on)等值连接拼合后产生的表
table.groupby(...)分组并配合 reducer聚合后的表

2. Schema:表结构的静态类型声明

pw.Schema 是定义 Table 列类型与主键的入口,源码见 python/pathway/internals/schema.pySchema 通过 Python 的类型注解(例如 name: strvalue: int)声明列,并可在类体内以 pw.column_definition 注解方式指定主键或排序键。当一个 Connector Subject 使用某个 Schema 时,输入数据会被校验并自动转换为 Table。资料来源:python/pathway/internals/schema.py:1-40

社区对 Schema 提出了若干演进需求,例如 Issue #118「Nested pw.Schema」希望支持在 Schema 内嵌套另一个 Schema,从而表达结构化字段;Issue #114 则讨论在文件夹监控的 RAG 流水线中如何为分块文档附加自定义元数据。两者本质上都是要求 Schema 在「结构化嵌套」与「元数据扩展」方面提供更灵活的描述能力。资料来源:community context #118, #114

3. Transformation:表达式与归约器

变换由 表达式(Expression)归约器(Reducer) 共同驱动。ColumnReference 与各类内建表达式(如算术、字符串、日期函数)定义在 python/pathway/internals/expression.py 中,可直接在 select 内组合使用。资料来源:python/pathway/internals/expression.py:1-60

聚合操作则依赖 python/pathway/internals/reducers.py 中的 summinmaxcountunique 等归约器,以及 python/pathway/internals/groupby.py 中的 groupby 实现。groupby(...).reduce(...) 是将流式表按一个或多个键分桶并对每桶应用 reducer 的标准写法;该方法返回一个与原表同时间语义但行数缩减后的 Table。资料来源:python/pathway/internals/reducers.py:1-80、资料来源:python/pathway/internals/groupby.py:1-40

下图以「分块文档元数据 → 向量索引」为例,展示 Table 在 Pathway 流水线中的典型生命周期:

flowchart LR
    A[Connector<br/>ConnectorSubject] --> B[Table<br/>internals/table.py]
    B --> C[Schema<br/>internals/schema.py]
    B --> D[Transformation<br/>select / filter / groupby]
    D --> E[Temporal Ops<br/>stdlib/temporal]
    E --> F[Output<br/>pw.io.*]

4. Temporal Data:时态语义与时间运算

时态数据是 Pathway 区别于普通批处理框架的关键能力。python/pathway/stdlib/temporal/__init__.py 暴露了 windowasof_joininterval_joinsession 等面向时间窗口与时间点对齐的高阶算子;当同一表同时存在事件时间与处理时间时,框架会自动处理迟到的数据与乱序。资料来源:python/pathway/stdlib/temporal/__init__.py:1-30

其中 _asof_join.py 实现了 asof_join:对于左侧表中的每条记录,匹配右侧表中时间戳最接近且满足方向约束(如 <=)的那一条行,从而避免在「行情 ↔ 订单」「文档 ↔ 时间戳元数据」等场景中产生笛卡尔积。资料来源:python/pathway/stdlib/temporal/_asof_join.py:1-60

在 v0.31.1 发布的 pw.io.elasticsearch.read 中,新组件通过 timestamp_columnid_column 显式声明时间列与排序列,让时态归约在增量同步中保持正确,体现出 Pathway「时间即一等公民」的设计原则。资料来源:community context, release v0.31.1

常见使用模式

构建 Pathway 流水线通常遵循三步:读取 → 变换 → 写出Tablepw.io 子包下的各类 Connector 注入,经 select / filter / groupby 等变换改造,再通过 pw.io.http.PathwayWebserverpw.io.kafka.write 等输出到下游。当处理 LLM/RAG 场景时,开发者还可以在表达式层引入 python/pathway/xpacks/llm 中的 UDF 包装器,将嵌入、解析与生成算子无缝地嵌入到时态管线中。资料来源:python/pathway/xpacks/llm/README.md:1-10

失败模式与注意事项

  • Schema 失配:当 Connector 实际产出的字段与 pw.Schema 声明不一致时,运行时将抛出类型错误,务必在早期单元测试中显式校验。资料来源:python/pathway/internals/schema.py:1-40
  • 未声明时间列:在调用时态算子前若未通过 with_attributes(timestamp=...) 显式标记时间列,框架会退化为批处理语义,丧失增量正确性。
  • 依赖版本冲突:社区已反馈 beartype 被严格钉版带来的兼容性问题(Issue #243),升级时应同步检查 pyproject.toml 的依赖范围。
  • Connector 依赖传递:Airbyte 等连接器会间接引入第三方包(Issue #201),建议在 CI 中锁定可重现的依赖快照。

See Also

来源:https://github.com/pathwaycom/pathway / 项目说明书

Data Connectors: Streaming Sources, Sinks, and Persistence

Pathway Live Data Framework 的核心能力之一是提供丰富的数据连接器(Data Connector),用于桥接外部数据源、数据汇与流式计算引擎。根据 README.md 的描述,Pathway 自带连接器可对接 Kafka、GDrive、PostgreSQL、SharePoint 等多种数据源;其 Airbyte 连接器更可访问超过 300 种不同的...

章节 相关页面

继续阅读本节完整说明和来源证据。

章节 内置输入连接器一览

继续阅读本节完整说明和来源证据。

章节 Elasticsearch 连接器的工作机制

继续阅读本节完整说明和来源证据。

章节 自定义 Python 连接器

继续阅读本节完整说明和来源证据。

概述

Pathway Live Data Framework 的核心能力之一是提供丰富的数据连接器(Data Connector),用于桥接外部数据源、数据汇与流式计算引擎。根据 README.md 的描述,Pathway 自带连接器可对接 Kafka、GDrive、PostgreSQL、SharePoint 等多种数据源;其 Airbyte 连接器更可访问超过 300 种不同的数据源。所有这些连接器统一通过 pw.io 命名空间暴露,开发者可以以一致的方式声明数据源与数据汇,并通过持久化(Persistence)机制保证计算状态在更新或崩溃后可恢复。

flowchart LR
    A[外部数据源<br/>Kafka / NATS / MongoDB<br/>Elasticsearch / FS] -->|pw.io.*.read| B(Pathway Engine<br/>Rust + Timely)
    B -->|pw.io.*.write| C[外部数据汇<br/>CSV / Kafka / Postgres<br/>Elasticsearch / Slack]
    B <-->|pw.persistence.Config| D[(持久化存储<br/>Filesystem / S3)]
    B --> E[下游 UDF<br/>LLM / Embedding]

流式数据源(Streaming Sources)

Pathway 的输入连接器位于 python/pathway/io/ 目录中,按照外部系统分别组织为独立子包。例如 Kafka 连接器由 python/pathway/io/kafka/__init__.py 提供,NATS 连接器由 python/pathway/io/nats/__init__.py 提供,Elasticsearch 由 python/pathway/io/elasticsearch/__init__.py 提供,MongoDB 由 python/pathway/io/mongodb/__init__.py 提供。

内置输入连接器一览

类别连接器入口典型用途
消息队列pw.io.kafka.readKafka 主题订阅与消费
消息系统pw.io.nats.readNATS 主题订阅(社区正讨论 #86 中扩展 JetStream 支持)
文档存储pw.io.mongodb.readMongoDB 集合变更捕获
搜索引擎pw.io.elasticsearch.read通过轮询 + 时间戳去重摄取索引(v0.31.1 新增)
关系数据库pw.io.postgres.readPostgreSQL 监听与快照
文件系统pw.io.fs.read / pw.io.csv.read目录监控与 CSV 流式读取
第三方集成pw.io.airbyte.read通过 Airbyte 协议接入 300+ 数据源

Elasticsearch 连接器的工作机制

由于 Elasticsearch 没有变更数据捕获(CDC)API,python/pathway/io/elasticsearch/__init__.py 实现的连接器采用轮询 + 重叠对账策略:它周期性查询索引,将两次查询的重叠区间根据 timestamp_column(水印列)与 id_column(唯一排序主键)进行协调,从而保证不会漏读或重复投递行。这一机制在 v0.31.1 版本发布说明中明确说明,是处理无 CDC 系统时的通用模式。

自定义 Python 连接器

当内置连接器无法满足需求时,开发者可以继承 ConnectorSubject 来自定义 Python 连接器。参见 examples/projects/custom-python-connector-twitter/README.mdexamples/projects/web-scraping/README.md 中的示例。这些示例展示了如何将任意 Python 数据源(Twitter API、新闻网站爬虫)包装为 Pathway 表,使任何可迭代的数据流都能流入 Pathway 引擎。社区中也曾讨论过在自定义连接器中附加元数据(参考 #114)以及覆盖 Airbyte 连接器依赖版本(参考 #201)等扩展点。

数据汇(Sinks)

数据汇是 Pathway 管道计算结果的输出目标。框架通过 pw.io.*.write 形式的 API 提供对称的写入能力。常见的数据汇包括:

  • CSV / JSONL 文件输出pw.io.csv.write,用于本地调试与批处理落地;
  • Kafka 输出pw.io.kafka.write,将增量变更持续回写至 Kafka 主题;
  • PostgreSQL 输出python/pathway/io/postgres/__init__.py 提供的写入器将最终表物化到关系数据库;
  • MongoDB 输出:由 python/pathway/io/mongodb/__init__.py 提供,常用于将文档化的聚合结果直接写入集合。

YAML 配置形式下,数据汇与数据源可被一并声明,参见 examples/templates/el-pipeline/README.md 中的示例:使用 !pw.io.csv.write$source 处理结果写入 output.csv。这种声明式风格便于将同一管道在多环境间移植。

持久化与状态管理

Pathway 的另一项关键特性是持久化(Persistence),由 README.md 明确列为框架核心能力之一。持久化的作用是在管道更新或崩溃后保留计算状态,使重启后能恢复到一致的时间点。

在 YAML 配置中,持久化通过 !pw.persistence.Config 声明,后端可选择文件系统(!pw.persistence.Backend.filesystem)并指定存储路径,例如:

persistence_config: !pw.persistence.Config
  backend: !pw.persistence.Backend.filesystem
    path: ./persistence_storage/

Pathway 内部还结合了 external/timely-dataflow/communication/src/lib.rs 提供的类型化交换通道以及 Rust 端的状态管理,确保在多 worker 场景下时间戳、迟到数据与乱序事件被一致处理。这意味着即便在 Kafka、NATS 等长连接源发生重连时,框架也能根据持久化状态与水印推进重新计算,而不会产生结果回滚或漏算。

总结

Pathway 的数据连接器体系是连接外部世界与流式计算引擎的桥梁:通过 pw.io.*.readpw.io.*.write 对称地表达数据源与数据汇,通过 pw.persistence.Config 守护计算状态。社区中关于 NATS JetStream(#86)、Airbyte 依赖版本(#201)、自定义元数据注入(#114)等持续讨论,也反映出连接器是 Pathway 生态中最活跃、最具扩展性的子系统。

See Also

来源:https://github.com/pathwaycom/pathway / 项目说明书

LLM xPack: Parsers, Splitters, Embedders, Vector Store, and RAG

xpacks/llm 是 Pathway 为大语言模型(LLM)场景提供的官方扩展包(xPack),定位为「在 Pathway 流式数据管道之上提供 LLM 友好的 UDF 与文档处理流水线」。根据包级说明文档,它主要承担两类职责:其一,提供与 Pathway 兼容的 UDF 包装器,覆盖文档解析、文本嵌入(text embedding)以及 LLM API 调用等常见 A...

章节 相关页面

继续阅读本节完整说明和来源证据。

章节 文档解析器(Parsers)

继续阅读本节完整说明和来源证据。

章节 文本切分器(Splitters)

继续阅读本节完整说明和来源证据。

章节 嵌入器(Embedders)

继续阅读本节完整说明和来源证据。

概述与设计目标

xpacks/llm 是 Pathway 为大语言模型(LLM)场景提供的官方扩展包(xPack),定位为「在 Pathway 流式数据管道之上提供 LLM 友好的 UDF 与文档处理流水线」。根据包级说明文档,它主要承担两类职责:其一,提供与 Pathway 兼容的 UDF 包装器,覆盖文档解析、文本嵌入(text embedding)以及 LLM API 调用等常见 AI 任务;其二,提供开箱即用的文档处理流水线(如文档索引),以便用户快速搭建生产级 RAG 应用 资料来源:python/pathway/xpacks/llm/README.md:1-9

整套 xPack 的关键设计思想是「保持 Pathway 增量计算与流式语义」:所有 LLM 相关算子都以 Pathway 表(Table)操作的形式暴露,使得解析、切片、向量化与索引步骤可以与其他 Pathway 算子(如 joingroupbywindowby)组合,并在数据更新时自动重算 资料来源:python/pathway/xpacks/llm/__init__.py:1-1

核心组件

文档解析器(Parsers)

Parsers 子模块负责将非结构化输入(PDF、HTML、纯文本等)转化为 Pathway 内部可流动的字符串字段。该模块导出的解析器均以 UDF 形式存在,可直接作用于 pw.Table 的某一列。Parsers 通常是整条 RAG 流水线的入口:上游 Connector 读取原始字节流或文件路径,Parser 将其解析为可被后续 Splitter 处理的文本 资料来源:python/pathway/xpacks/llm/parsers.py:1-1

文本切分器(Splitters)

Splitters 子模块在解析后的长文档上执行分块(chunking)操作,输出更短、语义更聚焦的文本片段,以便嵌入模型与向量库处理。由于 Pathway 是流式框架,Splitter 不仅是「一次性切分」,还需要在源文档新增、修改或删除时增量重算切分结果。社区中讨论较多的「如何在文件夹监控型 RAG 流水线中为分块后的文档附加自定义元数据」便直接落在 Splitter 输出的下游:用户常需要把 pathmodified_at、业务标签等元数据与每个 chunk 一同写入向量库 资料来源:python/pathway/xpacks/llm/splitters.py:1-1,社区讨论见 issue #114

嵌入器(Embedders)

Embedders 子模块对 Splitter 输出的 chunk 调用外部嵌入服务(如 OpenAI、HuggingFace、本地 Sentence-Transformers 等),返回定长向量。该子模块与 Parsers/Splitters 一样以 UDF 形式暴露,因此可以叠加在 Pathway 的流式表上,并自动响应上游增删改 资料来源:python/pathway/xpacks/llm/embedders.py:1-1

重排器与 LLM 客户端(Rerankers / LLMs)

Rerankers 子模块提供对检索结果进行二次排序的能力,常用于在 RAG 召回阶段后提升 Top-K 质量;LLMs 子模块则统一封装对各大模型提供方(OpenAI、Azure、Mistral 等)的调用入口,向上层 Pipeline 提供 prompt -> completion 的 UDF 资料来源:python/pathway/xpacks/llm/rerankers.py:1-1、资料来源:python/pathway/xpacks/llm/llms.py:1-1

RAG 流水线参考架构

下图展示了基于 LLM xPack 构建文件夹监控型 RAG 的典型数据流:

flowchart LR
  A[Folder / Connector] --> B[Parsers<br/>解析为文本]
  B --> C[Splitters<br/>切分为 chunk]
  C --> D[Embedders<br/>生成向量]
  D --> E[(Vector Store<br/>向量索引)]
  F[用户查询] --> G[Embedders]
  G --> H[相似度检索]
  E --> H
  H --> I[Rerankers]
  I --> J[LLMs<br/>生成答案]
  J --> K[PathwayWebserver<br/>HTTP 输出]

完整示例可参考 examples/projects/question-answering-rag,其中使用 pip install pathway[xpack-llm] 安装依赖,通过 pw.io.http.PathwayWebserver 暴露 8011 端口接收查询,并将回答以 JSON 形式回传 资料来源:examples/projects/question-answering-rag/README.md:30-75。在更轻量的形式下,开发者也可以使用 examples/README.md 中列出的 Notebook 教程快速验证 资料来源:examples/README.md:1-1

已知限制与社区反馈

围绕 LLM xPack 的高频问题主要集中在「元数据如何在流式管线中正确传递」以及「Schema 表达力不足」两个方面。例如,issue #114 报告了在 folder 监控 RAG 中,无法方便地把自定义元数据附加到分块文档;issue #118 则请求 pw.Schema 支持嵌套结构,以便在 RAG 中表达「文档-分块-元数据」等层级关系 资料来源:issue #114、资料来源:issue #118。在 v0.31.1 中,团队新增了 pw.io.elasticsearch.read 这样的流式输入 Connector,与 LLM xPack 组合可形成「Elasticsearch -> Splitter -> Embedder -> 向量库」的增量索引链路 资料来源:release notes v0.31.1。使用 xPack 时需注意:嵌入与 LLM 调用均为外部网络/算力依赖,应结合 Pathway 的持久化与重试语义,避免在断网时丢失未完成的索引更新。

See Also

来源:https://github.com/pathwaycom/pathway / 项目说明书

失败模式与踩坑日记

保留 Doramagic 在发现、验证和编译中沉淀的项目专属风险,不把社区讨论只当作装饰信息。

high 来源证据:ElasticSearch input via generalized polling

可能影响升级、迁移或版本选择。

high 来源证据:Improve watermarks in POSIX-like objects tracker

可能阻塞安装或首次运行。

high 来源证据:Nested `pw.Schema`

可能增加新用户试用和生产接入成本。

high 来源证据:[Bug]: TypeError: Cannot instantiate typing.Any

可能增加新用户试用和生产接入成本。

Pitfall Log / 踩坑日志

项目:pathwaycom/pathway

摘要:发现 16 个潜在踩坑项,其中 4 个为 high/blocking;最高优先级:安装坑 - 来源证据:ElasticSearch input via generalized polling。

1. 安装坑 · 来源证据:ElasticSearch input via generalized polling

  • 严重度:high
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个安装相关的待验证问题:ElasticSearch input via generalized polling
  • 对用户的影响:可能影响升级、迁移或版本选择。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/215 | 来源讨论提到 python 相关条件,需在安装/试用前复核。

2. 安装坑 · 来源证据:Improve watermarks in POSIX-like objects tracker

  • 严重度:high
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个安装相关的待验证问题:Improve watermarks in POSIX-like objects tracker
  • 对用户的影响:可能阻塞安装或首次运行。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/225 | 来源讨论提到 node 相关条件,需在安装/试用前复核。

3. 安装坑 · 来源证据:Nested `pw.Schema`

  • 严重度:high
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个安装相关的待验证问题:Nested pw.Schema
  • 对用户的影响:可能增加新用户试用和生产接入成本。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/118 | 来源类型 github_issue 暴露的待验证使用条件。

4. 安装坑 · 来源证据:[Bug]: TypeError: Cannot instantiate typing.Any

  • 严重度:high
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个安装相关的待验证问题:[Bug]: TypeError: Cannot instantiate typing.Any
  • 对用户的影响:可能增加新用户试用和生产接入成本。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/227 | 来源讨论提到 python 相关条件,需在安装/试用前复核。

5. 安装坑 · 来源证据:Add a native SQLite output connector

  • 严重度:medium
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个安装相关的待验证问题:Add a native SQLite output connector
  • 对用户的影响:可能影响升级、迁移或版本选择。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/212 | 来源讨论提到 python 相关条件,需在安装/试用前复核。

6. 安装坑 · 来源证据:[QUESTION] Beartype version pinning (0.14.0 - 0.16.0) causing compatibility issues

  • 严重度:medium
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个安装相关的待验证问题:[QUESTION] Beartype version pinning (0.14.0 - 0.16.0) causing compatibility issues
  • 对用户的影响:可能阻塞安装或首次运行。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/243 | 来源讨论提到 python 相关条件,需在安装/试用前复核。

7. 能力坑 · 来源证据:Request for Collaboration Quotation

  • 严重度:medium
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个能力理解相关的待验证问题:Request for Collaboration Quotation
  • 对用户的影响:可能增加新用户试用和生产接入成本。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/233 | 来源类型 github_issue 暴露的待验证使用条件。

8. 能力坑 · 来源证据:[QUESTION]me gustaría saber la ubicación y poner su cama

  • 严重度:medium
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个能力理解相关的待验证问题:[QUESTION]me gustaría saber la ubicación y poner su cama
  • 对用户的影响:可能增加新用户试用和生产接入成本。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/242 | 来源类型 github_issue 暴露的待验证使用条件。

9. 能力坑 · 能力判断依赖假设

  • 严重度:medium
  • 证据强度:source_linked
  • 发现:README/documentation is current enough for a first validation pass.
  • 对用户的影响:假设不成立时,用户拿不到承诺的能力。
  • 证据:capability.assumptions | https://github.com/pathwaycom/pathway | README/documentation is current enough for a first validation pass.

10. 维护坑 · 维护活跃度未知

  • 严重度:medium
  • 证据强度:source_linked
  • 发现:未记录 last_activity_observed。
  • 对用户的影响:新项目、停更项目和活跃项目会被混在一起,推荐信任度下降。
  • 证据:evidence.maintainer_signals | https://github.com/pathwaycom/pathway | last_activity_observed missing
  • 严重度:medium
  • 证据强度:source_linked
  • 发现:no_demo
  • 证据:downstream_validation.risk_items | https://github.com/pathwaycom/pathway | no_demo; severity=medium

12. 安全/权限坑 · 存在评分风险

  • 严重度:medium
  • 证据强度:source_linked
  • 发现:no_demo
  • 对用户的影响:风险会影响是否适合普通用户安装。
  • 证据:risks.scoring_risks | https://github.com/pathwaycom/pathway | no_demo; severity=medium

13. 安全/权限坑 · 来源证据:BedrockChat advertises top_k but silently drops it (not forwarded to Converse)

  • 严重度:medium
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个安全/权限相关的待验证问题:BedrockChat advertises top_k but silently drops it (not forwarded to Converse)
  • 对用户的影响:可能影响授权、密钥配置或安全边界。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/244 | 来源讨论提到 python 相关条件,需在安装/试用前复核。

14. 安全/权限坑 · 来源证据:Unauthenticated exponential-complexity DoS via filepath_globpattern on the document-store / RAG REST endpoints

  • 严重度:medium
  • 证据强度:source_linked
  • 发现:GitHub 社区证据显示该项目存在一个安全/权限相关的待验证问题:Unauthenticated exponential-complexity DoS via filepath_globpattern on the document-store / RAG REST endpoints
  • 对用户的影响:可能影响授权、密钥配置或安全边界。
  • 证据:community_evidence:github | https://github.com/pathwaycom/pathway/issues/241 | 来源讨论提到 python 相关条件,需在安装/试用前复核。

15. 维护坑 · issue/PR 响应质量未知

  • 严重度:low
  • 证据强度:source_linked
  • 发现:issue_or_pr_quality=unknown。
  • 对用户的影响:用户无法判断遇到问题后是否有人维护。
  • 证据:evidence.maintainer_signals | https://github.com/pathwaycom/pathway | issue_or_pr_quality=unknown

16. 维护坑 · 发布节奏不明确

  • 严重度:low
  • 证据强度:source_linked
  • 发现:release_recency=unknown。
  • 对用户的影响:安装命令和文档可能落后于代码,用户踩坑概率升高。
  • 证据:evidence.maintainer_signals | https://github.com/pathwaycom/pathway | release_recency=unknown

来源:Doramagic 发现、验证与编译记录