Generative-Media-Skills 项目说明书

Doramagic 项目包 · 项目说明书

Generative-Media-Skills 项目

生成时间：2026-05-31 23:23:35 UTC

项目介绍

Generative-Media-Skills 是一个面向 AI 代理的多模态媒体生成技能库，旨在为 Claude Code、Cursor、Gemini CLI 等主流 AI 开发环境提供专业级的图像、视频和音频生成能力。该项目通过结构化的 CLI 工具和 MCP（Model Context Protocol）服务器，将复杂的生成式 AI 能力封装为可组合的工作流程，使 A...

章节 相关页面

继续阅读本节完整说明和来源证据。

章节 Agent 原生架构

继续阅读本节完整说明和来源证据。

章节 专业知识层

继续阅读本节完整说明和来源证据。

章节 Core/Library 分层架构

继续阅读本节完整说明和来源证据。

概述

核心设计理念

Agent 原生架构

项目采用"Agent 原生"（Agent-Native Design）的设计理念，所有工具都针对 AI 代理的使用场景进行了优化：

结构化 JSON 输出：所有命令返回格式化的 JSON 数据，便于 AI 解析和处理
语义化退出码：成功、失败、部分成功等状态通过明确的退出码标识
--jq 过滤支持：内置 JSON 数据过滤功能，支持从复杂响应中提取所需字段
异步任务处理：支持异步提交任务并轮询结果，适合长时间运行的生成任务

资料来源：README.md:45-50

专业知识层

项目不仅仅是简单的 API 封装，还包含了多个领域的专业知识库：

技能领域	功能描述
Cinema Director	专业技术电影导演与 cinematography 指导
Nano-Banana	推理驱动的图像生成（Gemini 3 风格）
UI Designer	高保真移动端/Web 原型设计（Atomic Design）
Logo Creator	极简矢量品牌设计（Geometric Primitives）
AI Clipping	长视频智能剪辑与病毒式内容提取

资料来源：README.md:55-60

系统架构

Core/Library 分层架构

项目采用 Core/Library 分层架构以确保高效性和高信号发现：

graph TD
    A[AI Agent] --> B[Expert Library 专家知识层]
    A --> C[Core Primitives 核心原语]
    B --> D[muapi-cli]
    C --> D
    D --> E[muapi.ai API]
    E --> F[Image Generation 图像生成]
    E --> G[Video Generation 视频生成]
    E --> H[Audio Generation 音频生成]
    E --> I[Media Editing 媒体编辑]

核心原语层（/core）

核心原语层是对 muapi-cli 的轻量封装，提供底层 API 访问能力：

模块	功能
`core/media/`	文件上传与资源管理
`core/edit/`	基于提示词的图像编辑
`core/platform/`	认证配置与结果轮询

资料来源：README.md:62-68

专家技能库（/library）

专家技能库包含 41+ 个预置工作流配方，每个配方都是一个 SKILL.md 文件，AI 代理可直接读取并执行：

视频制作类（16 个）

技能	描述
3D Logo Animation	2D 标志转 3D 并添加电影级特效
AI Fight Scene Generator	高密度动作场景，16 格分镜驱动 Seedance 2.0
Animal Vlogger Video	超写实拟人化动物 vlogger 视频
Cartoon Dance Animation	照片转 Pixar 3D 卡通并绑定舞蹈动作
Character Story Video	多段落动画故事视频
Drone-Style Video	航拍视角镜头
Giant Product Showcase	巨型产品展示（建筑物级别物体与人对比）
Jewelry Product Video	奢侈品珠宝广告
Music Video	音乐主题短视频
One-Shot Video	单镜头连续电影画面
Cinematic Product Ad	5-10 秒电影级产品广告
Product Showcase Video	动态产品展示视频
Product Video Ad Maker	高端电影级产品视频广告
Talking Baby Video	病毒式婴儿说话视频
UGC Lifestyle Try-On	UGC 风格生活场景视频
UGC Video Factory	人物照片+产品照片+脚本 → 10 秒竖屏 UGC 广告

资料来源：README.md:100-125

视觉设计类（21 个）

技能	描述
Action Figure Generator	人物照片转 3D 手办
Ad Creative Set	高转化率广告素材组
Amazon Product Listing Pack	亚马逊产品listing完整图组
Blog Header	1200×628 专业博客头图
Brand Kit	品牌视觉套件
Brochure Designer	多页宣传册设计
Couple Grid Creator	6 格情侣风格化图组
Brand Design Guide	综合设计指南
Fashion Try-On	虚拟试衣
Floor Plan Rendering	平面图转 3D 建筑渲染
Interior Design	专业室内设计可视化
Interior Design Visualizer	室内设计可视化
Keyboard Art Maker	键盘艺术图案
Logo + Branding Package	Logo + 完整品牌包
Logo Generator	快速极简 Logo
Multi-Angle Reshoot	多角度产品展示
Multi-Angle Shots	全角度产品图组
Selfie with Celebrities	与名人合照
Storyboard Generator	故事板生成器
URL to Design	网站 URL 分析与重设计
YouTube Thumbnail	高点击率 YouTube 缩略图

资料来源：README.md:130-150

社交媒体类（5 个）

技能	描述
Instagram Post	Instagram 专业帖子
Product Campaign Pack	全渠道营销活动素材包
RedNote Cover	小红书封面图
Social Media Pack	多平台社交媒体素材
UGC Ads Workflow	UGC 视频广告工作流

资料来源：README.md:152-158

MCP 服务器

项目提供完整的 Model Context Protocol 服务器实现，使 AI 代理可以直接调用生成工具：

graph LR
    A[Claude Desktop / Cursor] --> B[MCP Server]
    B --> C[19 Structured Tools]
    C --> D[muapi.ai Platform]
    D --> E[100+ AI Models]

暴露的工具列表

工具名称	功能描述
`muapi_image_generate`	文生图（14 种模型）
`muapi_image_edit`	图生图编辑（11 种模型）
`muapi_video_generate`	文生视频（13 种模型）
`muapi_video_from_image`	图生视频（16 种模型）
`muapi_audio_create`	音乐生成（Suno）
`muapi_audio_from_text`	音效生成（MMAudio）
`muapi_enhance_upscale`	AI 超分辨率放大
`muapi_enhance_bg_remove`	背景移除
`muapi_enhance_face_swap`	人脸替换（图片/视频）
`muapi_enhance_ghibli`	吉卜力风格迁移
`muapi_edit_lipsync`	口型同步
`muapi_edit_clipping`	AI 精彩片段提取
`muapi_predict_result`	轮询预测状态
`muapi_upload_file`	本地文件上传
`muapi_keys_list`	列出 API 密钥
`muapi_keys_create`	创建 API 密钥
`muapi_keys_delete`	删除 API 密钥
`muapi_account_balance`	查询账户余额
`muapi_account_topup`	充值积分（Stripe）

资料来源：README.md:165-190

快速开始

安装 muapi CLI

项目核心脚本需要 muapi-cli，可通过以下方式安装：

# via npm（推荐）
npm install -g muapi-cli

# via pip
pip install muapi-cli

# 无需安装，直接运行
npx muapi-cli --help

资料来源：README.md:200-210

配置 API 密钥

# 交互式配置
muapi auth configure

# 或直接传入密钥
muapi auth configure --api-key "YOUR_MUAPI_KEY"

# 获取密钥地址：https://muapi.ai/dashboard

资料来源：README.md:215-225

安装技能到 AI 代理

# 安装所有技能
npx skills add SamurAIGPT/Generative-Media-Skills --all

# 安装特定技能
npx skills add SamurAIGPT/Generative-Media-Skills --skill muapi-media-generation

# 指定代理平台
npx skills add SamurAIGPT/Generative-Media-Skills --all -a claude-code -a cursor

资料来源：README.md:230-240

核心功能示例

图像生成

# 基础图像生成
muapi image generate "a cyberpunk city at night" --model flux-dev

# 自动下载到指定目录
muapi image generate "a sunset over mountains" --model hidream-fast --download ./outputs

# 提取纯 URL（适合代理处理）
muapi image generate "product on white bg" --model flux-schnell --output-json --jq '.outputs[0]'

资料来源：README.md:245-255

异步视频生成与轮询

# 提交异步任务，捕获 request_id
REQUEST_ID=$(muapi video generate "a dog running on a beach" \
  --model kling-master --no-wait --output-json --jq '.request_id' | tr -d '"')

# 执行其他任务...

# 轮询等待结果
muapi predict wait "$REQUEST_ID" --download ./outputs

资料来源：README.md:260-270

管道式工作流

# 上传 → 编辑 → 下载
URL=$(muapi upload file ./photo.jpg --output-json --jq '.url' | tr -d '"')
muapi image edit "make it look like a painting" --image "$URL" \
  --model flux-kontext-pro --download ./outputs

资料来源：README.md:275-280

媒体编辑与增强

核心编辑模块提供了丰富的媒体处理能力：

脚本	功能说明
`edit-image.sh`	基于提示词的图像编辑（Flux Kontext、GPT-4o、Midjourney）
`enhance-image.sh`	一键操作：超分辨率、背景移除、人脸替换、色彩化、吉卜力风格
`lipsync.sh`	口型同步（Sync Labs、LatentSync、Creatify、Veed）
`video-effects.sh`	视频特效：人脸替换、舞蹈、换装、Luma 调整

资料来源：core/edit/SKILL.md:1-25

编辑命令示例

# 提示词编辑
bash edit-image.sh --image-url "https://..." --prompt "add sunglasses" --model flux-kontext-pro

# 超分辨率放大
bash enhance-image.sh --op upscale --image-url "https://..."

# 背景移除
bash enhance-image.sh --op background-remove --image-url "https://..."

# 口型同步
bash lipsync.sh --video-url "https://..." --audio-url "https://..." --model sync

资料来源：core/edit/SKILL.md:30-45

平台配置与轮询

平台工具提供认证配置和异步任务管理功能：

脚本	功能说明
`setup.sh`	配置 API 密钥、显示配置、测试密钥有效性
`check-result.sh`	按 request ID 轮询异步生成结果

资料来源：core/platform/SKILL.md:1-20

平台命令示例

# 保存 API 密钥
bash setup.sh --add-key "YOUR_MUAPI_KEY"

# 显示当前配置
bash setup.sh --show-config

# 测试 API 密钥有效性
bash setup.sh --test

# 轮询等待结果
bash check-result.sh --id "your-request-id"

# 单次查询（不轮询）
bash check-result.sh --id "your-request-id" --once

资料来源：core/platform/SKILL.md:25-40

专业技能详解

Cinema Director

Cinema Director 是一个专业技术电影导演技能库，封装了专业的 cinematography 知识和电影制作流程：

graph TD
    A[User Input] --> B[Intent Analysis]
    B --> C[Cinematography Planning]
    C --> D[Shot Composition]
    C --> E[Lighting Design]
    C --> F[Camera Movement]
    D --> G[Seedance 2.0 Generation]
    E --> G
    F --> G
    G --> H[Final Video Output]

资料来源：library/motion/cinema-director/SKILL.md:1-10

Nano-Banana

Nano-Banana 是推理驱动的图像生成技能，采用 Gemini 3 风格的思考链来优化生成质量：

支持 2K 分辨率输出
智能主体识别与风格迁移
自动视角优化

资料来源：library/visual/nano-banana/SKILL.md:1-10

支持的 AI 模型

项目通过 muapi.ai 平台支持 100+ 种 AI 模型，涵盖图像、视频、音频三大领域：

图像生成模型（14 种）

Flux 系列、Midjourney v7、Seedance、DALL-E、Stable Diffusion 等主流模型。

视频生成模型（13 种）

Kling 3.0、Seedance 2.0、Veo3、Luma Dream Machine 等。

图像转视频模型（16 种）

支持多种 i2v 模型，包括专业级和快速生成模式。

资料来源：README.md:190-200

命令行工具

所有脚本支持以下通用参数：

参数	说明
`--async`	异步提交任务
`--json`	JSON 格式输出
`--timeout N`	超时时间设置
`--help`	显示帮助信息
`--view`	自动下载并打开生成媒体
`--download <path>`	下载到指定目录
`--output-json`	结构化 JSON 输出
`--jq '<expression>'`	JSON 数据过滤表达式

资料来源：core/edit/SKILL.md:48-55

兼容性

项目针对新一代 AI 开发环境进行了优化：

环境	支持方式
Claude Code	直接终端执行 + MCP 服务器模式
Gemini CLI	本地脚本无缝集成
Cursor / Windsurf	完整兼容
MCP 协议	全功能 MCP 服务器，含类型化输入输出
CI/CD	`--output-json`、`--jq`、语义化退出码

资料来源：README.md:285-295

许可证

社区反馈与常见问题

根据社区讨论，用户关注的主要问题包括：

问题类型	描述
GPU 加速	用户询问是否支持 GPU 以加速生成（已通过云端 API 解决）
模型支持	Vicuna 等本地模型的 GPU 加速需求
性能优化	本地部署时的响应时间问题
多语言支持	德语、西班牙语等多语言文档处理

资料来源：社区上下文

优势说明

相比本地部署方案，本项目通过云端 muapi.ai 平台处理生成任务，有效解决了以下问题：

性能瓶颈：云端 GPU 集群提供高性能计算，响应速度快
模型更新：100+ 模型自动更新，无需手动维护
部署简化：无需配置 Docker 或复杂的依赖环境
跨平台兼容：npm/pip 安装，开箱即用

资料来源：README.md:45-50

快速入门指南

本文档为 AI Agent（Claude Code、Cursor、WindSurf 等）提供 Generative-Media-Skills 的完整安装与使用指南。通过本指南，您将能够快速配置 muapi-cli 环境、调用 100+ AI 模型生成专业级图像、视频和音频内容。

章节 相关页面

继续阅读本节完整说明和来源证据。

快速入门指南

来源：https://github.com/SamurAIGPT/Generative-Media-Skills / 项目说明书

系统架构设计

Generative-Media-Skills 是一个面向 AI Agent 的多模态媒体生成工具集，采用 Core/Library 双层架构，将底层 API 封装与领域专家知识分离，使 AI 代理能够生成、编辑和展示专业级图像、视频和音频内容资料来源：[README.md]()

章节 相关页面

继续阅读本节完整说明和来源证据。

概述

Generative-Media-Skills 是一个面向 AI Agent 的多模态媒体生成工具集，采用 Core/Library 双层架构，将底层 API 封装与领域专家知识分离，使 AI 代理能够生成、编辑和展示专业级图像、视频和音频内容资料来源：README.md

该架构的核心设计理念是：

Agent 原生设计 — CLI 驱动的脚本配合结构化 JSON 输出，支持 --jq 过滤和语义化退出码，便于 AI 代理自动化执行
专家知识层 — 将专业领域知识（电影摄影、Atomic Design、品牌策略）固化为可执行的工作流程
零样板代码 — 所有原语操作委托给 muapi-cli，消除手动 curl 和 JSON 解析资料来源：README.md

来源：https://github.com/SamurAIGPT/Generative-Media-Skills / 项目说明书

Schema数据参考

schemadata.json 是 Generative-Media-Skills 项目的核心数据配置文件，位于仓库根目录。该文件为所有核心脚本提供运行时数据支持，是实现 Schema 驱动架构的关键组件。

章节 相关页面

继续阅读本节完整说明和来源证据。

章节 主要功能

继续阅读本节完整说明和来源证据。

章节 核心定位

继续阅读本节完整说明和来源证据。

章节 MCP服务器集成

继续阅读本节完整说明和来源证据。

概述

schema_data.json 是 Generative-Media-Skills 项目的核心数据配置文件，位于仓库根目录。该文件为所有核心脚本提供运行时数据支持，是实现 Schema 驱动架构的关键组件。

主要功能

功能	说明
模型ID验证	确保请求的模型存在于平台支持列表中
端点解析	自动将模型名称映射到对应的API端点
参数校验	验证 `aspect_ratio`、`resolution`、`duration` 等参数是否支持
MCP工具定义	为 Model Context Protocol 服务器提供结构化输入/输出模式

资料来源：README.md:120

架构设计

核心定位

graph TD
    A[用户/Agent] --> B[muapi CLI]
    B --> C[schema_data.json]
    C --> D{参数校验}
    D -->|通过| E[API请求]
    D -->|失败| F[错误提示]
    E --> G[异步任务提交]
    G --> H[结果轮询]
    H --> I[媒体下载]

schema_data.json 在执行流程中扮演数据契约角色，确保所有 muapi 工具调用都符合平台规范。

MCP服务器集成

当使用 muapi mcp serve 启动 MCP 服务器时，该 Schema 数据用于生成 19 个结构化工具的 JSON Schema 定义：

资料来源：README.md:95-120

工具类型	工具名称	模型数量
图像生成	`muapi_image_generate`	14个
图像编辑	`muapi_image_edit`	11个
视频生成	`muapi_video_generate`	13个
图像转视频	`muapi_video_from_image`	16个
音频创建	`muapi_audio_create`	Suno
音效生成	`muapi_audio_from_text`	MMAudio
增强操作	`muapi_enhance_*`	多种

工具命令参考

图像生成

muapi image generate "prompt" --model <model_id>

常用参数：

参数	类型	说明
`--model`	string	模型ID，如 `flux-dev`、`flux-schnell`、`hidream-fast`
`--aspect-ratio`	string	宽高比，如 `1:1`、`16:9`、`9:16`
`--resolution`	string	分辨率，如 `1k`、`2k`、`4k`
`--download`	path	自动下载到指定目录
`--output-json`	flag	输出纯JSON格式

资料来源：README.md:140-150

图像编辑

muapi image edit "prompt" --image <url_or_path> --model <model_id>

支持的编辑模型包括 Flux Kontext Pro、GPT-4o、Midjourney 等。

资料来源：core/edit/SKILL.md:18-22

视频生成

muapi video generate "prompt" --model <model_id> --duration <seconds>

参数	类型	说明
`--model`	string	视频模型，如 `kling-v3.0-pro`、`seedance-2`
`--duration`	integer	视频时长（秒），通常 5-10 秒
`--no-wait`	flag	异步提交，不等待完成

# 异步提交示例
REQUEST_ID=$(muapi video generate "a dog running on a beach" \
  --model kling-master --no-wait --output-json --jq '.request_id' | tr -d '"')

资料来源：README.md:125-135

异步任务处理

sequenceDiagram
    participant 用户
    participant muapi CLI
    participant muapi API
    participant schema_data

    用户->>muapi CLI: 提交异步请求
    muapi CLI->>schema_data: 验证模型ID和参数
    schema_data-->>muapi CLI: 校验通过
    muapi CLI->>muapi API: 发起请求
    muapi API-->>muapi CLI: 返回 request_id
    用户->>muapi CLI: 查询结果
    muapi CLI->>muapi API: 轮询 request_id
    muapi API-->>muapi CLI: 返回完成状态
    用户->>muapi CLI: 下载媒体

# 轮询等待结果
muapi predict wait "$REQUEST_ID" --download ./outputs

# 仅检查一次
muapi predict result "$REQUEST_ID" --once

资料来源：README.md:125-135

增强操作

# 图像增强
muapi enhance --op <operation> --image-url <url>

# 支持的操作

操作	说明
`upscale`	AI超分辨率增强
`background-remove`	背景移除
`face-swap`	换脸
`ghibli`	吉卜力风格转换
`colorize`	图像上色

资料来源：core/edit/SKILL.md:23-30

唇形同步

muapi lipsync --video-url <url> --audio-url <url> --model sync

支持的唇形同步模型：Sync Labs、LatentSync、Creatify、Veed。

模型发现

列出可用模型

# 列出所有模型
muapi models list

# 按类别筛选
muapi models list --category video --output-json

# 获取模型详情
muapi models list --category image --output-json

模型类别

类别	说明	示例模型
`image`	图像生成模型	Flux Dev, Midjourney v7, DALL-E 3
`video`	视频生成模型	Kling 3.0, Seedance 2.0, Veo3
`audio`	音频生成模型	Suno, MMAudio
`edit`	编辑增强模型	Flux Kontext, GPT-4o

资料来源：README.md:155-165

工作流编排

管道链式调用

graph LR
    A[上传文件] --> B[媒体生成]
    B --> C[编辑增强]
    C --> D[下载结果]
    
    A1[muapi upload] --> B1[muapi generate]
    B1 --> C1[muapi edit]
    C1 --> D1[--download]

实际命令示例：

# 上传 → 编辑 → 下载 完整流程
URL=$(muapi upload file ./photo.jpg --output-json --jq '.url' | tr -d '"')
muapi image edit "make it look like a painting" --image "$URL" \
  --model flux-kontext-pro --download ./outputs

# 从其他命令管道输入
generate_prompt | muapi image generate - --model flux-dev

资料来源：README.md:125-145

专业技能脚本

除了基础 CLI 命令，项目还提供了专家级技能脚本：

技能	路径	功能
Cinema Director	`library/motion/cinema-director/`	电影级视频生成
Nano-Banana	`library/visual/nano-banana/`	Gemini 3 风格推理图像生成
UI Designer	`library/visual/ui-design/`	原子设计高保真原型
Logo Creator	`library/visual/logo-creator/`	极简矢量品牌设计
Seedance 2	`library/motion/seedance-2/`	导演级视频生成
AI Clipping	`library/edit/ai-clipping/`	长视频→短视频自动剪辑

API Key 配置

环境变量设置

# 交互式配置
muapi auth configure

# 直接指定
muapi auth configure --api-key "YOUR_MUAPI_KEY"

# 或设置环境变量
export MUAPI_API_KEY="your-key-here"

验证配置

# 测试API Key有效性
muapi setup --test

# 显示当前配置
muapi setup --show-config

资料来源：core/platform/SKILL.md:20-30

参数校验规则

schema_data.json 定义的校验规则确保：

模型存在性 - 请求的模型ID必须在平台支持列表中
端点可用性 - 模型必须映射到有效的API端点
参数合法性 - aspect_ratio、resolution、duration 必须在允许范围内

# 无效模型示例（会被 schema 校验拦截）
muapi image generate "test" --model invalid-model
# Error: Model 'invalid-model' not found in schema

# 无效参数示例
muapi video generate "test" --duration 1000
# Error: Duration '1000' exceeds maximum allowed value

常见问题

模型下载问题

社区反馈显示模型下载可能出现进度 100% 后报错的情况，通常是模型加载失败：

"Model download error on 100% progress" - 模型文件下载完成但加载失败

建议：确保 models/ 目录有足够空间，模型文件完整无损。

响应编码问题

部分用户报告出现编码异常响应：

"Encoded responses" - 回答显示为乱码或编码字符

这通常是服务器端编码问题，非 Schema 配置问题。

性能优化

用户关心的响应时间问题：

GPU 加速可显著提升推理速度
异步模式（--no-wait）适合批量任务
选择合适的模型（如 flux-schnell 速度快于 flux-dev）

资源	链接
muapi-cli NPM	https://www.npmjs.com/package/muapi-cli
muapi.ai Dashboard	https://muapi.ai/dashboard
MCP 服务器文档	`muapi mcp serve --help`
模型列表	`muapi models list --output-json`

核心原语层详解

核心原语层（Core Primitives）是 Generative-Media-Skills 架构的基础层，提供与 muapi.ai 平台交互的底层能力。该层采用极简设计原则，通过薄封装（thin wrappers）包装 muapi-cli 工具，提供文件上传、图像编辑、平台配置和结果轮询等原子化功能。

章节 相关页面

继续阅读本节完整说明和来源证据。

章节 整体架构分层

继续阅读本节完整说明和来源证据。

章节 核心目录结构

继续阅读本节完整说明和来源证据。

章节 可用脚本

继续阅读本节完整说明和来源证据。

概述

核心原语层（Core Primitives）是 Generative-Media-Skills 架构的基础层，提供与 muapi.ai 平台交互的底层能力。该层采用极简设计原则，通过薄封装（thin wrappers）包装 muapi-cli 工具，提供文件上传、图像编辑、平台配置和结果轮询等原子化功能。

核心原语层的设计目标是零样板代码——所有操作均通过标准 CLI 调用完成，无需手动处理 curl 请求或 JSON 解析。资料来源：README.md

架构设计

整体架构分层

graph TD
    subgraph "核心原语层 Core"
        A[core/platform] --> B[平台配置与认证]
        A --> C[结果轮询与状态管理]
        D[core/edit] --> E[图像编辑原语]
        D --> F[图像增强原语]
        D --> G[唇形同步原语]
        D --> H[视频特效原语]
    end
    
    subgraph "muapi-cli 引擎"
        I[muapi-cli] --> J[REST API 封装]
        J --> K[JSON Schema 验证]
        K --> L[结构化输出]
    end
    
    subgraph "Expert Library 专家库"
        M[Expert Skills] --> N[高级工作流编排]
    end
    
    B -.->|调用| I
    C -.->|轮询| I
    E -.->|调用| I
    F -.->|调用| I
    G -.->|调用| I
    H -.->|调用| I

核心目录结构

目录	功能	描述
`core/platform/`	平台工具	API密钥配置、连接测试、结果轮询
`core/edit/`	编辑原语	图像编辑、增强、唇形同步、视频特效
`core/media/`	媒体上传	文件上传到CDN（README提及）

资料来源：README.md - Scalable Architecture

平台工具层

平台工具层位于 core/platform/，负责与 muapi.ai 平台的认证和通信基础建设。

可用脚本

脚本	功能	主要参数
`setup.sh`	API密钥配置与管理	`--add-key`, `--show-config`, `--test`
`check-result.sh`	异步任务结果轮询	`--id`, `--once`

资料来源：core/platform/SKILL.md

setup.sh 配置脚本

setup.sh 是平台配置的核心脚本，提供交互式和非交互式两种配置模式。

# 交互式配置
bash setup.sh

# 非交互式配置（自动化场景）
bash setup.sh --add-key "YOUR_MUAPI_KEY"

# 查看当前配置
bash setup.sh --show-config

# 测试API密钥有效性
bash setup.sh --test

关键参数说明：

参数	说明	使用场景
`--add-key <KEY>`	保存API密钥到配置	首次配置或更换密钥
`--show-config`	显示当前配置状态	调试和验证
`--test`	测试API连接和密钥有效性	排查连接问题

资料来源：core/platform/setup.sh

check-result.sh 结果轮询脚本

异步生成任务需要轮询获取结果，该脚本封装了状态检查逻辑。

# 持续轮询直到完成
bash check-result.sh --id "your-request-id"

# 单次检查（不等待）
bash check-result.sh --id "your-request-id" --once

轮询机制：

sequenceDiagram
    participant A as 客户端
    participant M as muapi.ai API
    
    A->>M: POST /generate (async)
    M-->>A: request_id
    Note over A,M: 轮询循环开始
    loop 轮询
        A->>M: GET /predict/{request_id}
        M-->>A: status: processing
        A->>M: GET /predict/{request_id}
        M-->>A: status: success, outputs
    end
    Note over A,M: 轮询循环结束

参数	说明	必填
`--id <REQUEST_ID>`	异步请求的唯一标识符	是
`--once`	仅检查一次，不持续轮询	否

资料来源：core/platform/check-result.sh

媒体编辑层

媒体编辑层位于 core/edit/，提供图像和视频处理的核心原语。该层封装了所有与 muapi.ai 编辑API的交互。

脚本概览

脚本	功能	模型支持
`edit-image.sh`	基于提示词的图像编辑	Flux Kontext, GPT-4o, Midjourney, Qwen
`enhance-image.sh`	一键图像增强	upscale, background-remove, face-swap 等
`lipsync.sh`	视频唇形同步	Sync Labs, LatentSync, Creatify, Veed
`video-effects.sh`	视频特效	Wan AI, face-swap, dance, dress-change

资料来源：core/edit/SKILL.md

edit-image.sh 图像编辑

支持多种AI模型的提示词驱动图像编辑。

bash edit-image.sh \
    --image-url "https://example.com/image.jpg" \
    --prompt "add sunglasses" \
    --model flux-kontext-pro

支持的模型：

模型	用途	特点
`flux-kontext-pro`	上下文感知编辑	理解图像整体语义
`gpt-4o`	多模态编辑	GPT-4o视觉能力
`midjourney`	Midjourney编辑	MJ风格保持
`qwen-vl`	Qwen视觉编辑	阿里通义千问

常用参数：

参数	说明	示例
`--image-url`	输入图像URL	`https://...`
`--prompt`	编辑指令	`"add sunglasses"`
`--model`	AI模型选择	`flux-kontext-pro`
`--async`	异步提交	不等待结果
`--json`	JSON格式输出	便于程序解析

资料来源：core/edit/edit-image.sh

enhance-image.sh 图像增强

一键式图像增强操作，无需复杂提示词。

# 图像超分
bash enhance-image.sh --op upscale --image-url "https://..."

# 背景移除
bash enhance-image.sh --op background-remove --image-url "https://..."

# 人脸替换
bash enhance-image.sh --op face-swap --image-url "https://..." --target-face "https://..."

# 吉卜力风格
bash enhance-image.sh --op ghibli --image-url "https://..."

增强操作类型：

操作	说明	输出
`upscale`	AI超分辨率	更高分辨率版本
`background-remove`	背景移除	透明背景PNG
`face-swap`	人脸替换	编辑后图像
`colorize`	黑白上色	彩色版本
`ghibli`	吉卜力风格转换	宫崎骏风格
`product-shot`	产品摄影级处理	商业级产品图

资料来源：core/edit/enhance-image.sh

lipsync.sh 唇形同步

将音频与视频中的人物唇形同步。

bash lipsync.sh \
    --video-url "https://example.com/video.mp4" \
    --audio-url "https://example.com/audio.mp3" \
    --model sync

支持模型：

模型	提供商	特点
`sync`	Sync Labs	高精度唇形同步
`latent-sync`	LatentSync	潜在空间同步
`creatify`	Creatify	自动化驱动
`veed`	Veed	快速处理

资料来源：core/edit/lipsync.sh

video-effects.sh 视频特效

应用各类AI视频特效。

# 舞蹈效果
bash video-effects.sh \
    --op dance \
    --image-url "https://..." \
    --audio-url "https://..."

# 人脸替换
bash video-effects.sh \
    --op face-swap \
    --video-url "https://..." \
    --target-face "https://..."

# 换装效果
bash video-effects.sh \
    --op dress-change \
    --video-url "https://..." \
    --garment-image "https://..."

特效操作类型：

操作	说明	输入要求
`dance`	图像跟随音频起舞	image + audio
`face-swap`	视频人脸替换	video + target-face
`dress-change`	视频换装	video + garment-image
`luma-modify`	Luma特效	video
`luma-reframe`	Luma智能重构	video

资料来源：core/edit/video-effects.sh

通用参数

所有核心脚本支持以下通用参数：

参数	说明	适用脚本
`--async`	异步模式，不等待完成	全部
`--json`	输出JSON格式	全部
`--timeout N`	超时时间（秒）	全部
`--download <PATH>`	自动下载结果到指定目录	全部
`--view`	下载后自动打开系统查看器	全部
`--output-json`	结构化JSON输出	muapi-cli
`--jq '<EXPR>'`	jq表达式过滤输出	muapi-cli

资料来源：core/edit/SKILL.md - Common Flags

环境依赖

核心原语层依赖以下组件：

依赖	说明	用途
`muapi-cli`	muapi命令行工具	所有操作的核心引擎
`curl`	HTTP客户端	API请求
`jq`	JSON处理器	输出解析和过滤
`python3`	Python运行时	脚本逻辑
`MUAPI_KEY`	环境变量	API认证

安装 muapi-cli：

# npm 安装（推荐）
npm install -g muapi-cli

# pip 安装
pip install muapi-cli

# 直接运行（无需安装）
npx muapi-cli --help

资料来源：README.md - Install muapi CLI

典型工作流

完整图像编辑工作流

graph LR
    A[上传图像] --> B[配置API密钥]
    B --> C[执行编辑]
    C --> D{同步或异步}
    D -->|同步| E[直接返回结果]
    D -->|异步| F[获取request_id]
    F --> G[轮询结果]
    G --> H{完成?}
    H -->|否| G
    H -->|是| I[下载输出]
    I --> J[查看结果]

示例代码：

# 1. 配置API密钥
bash core/platform/setup.sh --add-key "YOUR_MUAPI_KEY"

# 2. 上传本地文件（自动获取URL）
IMAGE_URL=$(muapi upload file ./input.jpg --output-json --jq '.url' | tr -d '"')

# 3. 提交异步编辑任务
REQUEST_ID=$(muapi image edit "$IMAGE_URL" \
    --prompt "转换为吉卜力动画风格" \
    --model flux-kontext-pro \
    --no-wait \
    --output-json \
    --jq '.request_id' | tr -d '"')

# 4. 轮询等待结果
bash core/platform/check-result.sh --id "$REQUEST_ID"

# 5. 下载并查看
muapi predict wait "$REQUEST_ID" --download ./outputs --view

批量处理工作流

# 批量超分处理
for img in ./images/*.jpg; do
    IMAGE_URL=$(muapi upload file "$img" --output-json --jq '.url' | tr -d '"')
    REQUEST_ID=$(muapi enhance upscale "$IMAGE_URL" --no-wait --output-json --jq '.request_id' | tr -d '"')
    echo "$img: $REQUEST_ID" >> batch_jobs.txt
done

# 批量收集结果
while read line; do
    img=$(echo "$line" | cut -d: -f1)
    rid=$(echo "$line" | cut -d: -f2- | tr -d ' ')
    muapi predict wait "$rid" --download "./outputs/$img"
done < batch_jobs.txt

Schema 数据验证

核心原语层使用 schema_data.json 进行运行时验证：

{
  "models": {
    "flux-kontext-pro": {
      "endpoint": "/v1/image/edit/kontext",
      "aspect_ratios": ["1:1", "16:9", "9:16", "4:3"],
      "resolutions": ["1K", "2K", "4K"]
    }
  }
}

验证功能：

功能	说明
模型ID验证	确保请求的模型存在
端点解析	自动映射模型名到API端点
参数检查	验证 aspect_ratio、resolution、duration

# 列出所有可用模型
muapi models list

# 按类别筛选
muapi models list --category video --output-json

资料来源：README.md - Schema Reference

与 Expert Library 的关系

核心原语层为 Expert Library（专家库）提供底层支撑：

graph BT
    subgraph "Expert Library 专家库"
        A[Cinema Director] --> D[调用核心原语]
        B[Nano-Banana] --> D
        C[UI Designer] --> D
    end
    
    D --> E[core/edit]
    D --> F[core/platform]
    D --> G[muapi-cli]

分工原则：

层级	职责	抽象级别
Core Primitives	原子操作，薄封装	低
Expert Library	领域知识，工作流编排	高

专家库中的技能（如 Cinema Director）读取 SKILL.md 文件，按照步骤指示调用核心原语，实现专业级输出而无需暴露底层细节。

资料来源：README.md - Expert Library

常见问题与排查

认证问题

症状： API调用返回认证错误

排查步骤：

# 1. 确认密钥配置
bash core/platform/setup.sh --show-config

# 2. 测试密钥有效性
bash core/platform/setup.sh --test

异步任务卡住

症状： check-result.sh 长时间无响应

排查步骤：

# 1. 检查一次不过滤
bash core/platform/check-result.sh --id "YOUR_ID" --once

# 2. 查看任务状态
muapi predict result "YOUR_ID" --json

模型不支持

症状： 报错模型不存在

解决方案：

# 查看支持的模型列表
muapi models list --category image --output-json | jq '.models[].id'

总结

核心原语层是 Generative-Media-Skills 的基础设施，通过标准化的脚本封装提供：

平台无关性：统一的 CLI 接口，底层切换透明
零样板：无需编写 curl 或 JSON 解析代码
可组合性：脚本可自由组合构建复杂工作流
类型安全：Schema 验证确保参数正确性

核心原语层的设计哲学是简单、可信、持久——专注于做好一件事（与 muapi.ai API 交互），而不试图做太多。这与 Expert Library 的高级抽象形成良好互补，共同构成完整的 AI 媒体生成能力体系。

资料来源：README.md - Scalable Architecture

视频与动效技能库

视频与动效技能库是 Generative-Media-Skills 项目的核心模块之一，专门用于为 AI Agent 提供专业级的视频生成、编辑和动效制作能力。该技能库整合了文本转视频（Text-to-Video）、图片转视频（Image-to-Video）、视频剪辑（Video Editing）和短视频创作（Short Video Creation）等多条技术路线，支持从...

章节 相关页面

继续阅读本节完整说明和来源证据。

章节 分层设计

继续阅读本节完整说明和来源证据。

章节 技能分类

继续阅读本节完整说明和来源证据。

章节 Cinema Director（电影导演）

继续阅读本节完整说明和来源证据。

概述

资料来源：README.md

技术架构

分层设计

视频与动效技能库采用 Core/Library 分层架构：

graph TD
    A[用户/Agent] --> B[Expert Library 专家技能层]
    B --> C[core/media 媒体核心]
    B --> D[core/edit 编辑核心]
    B --> E[core/platform 平台核心]
    C --> F[muapi-cli]
    D --> F
    E --> F
    F --> G[muapi.ai API]

资料来源：README.md

技能分类

技能库包含 16 个视频动效技能，分为以下几大类：

类别	技能数量	代表技能
电影级视频生成	3	Cinema Director、Seedance 2.0、One-Shot Video
产品展示视频	4	Product Video Ad Maker、Giant Product Showcase、Jewelry Product Video、Product Showcase Video
人物视频创作	4	Animal Vlogger Video、Talking Baby Video、UGC Lifestyle Try-On、Cartoon Dance Animation
视频特效与动画	3	3D Logo Animation、AI Fight Scene Generator、Character Story Video
社交媒体短视频	2	UGC Video Factory、YouTube Shorts

资料来源：README.md

核心组件详解

Cinema Director（电影导演）

Cinema Director 是技能库中最具电影感的高级技能，提供专业的电影级视频生成能力。

功能特性：

支持 Kling v3.0 Pro 等顶级视频生成模型
可配置视频时长（1-10秒）
支持多种情绪风格（Intent）：epic（史诗）、cinematic（电影感）、dramatic（戏剧性）等
支持 Seedance 2.0 模型的文本转视频、图片转视频和视频扩展

资料来源：library/motion/cinema-director/SKILL.md

使用示例：

cd library/motion/cinema-director

# 创建10秒史诗级视频
bash scripts/generate-film.sh \
  --subject "a cybernetic dragon over Tokyo" \
  --intent "epic" \
  --model "kling-v3.0-pro" \
  --duration 10 \
  --view

资料来源：library/motion/cinema-director/scripts/generate-film.sh

Seedance 2.0（字节豆包视频）

Seedance 2.0 提供导演级别的专业视频生成能力，支持三种工作模式：

模式	说明
`t2v`	文本转视频（Text-to-Video）
`i2v`	图片转视频（Image-to-Video）
`extend`	视频扩展（Video Extension）

资料来源：library/motion/seedance-2/SKILL.md

核心脚本参数：

参数	类型	说明
`--mode`	string	工作模式：t2v/i2v/extend
`--subject`	string	视频主体描述
`--intent`	string	创作意图（如 reveal、orbit、sweep）
`--file`	string	输入图片路径（i2v模式必需）
`--request-id`	string	扩展模式需要提供原视频ID
`--duration`	int	视频时长（秒）
`--view`	flag	生成后自动打开查看

资料来源：library/motion/seedance-2/scripts/generate-seedance.sh

AI Clipping（智能剪辑）

AI Clipping 提供从长视频自动提取高传播力短视频的能力，是内容创作者的效率利器。

核心能力：

服务端转录：无需本地 Whisper，在服务端完成语音识别
病毒式排名：基于传播潜力自动排序精彩片段
去重机制：智能检测并去除重复内容
人脸追踪自动裁剪：保持人物始终在画面中心

资料来源：library/edit/ai-clipping/SKILL.md

UGC Video Factory（用户生成内容工厂）

UGC Video Factory 将产品推广流程自动化，从人物照片到10秒竖屏广告一气呵成。

工作流：

上传人物照片
上传产品照片
生成推广文案
Nano-Banana Pro 风格编辑
Seedance 2.0 VIP 图片转视频

资料来源：library/motion/ugc-video-factory/SKILL.md

Product Video Ad Maker（产品广告制作器）

高端电影级产品视频广告制作，从简单的产品照片即可生成专业级商业视频。

输出规格：

竖屏 9:16 格式
适配 TikTok/Reels/Shorts 平台
高端商业电影质感

资料来源：library/motion/product-video-ad-maker/SKILL.md

MCP 工具接口

视频与动效技能通过 MCP Server 暴露为结构化工具，Claude Desktop、Cursor 等 Agent 可直接调用。

资料来源：README.md

视频生成相关工具

工具名称	功能	支持模型数
`muapi_video_generate`	文本转视频	13
`muapi_video_from_image`	图片转视频	16
`muapi_video_extend`	视频扩展	2

视频编辑相关工具

工具名称	功能	支持模型数
`muapi_edit_lipsync`	口型同步	4
`muapi_edit_clipping`	AI 精彩片段提取	1
`muapi_enhance_upscale`	视频超分辨率	3

异步处理流程

视频生成采用异步工作模式，需要通过轮询获取结果：

sequenceDiagram
    participant Agent
    participant muapi
    participant API
    participant Storage

    Agent->>muapi: muapi video generate --no-wait
    muapi->>API: POST /video/generate
    API-->>muapi: request_id
    muapi-->>Agent: { request_id: "xxx" }

    loop 轮询直到完成
        Agent->>muapi: muapi predict result --id xxx
        muapi->>API: GET /predict/result?id=xxx
        API-->>muapi: status: pending/processing/done
        muapi-->>Agent: status
    end

    API->>Storage: 存储完成的视频
    Agent->>muapi: muapi predict wait --download ./outputs
    muapi->>API: GET /predict/result?id=xxx
    API-->>muapi: { outputs: [url] }
    muapi->>Storage: 下载视频文件
    muapi-->>Agent: ./outputs/video.mp4

资料来源：README.md

CLI 异步操作示例：

# 提交异步任务并获取 request_id
REQUEST_ID=$(muapi video generate "a dog running on a beach" \
  --model kling-master --no-wait --output-json --jq '.request_id' | tr -d '"')

# 执行其他任务...

# 等待并下载结果
muapi predict wait "$REQUEST_ID" --download ./outputs

使用指南

快速开始

前置条件：

安装 muapi-cli：npm install -g muapi-cli
配置 API Key：muapi auth configure --api-key "YOUR_MUAPI_KEY"

资料来源：README.md

基础视频生成

# 文本转视频
muapi video generate "a sunset over mountains" \
  --model kling-v3.0-pro \
  --duration 5 \
  --view

# 图片转视频
URL=$(muapi upload file ./product.jpg --output-json --jq '.url' | tr -d '"')
muapi video from-image "$URL" \
  --subject "camera slowly zooms in" \
  --model seedance-2.0 \
  --view

使用高级技能

# 使用 Cinema Director 生成电影级视频
cd library/motion/cinema-director
bash scripts/generate-film.sh \
  --subject "cybernetic samurai in Tokyo neon district" \
  --intent "cinematic" \
  --model kling-v3.0-pro \
  --duration 10 \
  --view

# 使用 Seedance 2.0 i2v 模式
cd library/motion/seedance-2
bash scripts/generate-seedance.sh \
  --mode i2v \
  --file ./concept.jpg \
  --subject "camera slowly pulls back to reveal the full landscape" \
  --intent "reveal" \
  --view

MCP Server 配置

在 Claude Desktop 或 Cursor 中配置 MCP Server：

{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": { "MUAPI_API_KEY": "your-key-here" }
    }
  }
}

配置完成后，Agent 可直接调用 muapi_video_generate、muapi_video_from_image 等工具，无需编写 Shell 脚本。

资料来源：README.md

常见问题与社区反馈

根据社区讨论，以下是用户关心的热点问题：

问题	说明	状态
视频生成速度慢	用户询问 GPU 加速支持	已支持云端 GPU 加速
发布到第三方平台	用户希望在视频生成后自动发布	路线图中
CUDA 本地运行	社区询问本地 CUDA 加速	推荐使用云端 API
Docker 支持	用户询问 Docker 部署方案	需要额外配置

资料来源：GitHub Issues #89, #70, #68

配套技能	用途
Nano-Banana	提供 Gemini 3 风格的图片生成作为视频素材
AI Clipping	将长视频自动剪辑为短视频
Lip Sync	为视频添加口型同步配音
Social Media Pack	生成各平台适配的社交媒体版本
YouTube Thumbnail	生成高点击率的视频缩略图

技术参考

CLI 文档：muapi-cli npm
API Key 获取：https://muapi.ai/dashboard
支持的模型列表：muapi models list --category video
支持的分辨率：flux-dev、kling-v3.0-pro、seedance-2.0 等主流模型

资料来源：README.md

图像与设计技能库

图像与设计技能库是 Generative-Media-Skills 项目中专注于视觉内容生成的专家知识层，提供 21 种专业图像生成和设计技能。该模块通过 muapi-cli 核心引擎驱动，结合 AI 推理能力，为 AI 代理提供从产品摄影到 UI 设计、从品牌标识到室内装修的全链路视觉内容创作能力。资料来源：[README.md]()

章节 相关页面

继续阅读本节完整说明和来源证据。

章节 可用脚本

继续阅读本节完整说明和来源证据。

章节 常用参数

继续阅读本节完整说明和来源证据。

章节 快速使用

继续阅读本节完整说明和来源证据。

架构概览

图像与设计技能库采用 核心层 / 技能层 双层架构：

graph TD
    A[AI 代理 Agent] --> B[技能层 Skill Library]
    B --> C[Nano-Banana 推理生成]
    B --> D[UI Designer 界面设计]
    B --> E[Logo Creator 标识创作]
    B --> F[Interior Design 室内设计]
    B --> G[Action Figure 人偶生成]
    
    C --> H[core/edit 编辑核心]
    D --> H
    E --> H
    F --> H
    G --> H
    
    H --> I[muapi-cli 核心引擎]
    I --> J[Flux Kontext Pro]
    I --> K[Midjourney v7]
    I --> L[Kling 3.0]
    I --> M[HiDream]

技能层封装专业领域知识，核心层处理底层 API 调用，两者通过标准化 CLI 接口通信。资料来源：README.md

核心编辑功能

core/edit 模块提供基础的图像编辑与增强能力，是所有高级视觉技能的底层支撑。资料来源：core/edit/SKILL.md

可用脚本

脚本	功能描述
`edit-image.sh`	基于提示词的图像编辑（支持 Flux Kontext、GPT-4o、Midjourney、Qwen 等模型）
`enhance-image.sh`	一键增强操作：超分辨率、背景移除、人脸替换、色彩化、吉卜力风格、产品摄影
`lipsync.sh`	视频唇形同步（支持 Sync Labs、LatentSync、Creatify、Veed）
`video-effects.sh`	视频特效：AI 特效、人脸替换、舞蹈、换装、Luma 修饰/重构

常用参数

所有脚本支持以下通用参数：

--async      # 异步提交，不等待结果
--json       # 输出 JSON 格式
--timeout N  # 超时时间（秒）
--help       # 显示帮助信息

快速使用

# 图像编辑
bash edit-image.sh --image-url "https://..." --prompt "添加太阳镜" --model flux-kontext-pro

# 超分辨率放大
bash enhance-image.sh --op upscale --image-url "https://..."

# 背景移除
bash enhance-image.sh --op background-remove --image-url "https://..."

# 唇形同步
bash lipsync.sh --video-url "https://..." --audio-url "https://..." --model sync

# 舞蹈特效
bash video-effects.sh --op dance --image-url "https://..." --audio-url "https://..."

资料来源：core/edit/SKILL.md

Nano-Banana 推理生成

Nano-Banana 是项目中最具创新性的图像生成技能，采用 AI 推理驱动的方式生成高质量视觉内容。其设计理念融合了 Gemini 3 的推理风格，能够在生成过程中进行多步思考和优化。资料来源：library/visual/nano-banana/SKILL.md

核心特性

推理驱动的生成：通过链式思维（Chain-of-Thought）方式分析输入，逐步优化生成结果
2K/4K 高分辨率输出：支持超高清分辨率选项
多风格支持：涵盖微距摄影、电影感、人像、产品摄影等多种风格
视角控制：支持鱼眼、鸟瞰、低角度、微距等多种拍摄视角

工作流程

graph LR
    A[输入源文件] --> B[输入主体描述]
    B --> C[选择风格]
    C --> D[Nano-Banana 推理引擎]
    D --> E{分辨率选择}
    E -->|2K| F[生成2K图像]
    E -->|4K| G[生成4K图像]
    F --> H[自动下载并预览]
    G --> H

脚本使用

bash library/visual/nano-banana/scripts/generate-nano-art.sh \
  --file ./my-source-image.jpg \
  --subject "一只玻璃蜂鸟" \
  --style "macro photography" \
  --resolution "2k" \
  --view

参数说明：

参数	必需	描述
`--file`	是	输入源图像文件路径
`--subject`	是	主体描述
`--style`	是	艺术风格（macro photography、cinematic、portrait 等）
`--resolution`	否	输出分辨率（2k、4k），默认 2k
`--view`	否	生成后自动打开预览

资料来源：library/visual/nano-banana/SKILL.md

UI Designer 界面设计

UI Designer 技能专注于生成高保真移动端和 Web 端界面设计稿，采用原子设计（Atomic Design）方法论构建可复用的设计系统。资料来源：library/visual/ui-design/SKILL.md

设计方法论

该技能遵循原子设计的五级层次结构：

层级	描述	示例
原子	基础UI组件	按钮、输入框、图标
分子	简单组件组合	搜索框（图标+输入框+按钮）
有机体	复杂功能模块	导航栏、卡片组件
模板	页面骨架结构	列表页模板、表单页模板
页面	完整设计稿	登录页、个人中心页

脚本使用

bash library/visual/ui-design/scripts/generate-mockup.sh \
  --type "mobile-app" \
  --theme "modern-minimal" \
  --output ./outputs/ui-mockup.png

支持生成类型包括：mobile-app、web-dashboard、landing-page、e-commerce 等。

资料来源：library/visual/ui-design/SKILL.md

Logo Creator 标识创作

Logo Creator 提供简洁高效的矢量风格品牌标识生成能力，通过几何原语构建专业级品牌视觉系统。资料来源：library/visual/logo-creator/SKILL.md

设计特点

几何原语驱动：使用基础几何形状构建复杂标识
品牌一致性：生成标识时可同时输出品牌色板、字体配对建议
多格式输出：支持 SVG、PNG、PDF 等多种格式

脚本使用

bash library/visual/logo-creator/scripts/create-logo.sh \
  --name "TechCorp" \
  --style "geometric" \
  --colors "blue,white" \
  --output ./outputs/logo.png

资料来源：library/visual/logo-creator/SKILL.md

专业技能库

产品摄影类

技能	描述	适用场景
Action Figure Generator	将人物照片转换为3D手办人偶造型	玩具、收藏品营销
Amazon Product Listing	亚马逊产品图组（主图+场景图+信息图+细节图）	电商平台
Photo Pack Generator	多角度产品拍摄套组	产品展示
Jewelry Product Video	奢侈珠宝高定摄影与动画	高端品牌

品牌设计类

技能	描述	适用场景
Brand Kit	品牌视觉套件（标识概念、色板、字体配对）	品牌建设
Brand Design Guide	完整设计规范（色板、字体、UI组件、视觉规则）	设计系统
Logo + Branding Package	标识+完整品牌包（深色/浅色/图标变体、色板、模型）	品牌启动
Logo Generator	快速单次精致标识（干净矢量美学）	快速原型

室内与空间设计

技能	描述	适用场景
Interior Design	专业室内设计可视化	装修设计
Interior Design Visualizer	生成空房间并填充家具/装饰，或重设现有房间	室内软装
Floor Plan Rendering	2D平面图转3D建筑渲染	建筑设计
Fashion Try-On	虚拟试衣（人物照片+服装单品组合）	时尚电商

社交媒体类

技能	描述	适用场景
YouTube Thumbnail	高点击率YouTube缩略图	内容创作
Instagram Post	品牌风格Instagram帖子（主图+文案+标签）	社交营销
Social Media Pack	主图转多平台比例（Instagram/TikTok/Shorts/X）	跨平台运营
RedNote Cover	小红书封面图（活力生活方式美学）	中文平台

资料来源：README.md

模型支持

图像与设计技能库通过 muapi-cli 接入 100+ AI 图像生成模型：

主流模型

模型	类型	特点
Flux Kontext Pro	图像编辑	提示词驱动的精准编辑
Midjourney v7	通用生成	高美学质量
HiDream Fast	快速生成	速度快，适合预览
HiDream	高质量生成	细节丰富
Kling 3.0	图生视频	图像转视频能力
Seedance 2.0	视频生成	导演级电影效果

模型查询

# 列出所有图像模型
muapi models list --category image

# 查看具体模型参数
muapi models list --output-json | jq '.[] | select(.category == "image")'

资料来源：README.md

AI 代理集成

图像与设计技能库专为 AI 代理设计，支持多种集成方式：

MCP 服务器模式

muapi mcp serve

在 Claude Desktop 配置中启用：

{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": { "MUAPI_API_KEY": "your-key-here" }
    }
  }
}

CLI 直接调用

# 生成图像并自动下载
muapi image generate "科技产品特写" --model flux-dev --download ./outputs

# 仅获取 URL（供代理后续处理）
muapi image generate "产品图" --model flux-schnell --output-json --jq '.outputs[0]'

执行代理技能

# 安装所有视觉技能
npx skills add SamurAIGPT/Generative-Media-Skills --skill muapi-visual

# 或安装到特定代理
npx skills add SamurAIGPT/Generative-Media-Skills --all -a claude-code -a cursor

资料来源：README.md

常见工作流程

产品广告生成流程

graph TD
    A[上传产品照片] --> B[Nano-Banana 增强处理]
    B --> C[生成多角度视图]
    C --> D[Interior Design 场景合成]
    D --> E[AI Clipping 提取精华片段]
    E --> F[Seedance 2.0 视频化]
    F --> G[最终广告成品]

品牌设计流程

graph TD
    A[品牌名称输入] --> B[Logo Creator 生成标识]
    B --> C[Brand Kit 生成品牌套件]
    C --> D[UI Designer 应用到界面]
    D --> E[Social Pack 发布到各平台]

社区关注点

根据社区反馈，用户对以下功能表示关注：

发布到 Vynly：Issue #89 中用户提议在媒体生成后添加一键发布到 Vynly 的技能，实现完整的生成到发布工作流
CUDA 加速：Issue #70 中用户询问是否支持 CUDA 加速，目前图像生成主要依赖云端 API
多语言支持：用户希望技能能支持不同语言的提示词处理，包括西班牙语等

环境要求

组件	要求
muapi-cli	最新版（npm 或 pip 安装）
curl	系统自带
jq	JSON 处理
python3	脚本执行
MUAPI_KEY	通过 `muapi auth configure` 配置

资料来源：core/edit/SKILL.md

下一步

探索运动与视频技能库了解视频生成能力
查看 MCP 服务器配置了解代理集成详情
阅读架构设计文档了解核心层与技能层交互

资料来源：core/edit/SKILL.md

社交媒体技能库

社交媒体技能库是 Generative-Media-Skills 项目中专注于社交平台内容生成的专业技能集合。该技能库包含 5 个核心技能和 1 个视频处理技能，旨在帮助 AI Agent 自动化生成面向各大社交平台的营销内容和创意素材。

章节 相关页面

继续阅读本节完整说明和来源证据。

核心功能定位：

多平台适配：支持 Instagram、小红书 (RedNote)、YouTube Shorts、TikTok、抖音等多平台
一站式工作流：从素材输入到多平台分发的完整自动化流程
AI 驱动的内容创作：利用 Nano-Banana、Seedance 2.0 等先进模型生成高质量内容
UGC 风格支持：生成真实用户生成内容风格的口碑营销素材

技能清单：

技能名称	路径	描述
Instagram Post	`library/social/instagram-post/`	品牌风格一致的 Instagram 帖子生成
Product Campaign Pack	`library/social/product-campaign/`	多渠道营销活动综合素材包
RedNote Cover	`library/social/rednote-cover/`	小红书封面图生成
Social Media Pack	`library/social/social-pack/`	主流社交平台多比例素材适配
UGC Ads Workflow	`library/social/ugc-ads-workflow/`	UGC 风格视频广告制作流程
YouTube Shorts	`library/social/youtube-shorts/`	短视频平台垂直内容制作

资料来源：README.md

MCP服务器集成

MCP（Model Context Protocol）服务器集成是 Generative-Media-Skills 项目为 AI 代理提供的核心功能之一。通过运行 muapi mcp serve 命令，可以将 muapi.ai 平台的所有多媒体生成工具以结构化的 MCP 工具形式暴露给支持 MCP 协议的 AI 代理客户端（如 Claude Desktop、Cursor、W...

章节 相关页面

继续阅读本节完整说明和来源证据。

章节 系统组件关系

继续阅读本节完整说明和来源证据。

章节 工具分类总览

继续阅读本节完整说明和来源证据。

章节 1. 启动 MCP 服务器

继续阅读本节完整说明和来源证据。

概述

MCP（Model Context Protocol）服务器集成是 Generative-Media-Skills 项目为 AI 代理提供的核心功能之一。通过运行 muapi mcp serve 命令，可以将 muapi.ai 平台的所有多媒体生成工具以结构化的 MCP 工具形式暴露给支持 MCP 协议的 AI 代理客户端（如 Claude Desktop、Cursor、Windsurf 等）。资料来源：README.md

这种集成方式使 AI 代理无需通过 shell 脚本或命令行调用，即可直接调用多媒体生成工具，实现了零脚本、零 JSON 解析的原生代理体验。

架构设计

系统组件关系

graph TD
    A[AI 代理客户端<br/>Claude Desktop / Cursor / Windsurf] --> B[MCP Server<br/>muapi mcp serve]
    B --> C[muapi-cli 核心引擎]
    C --> D[muapi.ai API]
    D --> E[多媒体生成服务]
    
    F[19个MCP工具] --> B
    G[JSON Schema<br/>输入/输出定义] --> F

工具分类总览

类别	工具数量	功能描述
图像生成	1	文本转图像（14种模型）
图像编辑	1	图像转图像编辑（11种模型）
视频生成	2	文本转视频、图像转视频
音频处理	2	音乐生成、音效合成
增强处理	4	AI放大、背景移除、人脸交换、Ghibli风格转换
编辑功能	2	唇形同步、AI剪辑
账户管理	4	API密钥管理、余额查询、充值
文件操作	1	本地文件上传至CDN

快速配置

1. 启动 MCP 服务器

muapi mcp serve

该命令会在本地启动 MCP 服务器，默认监听标准 MCP 协议端口。资料来源：README.md

2. Claude Desktop 配置

编辑 Claude Desktop 配置文件：

macOS 路径： ~/Library/Application Support/Claude/claude_desktop_config.json

Windows 路径： %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": {
        "MUAPI_API_KEY": "your-key-here"
      }
    }
  }
}

3. API Key 配置

确保在环境变量中配置有效的 muapi.ai API Key：

# 方式一：通过环境变量
export MUAPI_API_KEY="your-api-key"

# 方式二：通过 muapi-cli 配置
muapi auth configure --api-key "your-api-key"

获取 API Key：访问 https://muapi.ai/dashboard

MCP 工具清单

媒体生成工具

工具名称	输入参数	输出	模型支持
`muapi_image_generate`	prompt, model, aspect_ratio, resolution	图像URL数组	14种模型（Flux、Midjourney等）
`muapi_image_edit`	prompt, image, model	图像URL	11种模型
`muapi_video_generate`	prompt, model, duration	视频URL	13种模型
`muapi_video_from_image`	image, prompt, model	视频URL	16种模型

音频生成工具

工具名称	输入参数	输出	服务
`muapi_audio_create`	prompt, style	音频URL	Suno 音乐生成
`muapi_audio_from_text`	text, type	音频URL	MMAudio 音效

增强处理工具

工具名称	操作类型	输入	输出
`muapi_enhance_upscale`	upscale	图像URL	高分辨率图像
`muapi_enhance_bg_remove`	background-remove	图像URL	透明背景图像
`muapi_enhance_face_swap`	face-swap	图像/视频 + 人脸	换脸结果
`muapi_enhance_ghibli`	ghibli-style	图像URL	吉卜力风格图像

编辑工具

工具名称	功能	输入	输出
`muapi_edit_lipsync`	唇形同步	视频 + 音频	同步后视频
`muapi_edit_clipping`	AI剪辑	长视频	精选片段

账户管理工具

工具名称	功能描述
`muapi_keys_list`	列出所有API密钥
`muapi_keys_create`	创建新API密钥
`muapi_keys_delete`	删除指定API密钥
`muapi_account_balance`	查询账户余额
`muapi_account_topup`	充值（Stripe结账）

文件操作工具

工具名称	功能描述
`muapi_upload_file`	上传本地文件并返回CDN URL

工作流程示例

异步视频生成与轮询

sequenceDiagram
    participant Agent as AI代理
    participant MCP as MCP Server
    participant API as muapi.ai API
    participant Storage as 存储服务
    
    Agent->>MCP: muapi_video_generate<br/>"a dog running" --model kling-v3.0-pro
    MCP->>API: 提交异步请求
    API-->>MCP: 返回 request_id
    MCP-->>Agent: { request_id: "xxx", status: "pending" }
    
    Agent->>MCP: muapi_predict_result --id "xxx"
    API-->>MCP: { status: "processing" }
    MCP-->>Agent: { status: "processing" }
    
    Agent->>MCP: muapi_predict_result --id "xxx"
    API-->>MCP: { status: "completed", outputs: [...] }
    MCP-->>Agent: 视频生成完成

典型代理对话流程

graph LR
    A[用户请求] --> B[Claude Desktop<br/>解析意图]
    B --> C[MCP工具调用<br/>muapi_image_generate]
    C --> D[返回结构化JSON]
    D --> E[代理整合结果]
    E --> F[用户响应]

JSON Schema 规范

每个 MCP 工具都提供完整的 JSON Schema 定义，包含：

输入模式（inputSchema）：定义必需参数和可选参数
输出模式（outputSchema）：定义返回数据结构
描述文档：每个参数的用途和类型说明

{
  "name": "muapi_image_generate",
  "description": "Generate image from text prompt",
  "inputSchema": {
    "type": "object",
    "properties": {
      "prompt": { "type": "string" },
      "model": { "type": "string", "enum": ["flux-dev", "flux-schnell", ...] },
      "aspect_ratio": { "type": "string" },
      "resolution": { "type": "string" }
    },
    "required": ["prompt"]
  }
}

兼容客户端

客户端	支持状态	配置方式
Claude Desktop	✅ 完全支持	claude_desktop_config.json
Cursor	✅ 完全支持	MCP设置面板
Windsurf	✅ 完全支持	MCP配置
Gemini CLI	✅ 兼容	环境变量 + 直接调用
自定义 MCP 客户端	✅ 兼容	标准 MCP 协议

常见问题

Q1: MCP 服务器启动失败

症状： 执行 muapi mcp serve 无响应或报错

解决方案：

确认已安装 muapi-cli：npm install -g muapi-cli
检查 API Key 配置是否正确
验证网络连接：确保能访问 muapi.ai

Q2: 工具调用超时

症状： 调用生成工具后长时间无响应

解决方案： 使用异步模式 + 轮询机制：

# 提交任务（不等待）
muapi video generate "prompt" --model kling-v3.0-pro --no-wait

# 获取 request_id 后轮询结果
muapi predict wait "request-id" --download ./outputs

Q3: API Key 无效

症状： 返回认证错误

解决方案：

muapi auth configure --api-key "your-new-key"

与传统 CLI 的对比

特性	MCP Server 模式	CLI 脚本模式
调用方式	结构化工具调用	shell 命令执行
结果处理	自动 JSON 解析	需要 `--output-json --jq`
代理友好度	⭐⭐⭐⭐⭐	⭐⭐⭐
实时流输出	支持	支持
错误处理	结构化错误	文本解析

扩展阅读

来源：https://github.com/SamurAIGPT/Generative-Media-Skills / 项目说明书

常见问题与故障排除

本文档汇集了 Generative-Media-Skills 项目在使用过程中常见的问题及其解决方案，涵盖环境配置、API 集成、媒体生成和运行时问题等多个方面。

章节 相关页面

继续阅读本节完整说明和来源证据。

章节 muapi-cli 安装失败

继续阅读本节完整说明和来源证据。

章节 API Key 配置异常

继续阅读本节完整说明和来源证据。

章节 Ubuntu 服务器依赖缺失

继续阅读本节完整说明和来源证据。

环境配置问题

muapi-cli 安装失败

问题描述：使用 npm 或 pip 安装 muapi-cli 时出现错误。

解决方案：

# 通过 npm 安装（推荐，无需 Python 环境）
npm install -g muapi-cli

# 或通过 pip 安装
pip install muapi-cli

# 或直接运行而不安装
npx muapi-cli --help

参考资料：README.md

API Key 配置异常

问题描述：配置 API Key 后无法正常调用 API，提示认证失败。

解决方案：确保 API Key 正确配置并验证其有效性。

# 交互式配置
muapi auth configure

# 直接指定 API Key
muapi auth configure --api-key "YOUR_MUAPI_KEY"

# 测试 API Key 是否有效
bash core/platform/setup.sh --test

# 查看当前配置
bash core/platform/setup.sh --show-config

API Key 验证流程：

graph TD
    A[开始配置] --> B[检查 MUAPI_KEY 环境变量]
    B --> C{Key 是否存在?}
    C -->|是| D[测试 API 连接]
    C -->|否| E[提示配置 Key]
    D --> F{连接成功?}
    F -->|是| G[配置完成]
    F -->|否| H[检查 Key 有效性]
    H --> I[重新获取 Key]

参考资料：core/platform/SKILL.md

Ubuntu 服务器依赖缺失

问题描述：在 Ubuntu 服务器上安装依赖时缺少必要的开发工具。

解决方案：根据社区反馈，安装以下依赖：

apt install python3-dev make g++
pip install wheel
pip install -r requirements.txt

同时确保安装正确版本的 NodeJS：

curl -sL https://deb.nodesource.com/setup_18.x | sudo bash -

参考资料：GitHub Issue #43

媒体生成问题

图像生成返回乱码或异常响应

问题描述：模型训练后生成的响应出现乱码，如 "H9E,:?&+8&1<*<2E(#!=)G68/?5C/BGC,..."。

可能原因：

模型加载不完整或损坏
编码处理错误
模型与输入数据不兼容

解决方案：

重新下载并验证模型文件完整性
确保上传的文档使用 UTF-8 编码
检查训练数据集的质量和格式

参考资料：GitHub Issue #39

图像编辑操作失败

问题描述：使用 edit-image.sh 进行图像编辑时请求失败。

基本用法：

bash core/edit/edit-image.sh \
    --image-url "https://example.com/image.jpg" \
    --prompt "添加太阳镜" \
    --model flux-kontext-pro

支持的操作类型：

操作	命令参数	说明
提示词编辑	`--op edit`	基于文本提示修改图像
超分辨率	`--op upscale`	提升图像分辨率
背景移除	`--op background-remove`	移除图像背景
人脸替换	`--op face-swap`	换脸操作
吉卜力风格	`--op ghibli`	转换为吉卜力动画风格

参考资料：core/edit/SKILL.md

异步任务结果查询

问题描述：提交异步生成任务后无法获取结果。

解决方案：使用 check-result.sh 脚本查询任务状态。

# 持续轮询直到完成
bash core/platform/check-result.sh --id "your-request-id"

# 单次查询（不轮询）
bash core/platform/check-result.sh --id "your-request-id" --once

异步任务流程：

graph LR
    A[提交任务] --> B[获取 request_id]
    B --> C[轮询状态]
    C --> D{完成?}
    D -->|否| C
    D -->|是| E[获取结果]
    E --> F[下载媒体]

参考资料：core/platform/check-result.sh

性能与加速问题

GPU 加速支持

问题描述：用户询问是否支持 GPU 加速以加快处理速度。

当前状态：本项目主要依赖 muapi.ai 云端 API 服务，GPU 加速由服务端处理。客户端本地运行不受 GPU 限制影响。

提升响应速度的建议：

使用更快的生成模型（如 --model flux-schnell）
减少输入内容的复杂度
使用异步模式处理批量任务

# 异步提交（不等待完成）
muapi video generate "a dog running" \
    --model kling-master \
    --no-wait \
    --output-json

# 后续再查询结果
muapi predict wait "$REQUEST_ID" --download ./outputs

参考资料：GitHub Issue #7、GitHub Issue #16

CUDA 支持

问题描述：用户询问是否支持 CUDA 进行本地计算加速。

当前状态：本项目的设计架构使用云端 API，CUDA 相关计算在 muapi.ai 服务端处理。客户端无需配置本地 CUDA 环境。

参考资料：GitHub Issue #70

运行时错误

500 内部服务器错误

问题描述：上传文档后提问时收到 500 Internal Server Error。

错误信息：

Error getting data.
<!doctype html>
<html lang=en>
<title>500 Internal Server Error</title>
<h1>Internal Server Error</h1>
<p>The server encountered an internal error...</p>

可能原因：

服务器过载
上传的文档处理异常
后端服务暂时不可用

建议操作：

稍后重试
尝试重新上传文档
检查文档格式是否受支持（PDF、DOCX、PPT 等）
减小文档大小后重试

参考资料：GitHub Issue #27

npm run dev 挂起

问题描述：在 PowerShell 中运行 npm run dev 时卡在某个点不继续。

错误信息：

Import trace for requested module:
./node_modules/next/dist/lib/is-api-route.js
./node_modules/next/dist/shared/lib/router/router.js
./node_modules/next/dist/lib/is-error.js

解决方案：

清理 node_modules 并重新安装：

rm -rf node_modules package-lock.json
npm install

确保使用正确版本的 NodeJS：

node --version  # 应为 v18.x 或更高

检查是否有端口冲突：

# Windows
netstat -ano | findstr :3000

# Linux/Mac
lsof -i :3000

参考资料：GitHub Issue #34、GitHub Issue #45

模型下载错误

问题描述：下载模型时进度达到 100% 后出现错误。

错误信息：

Download Progress: 100.0%
Found model file.
gptj_model_load: loading model from 'models/ggml-gpt4all-j-v1.3-groovy.bin'

解决方案：

检查模型文件是否完整下载
验证模型文件的 SHA256 校验和
删除损坏的文件后重新下载

注意：如果使用的是 GPT4All 模型，该库不支持 GPU 加速。如需 GPU 支持，建议使用支持 CUDA 的模型如 Llama。

参考资料：GitHub Issue #38、GitHub Issue #44

CLI 使用问题

命令执行无响应

问题描述：执行 muapi 命令后无输出或无响应。

排查步骤：

graph TD
    A[命令无响应] --> B[检查 API Key]
    B --> C{Key 有效?}
    C -->|否| D[重新配置 Key]
    C -->|是| E[检查网络连接]
    E --> F{网络正常?}
    F -->|否| G[检查代理设置]
    F -->|是| H[查看详细日志]
    H --> I[使用 --json 输出]

常用诊断命令：

# 显示完整配置
muapi auth configure --show-config

# 测试 API 连接
muapi auth configure --test

# 列出可用模型
muapi models list

# 查看特定类别模型
muapi models list --category video --output-json

参考资料：core/platform/setup.sh

输出格式问题

问题描述：需要以特定格式提取命令输出用于脚本处理。

解决方案：使用 --output-json 和 --jq 参数进行格式化输出。

# 获取纯 URL 输出
muapi image generate "a sunset" \
    --model flux-schnell \
    --output-json \
    --jq '.outputs[0]'

# 提取 request_id
REQUEST_ID=$(muapi video generate "a dog running" \
    --model kling-master \
    --no-wait \
    --output-json \
    --jq '.request_id' | tr -d '"')

管道组合示例：

# 上传 → 编辑 → 下载
URL=$(muapi upload file ./photo.jpg \
    --output-json \
    --jq '.url' | tr -d '"')

muapi image edit "make it look like a painting" \
    --image "$URL" \
    --model flux-kontext-pro \
    --download ./outputs

MCP 服务器问题

MCP Server 连接失败

问题描述：无法通过 MCP 协议连接到 muapi 服务。

解决方案：

启动 MCP 服务器：

muapi mcp serve

配置 Claude Desktop（~/Library/Application Support/Claude/claude_desktop_config.json）：

{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": { "MUAPI_API_KEY": "your-key-here" }
    }
  }
}

验证 MCP 工具列表是否包含所有 19 个工具：

工具类别	工具数量	说明
图像生成	1	Text-to-image
图像编辑	1	Image-to-image
视频生成	2	文本/图像转视频
音频创建	2	音乐/音效
图像增强	4	超分/背景移除/人脸替换/风格化
视频编辑	2	唇同步/AI剪辑
文件操作	1	文件上传
密钥管理	3	列出/创建/删除
账户管理	2	余额/充值

参考资料：README.md - MCP Server 部分

故障排除工具

常用诊断脚本

脚本路径	功能	用法
`core/platform/setup.sh`	API Key 配置与验证	`bash setup.sh --test`
`core/platform/check-result.sh`	异步任务状态查询	`bash check-result.sh --id "xxx"`
`core/edit/edit-image.sh`	图像编辑操作	`bash edit-image.sh --image-url "..." --prompt "..."`
`core/edit/enhance-image.sh`	图像增强操作	`bash enhance-image.sh --op upscale --image-url "..."`

环境变量检查

确保以下环境变量正确设置：

# 检查 API Key
echo $MUAPI_API_KEY

# 设置 API Key（如果缺失）
export MUAPI_API_KEY="your-api-key-here"

依赖验证

# 验证 curl
curl --version

# 验证 jq
jq --version

# 验证 Python3
python3 --version

# 验证 muapi-cli
muapi --version

获取帮助

如果以上方案均无法解决您的问题：

搜索 GitHub Issues 查看是否已有类似问题
创建新 Issue 并提供以下信息：

操作系统和版本
muapi-cli 版本（muapi --version）
完整的错误信息
复现步骤

访问 muapi.ai 检查账户状态和 API 余额

来源：https://github.com/SamurAIGPT/Generative-Media-Skills / 项目说明书

失败模式与踩坑日记

保留 Doramagic 在发现、验证和编译中沉淀的项目专属风险，不把社区讨论只当作装饰信息。

high 来源证据：Optional: add a 'publish to Vynly' skill after media generation?

可能影响授权、密钥配置或安全边界。

medium 仓库名和安装名不一致

用户照着仓库名搜索包或照着包名找仓库时容易走错入口。

medium 来源证据：Error downloading model

可能增加新用户试用和生产接入成本。

medium 来源证据：Server install pre-requisites on Ubuntu

可能增加新用户试用和生产接入成本。

Pitfall Log / 踩坑日志

项目：SamurAIGPT/Generative-Media-Skills

摘要：发现 17 个潜在踩坑项，其中 1 个为 high/blocking；最高优先级：安全/权限坑 - 来源证据：Optional: add a 'publish to Vynly' skill after media generation?。

1. 安全/权限坑 · 来源证据：Optional: add a 'publish to Vynly' skill after media generation?

严重度：high
证据强度：source_linked
发现：GitHub 社区证据显示该项目存在一个安全/权限相关的待验证问题：Optional: add a 'publish to Vynly' skill after media generation?
对用户的影响：可能影响授权、密钥配置或安全边界。
建议检查：来源问题仍为 open，Pack Agent 需要复核是否仍影响当前版本。
防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
证据：community_evidence:github | cevd_e801ed325bcf4fbbb8e0d9cac02b5f7f | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/89 | 来源类型 github_issue 暴露的待验证使用条件。

2. 身份坑 · 仓库名和安装名不一致

严重度：medium
证据强度：runtime_trace
发现：仓库名 generative-media-skills 与安装入口 skills 不完全一致。
对用户的影响：用户照着仓库名搜索包或照着包名找仓库时容易走错入口。
建议检查：在 npm/PyPI/GitHub 上确认包名映射和官方 README 说明。
复现命令：npx skills
防护动作：页面必须同时展示 repo 名和真实安装入口，避免用户搜索错包。
证据：identity.distribution | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | repo=generative-media-skills; install=skills

3. 安装坑 · 来源证据：Error downloading model

严重度：medium
证据强度：source_linked
发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：Error downloading model
对用户的影响：可能增加新用户试用和生产接入成本。
建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
证据：community_evidence:github | cevd_ec1cdc92d8c84b2bbce43cf37a668443 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/44 | 来源讨论提到 node 相关条件，需在安装/试用前复核。

4. 安装坑 · 来源证据：Server install pre-requisites on Ubuntu

严重度：medium
证据强度：source_linked
发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：Server install pre-requisites on Ubuntu
对用户的影响：可能增加新用户试用和生产接入成本。
建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
证据：community_evidence:github | cevd_c7a0e07d61b547aba3280ac82ac305e2 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/43 | 来源讨论提到 python 相关条件，需在安装/试用前复核。

5. 安装坑 · 来源证据：install vicuna13b?

严重度：medium
证据强度：source_linked
发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：install vicuna13b?
对用户的影响：可能增加新用户试用和生产接入成本。
建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
证据：community_evidence:github | cevd_c6ace8e72f95491f945200849e083d96 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/46 | 来源类型 github_issue 暴露的待验证使用条件。

6. 安装坑 · 来源证据：npm run dev error

严重度：medium
证据强度：source_linked
发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：npm run dev error
对用户的影响：可能增加新用户试用和生产接入成本。
建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
证据：community_evidence:github | cevd_de5cf59443c74838a8d10d1ecbec9457 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/45 | 来源讨论提到 python 相关条件，需在安装/试用前复核。

7. 安装坑 · 来源证据：npm run dev hang in certain point

严重度：medium
证据强度：source_linked
发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：npm run dev hang in certain point
对用户的影响：可能增加新用户试用和生产接入成本。
建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
证据：community_evidence:github | cevd_8082f7c5e7be496c89fac789d932e74c | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/34 | 来源讨论提到 node 相关条件，需在安装/试用前复核。

8. 配置坑 · 可能修改宿主 AI 配置

严重度：medium
证据强度：source_linked
发现：项目面向 Claude/Cursor/Codex/Gemini/OpenCode 等宿主，或安装命令涉及用户配置目录。
对用户的影响：安装可能改变本机 AI 工具行为，用户需要知道写入位置和回滚方法。
建议检查：列出会写入的配置文件、目录和卸载/回滚步骤。
防护动作：涉及宿主配置目录时必须给回滚路径，不能只给安装命令。
证据：capability.host_targets | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | host_targets=claude, claude_code, cursor

9. 配置坑 · 来源证据：Model download error on 100% progress

严重度：medium
证据强度：source_linked
发现：GitHub 社区证据显示该项目存在一个配置相关的待验证问题：Model download error on 100% progress
对用户的影响：可能增加新用户试用和生产接入成本。
建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
证据：community_evidence:github | cevd_14498a89412f40ceb03d61889ea96de2 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/38 | 来源讨论提到 python 相关条件，需在安装/试用前复核。

10. 能力坑 · 能力判断依赖假设

严重度：medium
证据强度：source_linked
发现：README/documentation is current enough for a first validation pass.
对用户的影响：假设不成立时，用户拿不到承诺的能力。
建议检查：将假设转成下游验证清单。
防护动作：假设必须转成验证项；没有验证结果前不能写成事实。
证据：capability.assumptions | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | README/documentation is current enough for a first validation pass.

11. 运行坑 · 来源证据：500 Internal Server Error

严重度：medium
证据强度：source_linked
发现：GitHub 社区证据显示该项目存在一个运行相关的待验证问题：500 Internal Server Error
对用户的影响：可能增加新用户试用和生产接入成本。
建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
证据：community_evidence:github | cevd_36c10c9b7ece4b10af4873b655817add | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/27 | 来源讨论提到 python 相关条件，需在安装/试用前复核。

12. 运行坑 · 来源证据：Error Fetching Answer. Please try again.

严重度：medium
证据强度：source_linked
发现：GitHub 社区证据显示该项目存在一个运行相关的待验证问题：Error Fetching Answer. Please try again.
对用户的影响：可能增加新用户试用和生产接入成本。
建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
证据：community_evidence:github | cevd_a8e460757f114a9d8e4357758c834524 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/54 | 来源类型 github_issue 暴露的待验证使用条件。

13. 维护坑 · 维护活跃度未知

严重度：medium
证据强度：source_linked
发现：未记录 last_activity_observed。
对用户的影响：新项目、停更项目和活跃项目会被混在一起，推荐信任度下降。
建议检查：补 GitHub 最近 commit、release、issue/PR 响应信号。
防护动作：维护活跃度未知时，推荐强度不能标为高信任。
证据：evidence.maintainer_signals | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | last_activity_observed missing

14. 安全/权限坑 · 下游验证发现风险项

严重度：medium
证据强度：source_linked
发现：no_demo
对用户的影响：下游已经要求复核，不能在页面中弱化。
建议检查：进入安全/权限治理复核队列。
防护动作：下游风险存在时必须保持 review/recommendation 降级。
证据：downstream_validation.risk_items | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | no_demo; severity=medium

15. 安全/权限坑 · 存在评分风险

严重度：medium
证据强度：source_linked
发现：no_demo
对用户的影响：风险会影响是否适合普通用户安装。
建议检查：把风险写入边界卡，并确认是否需要人工复核。
防护动作：评分风险必须进入边界卡，不能只作为内部分数。
证据：risks.scoring_risks | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | no_demo; severity=medium

16. 维护坑 · issue/PR 响应质量未知

严重度：low
证据强度：source_linked
发现：issue_or_pr_quality=unknown。
对用户的影响：用户无法判断遇到问题后是否有人维护。
建议检查：抽样最近 issue/PR，判断是否长期无人处理。
防护动作：issue/PR 响应未知时，必须提示维护风险。
证据：evidence.maintainer_signals | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | issue_or_pr_quality=unknown

17. 维护坑 · 发布节奏不明确

严重度：low
证据强度：source_linked
发现：release_recency=unknown。
对用户的影响：安装命令和文档可能落后于代码，用户踩坑概率升高。
建议检查：确认最近 release/tag 和 README 安装命令是否一致。
防护动作：发布节奏未知或过期时，安装说明必须标注可能漂移。
证据：evidence.maintainer_signals | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | release_recency=unknown

来源：Doramagic 发现、验证与编译记录