# https://github.com/SamurAIGPT/Generative-Media-Skills 项目说明书

生成时间：2026-05-31 23:23:35 UTC

## 目录

- [项目介绍](#project-intro)
- [快速入门指南](#quick-start)
- [系统架构设计](#system-architecture)
- [Schema数据参考](#schema-reference)
- [核心原语层详解](#core-primitives)
- [视频与动效技能库](#motion-skills)
- [图像与设计技能库](#visual-skills)
- [社交媒体技能库](#social-skills)
- [MCP服务器集成](#mcp-server)
- [常见问题与故障排除](#troubleshooting)

<a id='project-intro'></a>

## 项目介绍

### 相关页面

相关主题：[快速入门指南](#quick-start), [系统架构设计](#system-architecture)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)
- [core/platform/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/SKILL.md)
- [core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)
- [library/motion/cinema-director/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/cinema-director/SKILL.md)
- [library/visual/nano-banana/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/visual/nano-banana/SKILL.md)
</details>

# 项目介绍

## 概述

Generative-Media-Skills 是一个面向 AI 代理的多模态媒体生成技能库，旨在为 Claude Code、Cursor、Gemini CLI 等主流 AI 开发环境提供专业级的图像、视频和音频生成能力。该项目通过结构化的 CLI 工具和 MCP（Model Context Protocol）服务器，将复杂的生成式 AI 能力封装为可组合的工作流程，使 AI 代理能够自主完成从创意构思到成品产出的完整媒体制作流程。资料来源：[README.md:1-5]()

## 核心设计理念

### Agent 原生架构

项目采用"Agent 原生"（Agent-Native Design）的设计理念，所有工具都针对 AI 代理的使用场景进行了优化：

- **结构化 JSON 输出**：所有命令返回格式化的 JSON 数据，便于 AI 解析和处理
- **语义化退出码**：成功、失败、部分成功等状态通过明确的退出码标识
- **--jq 过滤支持**：内置 JSON 数据过滤功能，支持从复杂响应中提取所需字段
- **异步任务处理**：支持异步提交任务并轮询结果，适合长时间运行的生成任务

资料来源：[README.md:45-50]()

### 专业知识层

项目不仅仅是简单的 API 封装，还包含了多个领域的专业知识库：

| 技能领域 | 功能描述 |
|---------|---------|
| Cinema Director | 专业技术电影导演与 cinematography 指导 |
| Nano-Banana | 推理驱动的图像生成（Gemini 3 风格） |
| UI Designer | 高保真移动端/Web 原型设计（Atomic Design） |
| Logo Creator | 极简矢量品牌设计（Geometric Primitives） |
| AI Clipping | 长视频智能剪辑与病毒式内容提取 |

资料来源：[README.md:55-60]()

## 系统架构

### Core/Library 分层架构

项目采用 **Core/Library** 分层架构以确保高效性和高信号发现：

```mermaid
graph TD
    A[AI Agent] --> B[Expert Library 专家知识层]
    A --> C[Core Primitives 核心原语]
    B --> D[muapi-cli]
    C --> D
    D --> E[muapi.ai API]
    E --> F[Image Generation 图像生成]
    E --> G[Video Generation 视频生成]
    E --> H[Audio Generation 音频生成]
    E --> I[Media Editing 媒体编辑]
```

### 核心原语层（/core）

核心原语层是对 muapi-cli 的轻量封装，提供底层 API 访问能力：

| 模块 | 功能 |
|------|------|
| `core/media/` | 文件上传与资源管理 |
| `core/edit/` | 基于提示词的图像编辑 |
| `core/platform/` | 认证配置与结果轮询 |

资料来源：[README.md:62-68]()

### 专家技能库（/library）

专家技能库包含 41+ 个预置工作流配方，每个配方都是一个 SKILL.md 文件，AI 代理可直接读取并执行：

**视频制作类（16 个）**

| 技能 | 描述 |
|------|------|
| 3D Logo Animation | 2D 标志转 3D 并添加电影级特效 |
| AI Fight Scene Generator | 高密度动作场景，16 格分镜驱动 Seedance 2.0 |
| Animal Vlogger Video | 超写实拟人化动物 vlogger 视频 |
| Cartoon Dance Animation | 照片转 Pixar 3D 卡通并绑定舞蹈动作 |
| Character Story Video | 多段落动画故事视频 |
| Drone-Style Video | 航拍视角镜头 |
| Giant Product Showcase | 巨型产品展示（建筑物级别物体与人对比） |
| Jewelry Product Video | 奢侈品珠宝广告 |
| Music Video | 音乐主题短视频 |
| One-Shot Video | 单镜头连续电影画面 |
| Cinematic Product Ad | 5-10 秒电影级产品广告 |
| Product Showcase Video | 动态产品展示视频 |
| Product Video Ad Maker | 高端电影级产品视频广告 |
| Talking Baby Video | 病毒式婴儿说话视频 |
| UGC Lifestyle Try-On | UGC 风格生活场景视频 |
| UGC Video Factory | 人物照片+产品照片+脚本 → 10 秒竖屏 UGC 广告 |

资料来源：[README.md:100-125]()

**视觉设计类（21 个）**

| 技能 | 描述 |
|------|------|
| Action Figure Generator | 人物照片转 3D 手办 |
| Ad Creative Set | 高转化率广告素材组 |
| Amazon Product Listing Pack | 亚马逊产品listing完整图组 |
| Blog Header | 1200×628 专业博客头图 |
| Brand Kit | 品牌视觉套件 |
| Brochure Designer | 多页宣传册设计 |
| Couple Grid Creator | 6 格情侣风格化图组 |
| Brand Design Guide | 综合设计指南 |
| Fashion Try-On | 虚拟试衣 |
| Floor Plan Rendering | 平面图转 3D 建筑渲染 |
| Interior Design | 专业室内设计可视化 |
| Interior Design Visualizer | 室内设计可视化 |
| Keyboard Art Maker | 键盘艺术图案 |
| Logo + Branding Package | Logo + 完整品牌包 |
| Logo Generator | 快速极简 Logo |
| Multi-Angle Reshoot | 多角度产品展示 |
| Multi-Angle Shots | 全角度产品图组 |
| Selfie with Celebrities | 与名人合照 |
| Storyboard Generator | 故事板生成器 |
| URL to Design | 网站 URL 分析与重设计 |
| YouTube Thumbnail | 高点击率 YouTube 缩略图 |

资料来源：[README.md:130-150]()

**社交媒体类（5 个）**

| 技能 | 描述 |
|------|------|
| Instagram Post | Instagram 专业帖子 |
| Product Campaign Pack | 全渠道营销活动素材包 |
| RedNote Cover | 小红书封面图 |
| Social Media Pack | 多平台社交媒体素材 |
| UGC Ads Workflow | UGC 视频广告工作流 |

资料来源：[README.md:152-158]()

## MCP 服务器

项目提供完整的 Model Context Protocol 服务器实现，使 AI 代理可以直接调用生成工具：

```mermaid
graph LR
    A[Claude Desktop / Cursor] --> B[MCP Server]
    B --> C[19 Structured Tools]
    C --> D[muapi.ai Platform]
    D --> E[100+ AI Models]
```

### 暴露的工具列表

| 工具名称 | 功能描述 |
|----------|---------|
| `muapi_image_generate` | 文生图（14 种模型） |
| `muapi_image_edit` | 图生图编辑（11 种模型） |
| `muapi_video_generate` | 文生视频（13 种模型） |
| `muapi_video_from_image` | 图生视频（16 种模型） |
| `muapi_audio_create` | 音乐生成（Suno） |
| `muapi_audio_from_text` | 音效生成（MMAudio） |
| `muapi_enhance_upscale` | AI 超分辨率放大 |
| `muapi_enhance_bg_remove` | 背景移除 |
| `muapi_enhance_face_swap` | 人脸替换（图片/视频） |
| `muapi_enhance_ghibli` | 吉卜力风格迁移 |
| `muapi_edit_lipsync` | 口型同步 |
| `muapi_edit_clipping` | AI 精彩片段提取 |
| `muapi_predict_result` | 轮询预测状态 |
| `muapi_upload_file` | 本地文件上传 |
| `muapi_keys_list` | 列出 API 密钥 |
| `muapi_keys_create` | 创建 API 密钥 |
| `muapi_keys_delete` | 删除 API 密钥 |
| `muapi_account_balance` | 查询账户余额 |
| `muapi_account_topup` | 充值积分（Stripe） |

资料来源：[README.md:165-190]()

## 快速开始

### 安装 muapi CLI

项目核心脚本需要 muapi-cli，可通过以下方式安装：

```bash
# via npm（推荐）
npm install -g muapi-cli

# via pip
pip install muapi-cli

# 无需安装，直接运行
npx muapi-cli --help
```

资料来源：[README.md:200-210]()

### 配置 API 密钥

```bash
# 交互式配置
muapi auth configure

# 或直接传入密钥
muapi auth configure --api-key "YOUR_MUAPI_KEY"

# 获取密钥地址：https://muapi.ai/dashboard
```

资料来源：[README.md:215-225]()

### 安装技能到 AI 代理

```bash
# 安装所有技能
npx skills add SamurAIGPT/Generative-Media-Skills --all

# 安装特定技能
npx skills add SamurAIGPT/Generative-Media-Skills --skill muapi-media-generation

# 指定代理平台
npx skills add SamurAIGPT/Generative-Media-Skills --all -a claude-code -a cursor
```

资料来源：[README.md:230-240]()

## 核心功能示例

### 图像生成

```bash
# 基础图像生成
muapi image generate "a cyberpunk city at night" --model flux-dev

# 自动下载到指定目录
muapi image generate "a sunset over mountains" --model hidream-fast --download ./outputs

# 提取纯 URL（适合代理处理）
muapi image generate "product on white bg" --model flux-schnell --output-json --jq '.outputs[0]'
```

资料来源：[README.md:245-255]()

### 异步视频生成与轮询

```bash
# 提交异步任务，捕获 request_id
REQUEST_ID=$(muapi video generate "a dog running on a beach" \
  --model kling-master --no-wait --output-json --jq '.request_id' | tr -d '"')

# 执行其他任务...

# 轮询等待结果
muapi predict wait "$REQUEST_ID" --download ./outputs
```

资料来源：[README.md:260-270]()

### 管道式工作流

```bash
# 上传 → 编辑 → 下载
URL=$(muapi upload file ./photo.jpg --output-json --jq '.url' | tr -d '"')
muapi image edit "make it look like a painting" --image "$URL" \
  --model flux-kontext-pro --download ./outputs
```

资料来源：[README.md:275-280]()

## 媒体编辑与增强

核心编辑模块提供了丰富的媒体处理能力：

| 脚本 | 功能说明 |
|------|---------|
| `edit-image.sh` | 基于提示词的图像编辑（Flux Kontext、GPT-4o、Midjourney） |
| `enhance-image.sh` | 一键操作：超分辨率、背景移除、人脸替换、色彩化、吉卜力风格 |
| `lipsync.sh` | 口型同步（Sync Labs、LatentSync、Creatify、Veed） |
| `video-effects.sh` | 视频特效：人脸替换、舞蹈、换装、Luma 调整 |

资料来源：[core/edit/SKILL.md:1-25]()

### 编辑命令示例

```bash
# 提示词编辑
bash edit-image.sh --image-url "https://..." --prompt "add sunglasses" --model flux-kontext-pro

# 超分辨率放大
bash enhance-image.sh --op upscale --image-url "https://..."

# 背景移除
bash enhance-image.sh --op background-remove --image-url "https://..."

# 口型同步
bash lipsync.sh --video-url "https://..." --audio-url "https://..." --model sync
```

资料来源：[core/edit/SKILL.md:30-45]()

## 平台配置与轮询

平台工具提供认证配置和异步任务管理功能：

| 脚本 | 功能说明 |
|------|---------|
| `setup.sh` | 配置 API 密钥、显示配置、测试密钥有效性 |
| `check-result.sh` | 按 request ID 轮询异步生成结果 |

资料来源：[core/platform/SKILL.md:1-20]()

### 平台命令示例

```bash
# 保存 API 密钥
bash setup.sh --add-key "YOUR_MUAPI_KEY"

# 显示当前配置
bash setup.sh --show-config

# 测试 API 密钥有效性
bash setup.sh --test

# 轮询等待结果
bash check-result.sh --id "your-request-id"

# 单次查询（不轮询）
bash check-result.sh --id "your-request-id" --once
```

资料来源：[core/platform/SKILL.md:25-40]()

## 专业技能详解

### Cinema Director

Cinema Director 是一个专业技术电影导演技能库，封装了专业的 cinematography 知识和电影制作流程：

```mermaid
graph TD
    A[User Input] --> B[Intent Analysis]
    B --> C[Cinematography Planning]
    C --> D[Shot Composition]
    C --> E[Lighting Design]
    C --> F[Camera Movement]
    D --> G[Seedance 2.0 Generation]
    E --> G
    F --> G
    G --> H[Final Video Output]
```

资料来源：[library/motion/cinema-director/SKILL.md:1-10]()

### Nano-Banana

Nano-Banana 是推理驱动的图像生成技能，采用 Gemini 3 风格的思考链来优化生成质量：

- 支持 2K 分辨率输出
- 智能主体识别与风格迁移
- 自动视角优化

资料来源：[library/visual/nano-banana/SKILL.md:1-10]()

## 支持的 AI 模型

项目通过 muapi.ai 平台支持 100+ 种 AI 模型，涵盖图像、视频、音频三大领域：

### 图像生成模型（14 种）

Flux 系列、Midjourney v7、Seedance、DALL-E、Stable Diffusion 等主流模型。

### 视频生成模型（13 种）

Kling 3.0、Seedance 2.0、Veo3、Luma Dream Machine 等。

### 图像转视频模型（16 种）

支持多种 i2v 模型，包括专业级和快速生成模式。

资料来源：[README.md:190-200]()

## 命令行工具

所有脚本支持以下通用参数：

| 参数 | 说明 |
|------|------|
| `--async` | 异步提交任务 |
| `--json` | JSON 格式输出 |
| `--timeout N` | 超时时间设置 |
| `--help` | 显示帮助信息 |
| `--view` | 自动下载并打开生成媒体 |
| `--download <path>` | 下载到指定目录 |
| `--output-json` | 结构化 JSON 输出 |
| `--jq '<expression>'` | JSON 数据过滤表达式 |

资料来源：[core/edit/SKILL.md:48-55]()

## 兼容性

项目针对新一代 AI 开发环境进行了优化：

| 环境 | 支持方式 |
|------|---------|
| Claude Code | 直接终端执行 + MCP 服务器模式 |
| Gemini CLI | 本地脚本无缝集成 |
| Cursor / Windsurf | 完整兼容 |
| MCP 协议 | 全功能 MCP 服务器，含类型化输入输出 |
| CI/CD | `--output-json`、`--jq`、语义化退出码 |

资料来源：[README.md:285-295]()

## 许可证

MIT © 2026

## 社区反馈与常见问题

根据社区讨论，用户关注的主要问题包括：

| 问题类型 | 描述 |
|----------|------|
| GPU 加速 | 用户询问是否支持 GPU 以加速生成（已通过云端 API 解决） |
| 模型支持 | Vicuna 等本地模型的 GPU 加速需求 |
| 性能优化 | 本地部署时的响应时间问题 |
| 多语言支持 | 德语、西班牙语等多语言文档处理 |

资料来源：[社区上下文]()

### 优势说明

相比本地部署方案，本项目通过云端 muapi.ai 平台处理生成任务，有效解决了以下问题：

1. **性能瓶颈**：云端 GPU 集群提供高性能计算，响应速度快
2. **模型更新**：100+ 模型自动更新，无需手动维护
3. **部署简化**：无需配置 Docker 或复杂的依赖环境
4. **跨平台兼容**：npm/pip 安装，开箱即用

---

<a id='quick-start'></a>

## 快速入门指南

### 相关页面

相关主题：[项目介绍](#project-intro), [MCP服务器集成](#mcp-server), [常见问题与故障排除](#troubleshooting)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)
- [core/platform/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/SKILL.md)
- [core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)
- [core/media/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/media/SKILL.md)
- [core/platform/setup.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/setup.sh)
</details>

# 快速入门指南

本文档为 AI Agent（Claude Code、Cursor、WindSurf 等）提供 Generative-Media-Skills 的完整安装与使用指南。通过本指南，您将能够快速配置 muapi-cli 环境、调用 100+ AI 模型生成专业级图像、视频和音频内容。

---

## 1. 环境准备

### 1.1 系统要求

| 组件 | 最低版本 | 说明 |
|:---|:---|:---|
| Node.js | ≥18.x | 推荐通过 NodeSource 安装 |
| Python | ≥3.8 | 用于 pip 安装 |
| curl | 最新版 | API 调用依赖 |
| jq | 任意版本 | JSON 数据处理 |
| npm/pip | 最新版 | 包管理器 |

> **社区反馈**：在 Ubuntu 系统上，如果遇到构建错误，可能需要额外安装开发依赖：
> ```bash
> apt install python3-dev make g++
> pip install wheel
> ```
> 资料来源：[issues/43](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/43)

### 1.2 安装 muapi CLI

muapi-cli 是本项目的核心命令行工具，所有媒体生成操作都通过它完成。

```bash
# 方式一：通过 npm 安装（推荐，无需 Python）
npm install -g muapi-cli

# 方式二：通过 pip 安装
pip install muapi-cli

# 方式三：直接运行（无需安装）
npx muapi-cli --help
```

资料来源：[README.md:快速开始](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

---

## 2. API 密钥配置

### 2.1 获取 API 密钥

1. 访问 [muapi.ai/dashboard](https://muapi.ai/dashboard)
2. 注册并登录账户
3. 在 Dashboard 中创建新的 API 密钥

### 2.2 配置密钥

```bash
# 交互式配置（推荐首次使用）
muapi auth configure

# 直接通过命令行指定密钥
muapi auth configure --api-key "YOUR_MUAPI_KEY"
```

### 2.3 验证配置

```bash
# 显示当前配置
bash core/platform/setup.sh --show-config

# 测试 API 密钥有效性
bash core/platform/setup.sh --test
```

资料来源：[core/platform/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/SKILL.md)

---

## 3. 技能安装（AI Agent 集成）

### 3.1 安装所有技能

```bash
# 安装到默认 AI Agent
npx skills add SamurAIGPT/Generative-Media-Skills --all

# 安装到特定 Agent
npx skills add SamurAIGPT/Generative-Media-Skills --all -a claude-code -a cursor
```

### 3.2 安装特定技能

```bash
# 仅安装媒体生成技能
npx skills add SamurAIGPT/Generative-Media-Skills --skill muapi-media-generation
```

技能安装后，AI Agent 可以直接读取 SKILL.md 文件中的指令并执行对应的 muapi CLI 调用。

资料来源：[README.md:安装技能](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

---

## 4. 基础媒体生成

### 4.1 图像生成

```bash
# 生成默认图像
muapi image generate "a cyberpunk city at night"

# 指定模型并自动下载
muapi image generate "a sunset over mountains" \
  --model hidream-fast \
  --download ./outputs

# 仅返回 URL（适合 Agent 处理）
muapi image generate "product on white bg" \
  --model flux-schnell \
  --output-json \
  --jq '.outputs[0]'
```

### 4.2 视频生成（异步模式）

视频生成采用异步模式，需要通过 request_id 轮询结果：

```bash
# 提交生成任务，获取 request_id
REQUEST_ID=$(muapi video generate "a dog running on a beach" \
  --model kling-master \
  --no-wait \
  --output-json \
  --jq '.request_id' | tr -d '"')

# 执行其他任务...

# 等待并下载结果
muapi predict wait "$REQUEST_ID" --download ./outputs
```

### 4.3 本地文件上传

```bash
# 上传本地文件，自动转码并返回 CDN URL
URL=$(muapi upload file ./photo.jpg \
  --output-json \
  --jq '.url' | tr -d '"')

# 链式调用：上传 → 编辑 → 下载
muapi image edit "make it look like a painting" \
  --image "$URL" \
  --model flux-kontext-pro \
  --download ./outputs
```

资料来源：[README.md:生成第一个图像](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md) | [README.md:异步处理](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

---

## 5. 媒体编辑与增强

### 5.1 可用脚本

| 脚本 | 功能 | 示例 |
|:---|:---|:---|
| `edit-image.sh` | 基于提示词的图像编辑 | `flux-kontext-pro`, `gpt-4o`, `midjourney` |
| `enhance-image.sh` | 一键增强操作 | upscale, background-remove, face-swap, ghibli |
| `lipsync.sh` | 唇形同步 | `sync`, `latent-sync`, `creatify` |
| `video-effects.sh` | 视频特效 | dance, face-swap, dress-change |

### 5.2 常用操作示例

```bash
# 基于提示词编辑图像
bash core/edit/edit-image.sh \
  --image-url "https://example.com/image.jpg" \
  --prompt "add sunglasses" \
  --model flux-kontext-pro

# 一键放大图像
bash core/edit/enhance-image.sh \
  --op upscale \
  --image-url "https://example.com/image.jpg"

# 移除背景
bash core/edit/enhance-image.sh \
  --op background-remove \
  --image-url "https://example.com/image.jpg"

# 唇形同步
bash core/edit/lipsync.sh \
  --video-url "https://example.com/video.mp4" \
  --audio-url "https://example.com/audio.mp3" \
  --model sync

# 应用舞蹈特效
bash core/edit/video-effects.sh \
  --op dance \
  --image-url "https://example.com/image.jpg" \
  --audio-url "https://example.com/dance.mp3"
```

### 5.3 通用参数

所有编辑脚本支持以下通用参数：

| 参数 | 说明 |
|:---|:---|
| `--async` | 异步执行，不等待结果 |
| `--json` | 输出 JSON 格式结果 |
| `--timeout N` | 设置超时时间（秒） |
| `--help` | 显示帮助信息 |

资料来源：[core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)

---

## 6. 专家技能库

### 6.1 架构概览

本项目采用 **Core/Library** 双层架构：

```mermaid
graph TD
    A[AI Agent] --> B[Expert Library 专家技能库]
    A --> C[Core Primitives 核心原语]
    
    B --> D[Cinema Director 电影导演]
    B --> E[Nano-Banana 推理生成]
    B --> F[UI Designer UI设计]
    B --> G[Seedance 2 视频生成]
    
    C --> H[media 文件上传]
    C --> I[edit 图像编辑]
    C --> J[platform 平台工具]
    
    H --> K[muapi-cli]
    I --> K
    J --> K
    
    K --> L[muapi.ai API]
```

### 6.2 专家技能列表

**视频与动效类（16项）**

| 技能 | 描述 |
|:---|:---|
| [3D Logo Animation](library/motion/3d-logo-animation/) | 2D Logo 转 3D 并添加电影级动画 |
| [AI Fight Scene Generator](library/motion/ai-fight-scene/) | 高密度动作/战斗场景 |
| [Animal Vlogger Video](library/motion/animal-video-generator/) | 拟人化动物博主视频 |
| [Cartoon Dance Animation](library/motion/cartoon-dance-animation/) | 照片转 Pixar 3D 卡通并添加舞蹈动画 |
| [Cinematic Product Ad](library/motion/product-ad-cinematic/) | 5-10秒电影级产品广告 |
| [Character Story Video](library/motion/character-story-video/) | 多段式角色故事动画 |
| [Drone-Style Video](library/motion/drone-style-video/) | 航拍视角视频 |
| [Giant Product Showcase](library/motion/giant-product-showcase/) | 巨型产品展示 |
| [Jewelry Product Video](library/motion/jewelry-product-video/) | 高端珠宝广告 |
| [Music Video](library/motion/music-video/) | 短音乐视频 |
| [One-Shot Video](library/motion/one-shot-video/) | 单镜头连续电影画面 |
| [Product Showcase Video](library/motion/product-showcase-video/) | 动态产品展示视频 |
| [Product Video Ad Maker](library/motion/product-video-ad-maker/) | 高端产品视频广告 |
| [Talking Baby Video](library/motion/talking-baby-video/) | 病毒式婴儿说话视频 |
| [UGC Lifestyle Try-On](library/motion/ugc-lifestyle-try-on/) | UGC 风格生活方式视频 |
| [UGC Video Factory](library/motion/ugc-video-factory/) | UGC 视频工厂 |

**视觉与设计类（21项）**

| 技能 | 描述 |
|:---|:---|
| [Action Figure Generator](library/visual/action-figure-generator/) | 照片转 3D 手办 |
| [Ad Creative Set](library/visual/ad-creative/) | 高转化率广告素材集 |
| [Amazon Product Listing Pack](library/visual/amazon-product-listing/) | 亚马逊产品列表图片套件 |
| [Blog Header](library/visual/blog-header/) | 专业博客封面图 |
| [Brand Kit](library/visual/brand-kit/) | 品牌视觉套件 |
| [Brochure Designer](library/visual/brochures/) | 多页宣传册设计 |
| [Brand Design Guide](library/visual/design-guide/) | 综合设计指南 |
| [Couple Grid Creator](library/visual/couple-grid-creator/) | 情侣网格图片 |
| [Fashion Try-On](library/visual/fashion-try-on/) | 虚拟试衣 |
| [Floor Plan Rendering](library/visual/floor-plan-rendering/) | 2D 平面图转 3D 渲染 |
| [Interior Design](library/visual/interior-design/) | 专业室内设计可视化 |
| [Interior Design Visualizer](library/visual/interior-design-visualizer/) | 室内设计可视化 |
| [Keyboard Art Maker](library/visual/keyboard-art-maker/) | 键盘艺术图案 |
| [Logo + Branding Package](library/visual/logo-branding/) | Logo + 完整品牌套件 |
| [Logo Generator](library/visual/logo-generator/) | 快速 Logo 生成 |
| [Multi-Angle Reshoot](library/visual/multi-angle-reshoot/) | 多角度产品图 |
| [Multi-Angle Shots](library/visual/multi-angle-shots/) | 全角度产品拍摄套件 |
| [Selfie with Celebrities](library/visual/selfie-with-celebrities/) | 与名人合照 |
| [Storyboard Generator](library/visual/storyboard/) | 分镜生成器 |
| [URL to Design](library/visual/url-to-design/) | 网站 URL 转设计 |
| [YouTube Thumbnail](library/visual/youtube-thumbnail/) | YouTube 缩略图 |

**社交媒体类（5项）**

| 技能 | 描述 |
|:---|:---|
| [Instagram Post](library/social/instagram-post/) | Instagram 帖子 |
| [Product Campaign Pack](library/social/product-campaign/) | 全渠道营销活动 |
| [RedNote Cover](library/social/rednote-cover/) | 小红书封面 |
| [Social Media Pack](library/social/social-pack/) | 社交媒体素材包 |
| [UGC Ads Workflow](library/social/ugc-ads-workflow/) | UGC 广告工作流 |

资料来源：[README.md:专家技能库](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md) | [README.md:技能列表](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

---

## 7. 运行专家技能示例

### 7.1 电影导演技能

```bash
cd library/motion/cinema-director

# 创建 10 秒史诗级视频
bash scripts/generate-film.sh \
  --subject "a cybernetic dragon over Tokyo" \
  --intent "epic" \
  --model "kling-v3.0-pro" \
  --duration 10 \
  --view

# 将静态图片转换为视频
bash library/motion/seedance-2/scripts/generate-seedance.sh \
  --mode i2v \
  --file ./concept.jpg \
  --subject "camera slowly pulls back to reveal the full landscape" \
  --intent "reveal" \
  --view

# 延长现有视频
bash library/motion/seedance-2/scripts/generate-seedance.sh \
  --mode extend \
  --request-id "YOUR_REQUEST_ID" \
  --subject "camera continues pulling back to reveal the vast city" \
  --duration 10
```

### 7.2 Nano-Banana 推理生成

```bash
bash library/visual/nano-banana/scripts/generate-nano-art.sh \
  --file ./my-source-image.jpg \
  --subject "a glass hummingbird" \
  --style "macro photography" \
  --resolution "2k" \
  --view
```

### 7.3 执行流程

每个技能都是一个独立的 SKILL.md 文件，AI Agent 按照以下流程执行：

```mermaid
graph LR
    A[读取 SKILL.md] --> B[解析 inputs 和 Steps]
    B --> C[调用 muapi CLI]
    C --> D{是否需要等待?}
    D -->|是| E[轮询结果]
    D -->|否| F[返回 request_id]
    E --> G[下载输出文件]
    F --> H[完成]
    G --> H
```

资料来源：[README.md:专家技能示例](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

---

## 8. MCP 服务器集成

### 8.1 启动 MCP 服务器

MCP 服务器可将 19 个生成工具直接暴露给 Claude Desktop、Cursor 等 MCP 兼容客户端：

```bash
muapi mcp serve
```

### 8.2 Claude Desktop 配置

编辑配置文件 `~/Library/Application Support/Claude/claude_desktop_config.json`：

```json
{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": { "MUAPI_API_KEY": "your-key-here" }
    }
  }
}
```

### 8.3 可用 MCP 工具

| 工具 | 功能 | 模型 |
|:---|:---|:---|
| `muapi_image_generate` | 文生图 | 14 个模型 |
| `muapi_image_edit` | 图生图编辑 | 11 个模型 |
| `muapi_video_generate` | 文生视频 | 13 个模型 |
| `muapi_video_from_image` | 图生视频 | 16 个模型 |
| `muapi_audio_create` | 音乐生成 | Suno |
| `muapi_audio_from_text` | 音效生成 | MMAudio |
| `muapi_enhance_upscale` | AI 放大 | - |
| `muapi_enhance_bg_remove` | 背景移除 | - |
| `muapi_enhance_face_swap` | 换脸 | 图像/视频 |
| `muapi_enhance_ghibli` | 吉卜力风格 | - |
| `muapi_edit_lipsync` | 唇形同步 | - |
| `muapi_edit_clipping` | AI 剪辑 | - |
| `muapi_predict_result` | 轮询预测结果 | - |
| `muapi_upload_file` | 上传本地文件 | - |
| `muapi_keys_list` | 列出 API 密钥 | - |
| `muapi_keys_create` | 创建 API 密钥 | - |
| `muapi_keys_delete` | 删除 API 密钥 | - |
| `muapi_account_balance` | 查询账户余额 | - |
| `muapi_account_topup` | 充值（Stripe） | - |

资料来源：[README.md:MCP服务器](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

---

## 9. 常见问题与故障排除

### 9.1 响应编码问题

> **社区反馈**（Issue #74）：部分用户收到乱码或编码错误的响应。

**解决方案**：
- 确保终端编码设置为 UTF-8
- 使用 `--output-json` 参数获取原始 JSON 输出
- 检查 API 密钥是否正确配置

### 9.2 模型下载失败

> **社区反馈**（Issue #38, #44）：模型下载到 100% 后报错，或显示 `response is not defined`。

**解决方案**：
- 检查网络连接稳定性
- 清除缓存后重试
- 确认 API 密钥有足够的配额

### 9.3 开发服务器启动问题

> **社区反馈**（Issue #34, #45）：在 PowerShell 中运行 `npm run dev` 时卡住。

**解决方案**：
- 确认 Node.js 版本为 18.x 或更高
- 删除 `node_modules` 后重新安装：
  ```bash
  rm -rf node_modules package-lock.json
  npm install
  ```

### 9.4 生成速度优化

> **社区反馈**（Issue #7, #16）：用户询问 GPU 加速以提高响应速度。

**当前状态**：
- GPT4All 不支持 GPU 加速
- 推荐使用支持 CUDA 的模型（如 Vicuna 13B）
- 未来版本将添加更多 GPU 加速支持

资料来源：[issues/74](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/74) | [issues/38](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/38) | [issues/44](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/44) | [issues/7](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/7)

---

## 10. 快速命令参考

| 操作 | 命令 |
|:---|:---|
| 安装 muapi | `npm install -g muapi-cli` |
| 配置 API 密钥 | `muapi auth configure --api-key "YOUR_KEY"` |
| 查看所有模型 | `muapi models list` |
| 生成图像 | `muapi image generate "描述" --model flux-dev` |
| 生成视频 | `muapi video generate "描述" --model kling-v3.0-pro` |
| 上传文件 | `muapi upload file ./file.jpg` |
| 查看余额 | `muapi account balance` |
| 启动 MCP | `muapi mcp serve` |
| 检查配置 | `bash core/platform/setup.sh --show-config` |

---

## 下一步

- 探索 [专家技能库](/library/) 获取完整技能列表
- 配置 [MCP 服务器](/#mcp服务器) 实现 AI Agent 原生集成
- 参考 [Schema 参考文档](/#schema-reference) 了解完整的 API 参数

---

<a id='system-architecture'></a>

## 系统架构设计

### 相关页面

相关主题：[项目介绍](#project-intro), [核心原语层详解](#core-primitives), [Schema数据参考](#schema-reference)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)
- [core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)
- [core/platform/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/SKILL.md)
</details>

# 系统架构设计

## 概述

Generative-Media-Skills 是一个面向 AI Agent 的多模态媒体生成工具集，采用 **Core/Library 双层架构**，将底层 API 封装与领域专家知识分离，使 AI 代理能够生成、编辑和展示专业级图像、视频和音频内容 资料来源：[README.md]()

该架构的核心设计理念是：

- **Agent 原生设计** — CLI 驱动的脚本配合结构化 JSON 输出，支持 `--jq` 过滤和语义化退出码，便于 AI 代理自动化执行
- **专家知识层** — 将专业领域知识（电影摄影、Atomic Design、品牌策略）固化为可执行的工作流程
- **零样板代码** — 所有原语操作委托给 `muapi-cli`，消除手动 curl 和 JSON 解析 资料来源：[README.md]()

---

## 架构分层

系统采用三层架构，从底层到顶层依次为：

| 层级 | 名称 | 职责 | 目录 |
|:---|:---|:---|:---|
| 1 | 核心原语层 (Core Primitives) | 封装 muapi.ai API，提供文件上传、媒体编辑、平台配置等基础能力 | `/core` |
| 2 | 工具脚本层 (Scripts) | 组合 Core 原语，提供图像生成、视频制作、音频处理等原子功能脚本 | `/core/*/scripts` |
| 3 | 专家技能层 (Library) | 将创意意图转化为技术指令，包含完整的工作流程和领域知识 | `/library` |

```mermaid
graph TB
    subgraph "第三层：专家技能层 (Library)"
        L1["🎬 Cinema Director<br/>电影导演"]
        L2["🖼️ Nano-Banana<br/>推理图像生成"]
        L3["📱 UI Designer<br/>界面设计"]
        L4["🎨 Logo Creator<br/>品牌标识"]
        L5["🎥 AI Clipping<br/>视频剪辑"]
        L6["📺 YouTube Shorts<br/>短视频"]
        L7["🎭 41个 Recipe 工作流"]
    end

    subgraph "第二层：工具脚本层 (Scripts)"
        S1["generate-image.sh<br/>图像生成"]
        S2["generate-video.sh<br/>视频生成"]
        S3["generate-audio.sh<br/>音频生成"]
        S4["edit-image.sh<br/>图像编辑"]
        S5["enhance-image.sh<br/>图像增强"]
        S6["lipsync.sh<br/>唇形同步"]
        S7["video-effects.sh<br/>视频特效"]
    end

    subgraph "第一层：核心原语层 (Core)"
        C1["core/media/<br/>文件上传"]
        C2["core/edit/<br/>媒体编辑"]
        C3["core/platform/<br/>平台配置"]
    end

    subgraph "外部依赖"
        API["muapi.ai API<br/>100+ AI 模型"]
        MCP["MCP Server<br/>Claude/Cursor"]
        CLI["muapi-cli<br/>命令行工具"]
    end

    L1 & L2 & L3 & L4 & L5 & L6 & L7 --> S1 & S2 & S3 & S4 & S5 & S6 & S7
    S1 & S2 & S3 & S4 & S5 & S6 & S7 --> C1 & C2 & C3
    C1 & C2 & C3 --> CLI
    CLI --> API
    CLI --> MCP

    style L1 fill:#e1f5fe
    style C1 fill:#f3e5f5
    style API fill:#fff3e0
```

---

## 核心原语层详解

### 目录结构

| 模块 | 路径 | 功能描述 |
|:---|:---|:---|
| 平台工具 | `core/platform/` | API 密钥配置、连接性测试、异步结果轮询 |
| 媒体处理 | `core/media/` | 本地文件上传至 CDN，返回可访问的媒体 URL |
| 图像编辑 | `core/edit/` | 基于提示词的图像编辑和高动态范围处理 |

### 平台配置模块

`core/platform/` 提供系统级配置和状态管理能力：

| 脚本 | 功能 | 关键参数 |
|:---|:---|:---|
| `setup.sh` | 配置 API 密钥、显示配置、测试有效性 | `--add-key`, `--show-config`, `--test` |
| `check-result.sh` | 按 request_id 轮询异步生成结果 | `--id`, `--once` |

```bash
# 配置 API 密钥
bash core/platform/setup.sh --add-key "YOUR_MUAPI_KEY"

# 测试连接性
bash core/platform/setup.sh --test

# 轮询异步结果（阻塞等待）
bash core/platform/check-result.sh --id "request-id-xxx"

# 单次检查（不阻塞）
bash core/platform/check-result.sh --id "request-id-xxx" --once
```

### 媒体编辑模块

`core/edit/` 提供多层次的媒体编辑能力：

| 脚本 | 功能 | 支持模型 |
|:---|:---|:---|
| `edit-image.sh` | 基于提示词的图像编辑 | Flux Kontext, GPT-4o, Midjourney, Qwen |
| `enhance-image.sh` | 一键增强操作 | upscale, background-remove, face-swap, ghibli |
| `lipsync.sh` | 视频唇形与音频同步 | Sync Labs, LatentSync, Creatify, Veed |
| `video-effects.sh` | 视频特效处理 | Wan AI, face-swap, dance, dress-change |

**增强操作参数：**

| 操作 | 参数值 | 说明 |
|:---|:---|:---|
| 超分辨率 | `upscale` | AI 图像放大增强 |
| 背景移除 | `background-remove` | 自动识别主体并去除背景 |
| 人脸替换 | `face-swap` | 图像/视频中的人脸交换 |
| 吉卜力风格 | `ghibli` | 宫崎骏动画风格转换 |
| 产品展示 | `product-shot` | 专业电商产品图生成 |

---

## MCP Server 架构

系统提供完整的 Model Context Protocol 服务器实现，暴露 19 个结构化工具：

| 工具类别 | 工具名称 | 功能描述 | 模型覆盖 |
|:---|:---|:---|:---|
| **图像生成** | `muapi_image_generate` | 文本生成图像 | 14 种模型 |
| **图像编辑** | `muapi_image_edit` | 图像到图像编辑 | 11 种模型 |
| **视频生成** | `muapi_video_generate` | 文本生成视频 | 13 种模型 |
| **图像转视频** | `muapi_video_from_image` | 静态图生成动态视频 | 16 种模型 |
| **音频创建** | `muapi_audio_create` | 音乐生成（Suno） | Suno |
| **音效生成** | `muapi_audio_from_text` | 文本生成音效 | MMAudio |
| **图像增强** | `muapi_enhance_upscale` | AI 超分辨率 | - |
| **背景处理** | `muapi_enhance_bg_remove` | 背景移除 | - |
| **人脸替换** | `muapi_enhance_face_swap` | 图像/视频人脸交换 | - |
| **风格转换** | `muapi_enhance_ghibli` | 吉卜力风格 | - |
| **唇形同步** | `muapi_edit_lipsync` | 音频驱动的唇形动画 | - |
| **智能剪辑** | `muapi_edit_clipping` | AI 亮点提取 | - |
| **结果查询** | `muapi_predict_result` | 轮询预测状态 | - |
| **文件上传** | `muapi_upload_file` | 本地文件→CDN URL | - |
| **密钥管理** | `muapi_keys_list/create/delete` | API 密钥操作 | - |
| **账户管理** | `muapi_account_balance/topup` | 余额查询/充值 | Stripe |

```mermaid
graph LR
    A["Claude Desktop<br/>Cursor<br/>MCP Client"] -->|MCP Protocol| B["muapi mcp serve"]
    B --> C["Tool Router"]
    C --> D1["image_generate"]
    C --> D2["video_generate"]
    C --> D3["audio_create"]
    C --> D4["enhance_ops"]
    C --> D5["keys_management"]
    D1 & D2 & D3 & D4 & D5 --> E["muapi.ai API"]
    E --> F["异步任务队列"]
    F -->|轮询| G["结果返回"]
    G --> A

    style B fill:#e8f5e9
    style F fill:#fff8e1
```

### Claude Desktop 配置示例

```json
{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": { "MUAPI_API_KEY": "your-key-here" }
    }
  }
}
```

---

## 异步处理流程

媒体生成任务采用异步架构，需要客户端主动轮询状态：

```mermaid
sequenceDiagram
    participant Client as AI Agent
    participant CLI as muapi-cli
    participant API as muapi.ai API
    participant CDN as CDN

    Client->>CLI: muapi video generate "prompt" --no-wait
    CLI->>API: POST /v1/video/generate
    API-->>CLI: {"request_id": "xxx", "status": "pending"}
    CLI-->>Client: request_id

    Note over Client: 执行其他任务

    loop 轮询状态
        Client->>CLI: muapi predict wait "request_id"
        CLI->>API: GET /v1/predict/result?request_id=xxx
        API-->>CLI: {"status": "processing"}
        CLI-->>Client: 任务进行中...
    end

    API-->>CLI: {"status": "completed", "outputs": ["url1", "url2"]}
    CLI->>CDN: 下载媒体文件
    CDN-->>CLI: 媒体数据
    CLI-->>Client: 生成完成，已保存
```

### 异步处理命令对照

| 模式 | 命令 | 适用场景 |
|:---|:---|:---|
| 同步等待 | `muapi video generate "prompt"` | 短任务、CLI 交互 |
| 异步提交 | `muapi video generate "prompt" --no-wait` | 长任务、后台处理 |
| 轮询等待 | `muapi predict wait "request_id"` | 异步任务完成后获取结果 |
| 单次检查 | `muapi predict wait "request_id" --once` | 状态查询，不阻塞 |

---

## 专家技能层结构

`/library` 目录包含 41 个端到端工作流配方，每个配方由 `SKILL.md` 定义，AI 代理读取并执行其中的步骤：

### 技能分类

| 类别 | 数量 | 代表技能 |
|:---|:---|:---|
| 视频/动态 | 16 | Cinema Director, AI Fight Scene, Music Video |
| 视觉/图像 | 21 | Nano-Banana, UI Designer, Logo Creator |
| 社交媒体 | 5 | Instagram Post, YouTube Shorts, RedNote Cover |
| 编辑/后期 | 4 | AI Clipping, Lipsync Editor |

### Nano-Banana 推理架构

Nano-Banana 是一个基于推理的图像生成专家技能，模拟 Gemini 3 的思考模式：

```mermaid
graph TD
    A["输入图像"] --> B["Nano-Banana Reasoning Engine"]
    B --> C["创意意图分析"]
    C --> D["构图优化建议"]
    D --> E["风格参数生成"]
    E --> F["调用 muapi image generate"]
    F --> G["Flux Kontext Pro<br/>高清图像输出"]

    style B fill:#e3f2fd
    style G fill:#e8f5e9
```

### Cinema Director 电影导演

提供专业技术电影制作指导：

| 功能模块 | 说明 |
|:---|:---|
| 镜头语言 | Fish-eye, Bird's-eye, Low-angle, Macro |
| 光影设计 | Cinematic lighting presets |
| 动态运镜 | Drone sweep, Orbit shot, Flyover |
| 时长控制 | 5-30秒可选 |

---

## 数据流与状态管理

### 请求生命周期

```mermaid
stateDiagram-v2
    [*] --> Pending: 提交请求
    Pending --> Processing: API 接收
    Processing --> Completed: 生成成功
    Processing --> Failed: 生成失败
    Completed --> [*]: 下载完成
    Failed --> [*]: 错误处理

    note right of Pending: 返回 request_id
    note right of Completed: 包含 outputs URLs
    note left of Failed: 包含 error message
```

### 配置优先级

系统配置按以下优先级生效（高优先级覆盖低优先级）：

1. **命令行参数** — 最高优先级，如 `--model flux-dev`
2. **环境变量** — `MUAPI_API_KEY`, `MUAPI_BASE_URL`
3. **配置文件** — `~/.muapi/config.json`
4. **默认值** — `muapi-cli` 内置默认值

---

## 依赖关系

### 系统依赖

| 依赖 | 版本要求 | 用途 |
|:---|:---|:---|
| `curl` | 任意版本 | HTTP 请求 |
| `jq` | ≥1.6 | JSON 解析和 `--jq` 过滤 |
| `python3` | ≥3.8 | 脚本执行环境 |

### 安装方式

```bash
# npm 方式（推荐，无需 Python）
npm install -g muapi-cli

# pip 方式
pip install muapi-cli

# 无安装执行
npx muapi-cli --help
```

---

## 扩展性设计

### 自定义工作流创建

开发者可通过以下步骤创建新的专家技能：

1. 在 `/library/[category]/` 下创建技能目录
2. 编写 `SKILL.md` 定义技能元数据和执行步骤
3. 在 `scripts/` 目录添加执行脚本
4. 注册到技能索引

```bash
library/
├── motion/          # 视频/动态技能
├── visual/          # 图像/视觉技能
├── edit/            # 编辑/后期技能
└── social/          # 社交媒体技能
```

### 模型扩展

系统通过 `schema_data.json` 动态管理模型映射：

| 配置项 | 说明 |
|:---|:---|
| `model_id` | 唯一模型标识符 |
| `endpoint` | API 端点路径 |
| `parameters` | 支持的参数范围（aspect_ratio, resolution, duration） |

查看可用模型：

```bash
muapi models list
muapi models list --category video --output-json
```

---

## 社区反馈与架构演进

根据社区反馈，系统在以下方面持续优化：

| 问题类别 | 社区反馈 | 架构响应 |
|:---|:---|:---|
| 性能优化 | #7, #16 关于 GPU 加速和响应时间 | 通过 muapi.ai 云端 API 实现跨设备加速 |
| 文件共享 | #73 询问 NFS/CIFS 加载 | 支持本地文件上传和批量处理 |
| 部署方式 | #68 Docker 文件缺失 | CLI 工具化设计，支持容器化部署 |
| 多语言 | #24, #37 语言切换 | 基于提示词的生成支持多语言输入 |

社区讨论表明，用户期望系统在保持轻量化的同时，提供企业级的媒体处理能力和灵活的工作流编排能力。Current Architecture 通过将复杂性封装在 Core 层，实现了这一平衡。

---

<a id='schema-reference'></a>

## Schema数据参考

### 相关页面

相关主题：[系统架构设计](#system-architecture), [核心原语层详解](#core-primitives)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [schema_data.json](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/schema_data.json)
- [README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)
- [core/platform/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/SKILL.md)
- [core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)
- [core/media/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/media/SKILL.md)
</details>

# Schema数据参考

## 概述

`schema_data.json` 是 Generative-Media-Skills 项目的核心数据配置文件，位于仓库根目录。该文件为所有核心脚本提供运行时数据支持，是实现 Schema 驱动架构的关键组件。

### 主要功能

| 功能 | 说明 |
|:---|:---|
| **模型ID验证** | 确保请求的模型存在于平台支持列表中 |
| **端点解析** | 自动将模型名称映射到对应的API端点 |
| **参数校验** | 验证 `aspect_ratio`、`resolution`、`duration` 等参数是否支持 |
| **MCP工具定义** | 为 Model Context Protocol 服务器提供结构化输入/输出模式 |

资料来源：[README.md:120]()

## 架构设计

### 核心定位

```mermaid
graph TD
    A[用户/Agent] --> B[muapi CLI]
    B --> C[schema_data.json]
    C --> D{参数校验}
    D -->|通过| E[API请求]
    D -->|失败| F[错误提示]
    E --> G[异步任务提交]
    G --> H[结果轮询]
    H --> I[媒体下载]
```

`schema_data.json` 在执行流程中扮演数据契约角色，确保所有 muapi 工具调用都符合平台规范。

### MCP服务器集成

当使用 `muapi mcp serve` 启动 MCP 服务器时，该 Schema 数据用于生成 19 个结构化工具的 JSON Schema 定义：

资料来源：[README.md:95-120]()

| 工具类型 | 工具名称 | 模型数量 |
|:---|:---|:---|
| 图像生成 | `muapi_image_generate` | 14个 |
| 图像编辑 | `muapi_image_edit` | 11个 |
| 视频生成 | `muapi_video_generate` | 13个 |
| 图像转视频 | `muapi_video_from_image` | 16个 |
| 音频创建 | `muapi_audio_create` | Suno |
| 音效生成 | `muapi_audio_from_text` | MMAudio |
| 增强操作 | `muapi_enhance_*` | 多种 |

## 工具命令参考

### 图像生成

```bash
muapi image generate "prompt" --model <model_id>
```

**常用参数：**

| 参数 | 类型 | 说明 |
|:---|:---|:---|
| `--model` | string | 模型ID，如 `flux-dev`、`flux-schnell`、`hidream-fast` |
| `--aspect-ratio` | string | 宽高比，如 `1:1`、`16:9`、`9:16` |
| `--resolution` | string | 分辨率，如 `1k`、`2k`、`4k` |
| `--download` | path | 自动下载到指定目录 |
| `--output-json` | flag | 输出纯JSON格式 |

资料来源：[README.md:140-150]()

### 图像编辑

```bash
muapi image edit "prompt" --image <url_or_path> --model <model_id>
```

支持的编辑模型包括 Flux Kontext Pro、GPT-4o、Midjourney 等。

资料来源：[core/edit/SKILL.md:18-22]()

### 视频生成

```bash
muapi video generate "prompt" --model <model_id> --duration <seconds>
```

| 参数 | 类型 | 说明 |
|:---|:---|:---|
| `--model` | string | 视频模型，如 `kling-v3.0-pro`、`seedance-2` |
| `--duration` | integer | 视频时长（秒），通常 5-10 秒 |
| `--no-wait` | flag | 异步提交，不等待完成 |

```bash
# 异步提交示例
REQUEST_ID=$(muapi video generate "a dog running on a beach" \
  --model kling-master --no-wait --output-json --jq '.request_id' | tr -d '"')
```

资料来源：[README.md:125-135]()

### 异步任务处理

```mermaid
sequenceDiagram
    participant 用户
    participant muapi CLI
    participant muapi API
    participant schema_data

    用户->>muapi CLI: 提交异步请求
    muapi CLI->>schema_data: 验证模型ID和参数
    schema_data-->>muapi CLI: 校验通过
    muapi CLI->>muapi API: 发起请求
    muapi API-->>muapi CLI: 返回 request_id
    用户->>muapi CLI: 查询结果
    muapi CLI->>muapi API: 轮询 request_id
    muapi API-->>muapi CLI: 返回完成状态
    用户->>muapi CLI: 下载媒体
```

```bash
# 轮询等待结果
muapi predict wait "$REQUEST_ID" --download ./outputs

# 仅检查一次
muapi predict result "$REQUEST_ID" --once
```

资料来源：[README.md:125-135]()

### 增强操作

```bash
# 图像增强
muapi enhance --op <operation> --image-url <url>

# 支持的操作
```

| 操作 | 说明 |
|:---|:---|
| `upscale` | AI超分辨率增强 |
| `background-remove` | 背景移除 |
| `face-swap` | 换脸 |
| `ghibli` | 吉卜力风格转换 |
| `colorize` | 图像上色 |

资料来源：[core/edit/SKILL.md:23-30]()

### 唇形同步

```bash
muapi lipsync --video-url <url> --audio-url <url> --model sync
```

支持的唇形同步模型：Sync Labs、LatentSync、Creatify、Veed。

## 模型发现

### 列出可用模型

```bash
# 列出所有模型
muapi models list

# 按类别筛选
muapi models list --category video --output-json

# 获取模型详情
muapi models list --category image --output-json
```

### 模型类别

| 类别 | 说明 | 示例模型 |
|:---|:---|:---|
| `image` | 图像生成模型 | Flux Dev, Midjourney v7, DALL-E 3 |
| `video` | 视频生成模型 | Kling 3.0, Seedance 2.0, Veo3 |
| `audio` | 音频生成模型 | Suno, MMAudio |
| `edit` | 编辑增强模型 | Flux Kontext, GPT-4o |

资料来源：[README.md:155-165]()

## 工作流编排

### 管道链式调用

```mermaid
graph LR
    A[上传文件] --> B[媒体生成]
    B --> C[编辑增强]
    C --> D[下载结果]
    
    A1[muapi upload] --> B1[muapi generate]
    B1 --> C1[muapi edit]
    C1 --> D1[--download]
```

**实际命令示例：**

```bash
# 上传 → 编辑 → 下载 完整流程
URL=$(muapi upload file ./photo.jpg --output-json --jq '.url' | tr -d '"')
muapi image edit "make it look like a painting" --image "$URL" \
  --model flux-kontext-pro --download ./outputs
```

```bash
# 从其他命令管道输入
generate_prompt | muapi image generate - --model flux-dev
```

资料来源：[README.md:125-145]()

### 专业技能脚本

除了基础 CLI 命令，项目还提供了专家级技能脚本：

| 技能 | 路径 | 功能 |
|:---|:---|:---|
| Cinema Director | `library/motion/cinema-director/` | 电影级视频生成 |
| Nano-Banana | `library/visual/nano-banana/` | Gemini 3 风格推理图像生成 |
| UI Designer | `library/visual/ui-design/` | 原子设计高保真原型 |
| Logo Creator | `library/visual/logo-creator/` | 极简矢量品牌设计 |
| Seedance 2 | `library/motion/seedance-2/` | 导演级视频生成 |
| AI Clipping | `library/edit/ai-clipping/` | 长视频→短视频自动剪辑 |

## API Key 配置

### 环境变量设置

```bash
# 交互式配置
muapi auth configure

# 直接指定
muapi auth configure --api-key "YOUR_MUAPI_KEY"

# 或设置环境变量
export MUAPI_API_KEY="your-key-here"
```

### 验证配置

```bash
# 测试API Key有效性
muapi setup --test

# 显示当前配置
muapi setup --show-config
```

资料来源：[core/platform/SKILL.md:20-30]()

## 参数校验规则

`schema_data.json` 定义的校验规则确保：

1. **模型存在性** - 请求的模型ID必须在平台支持列表中
2. **端点可用性** - 模型必须映射到有效的API端点
3. **参数合法性** - `aspect_ratio`、`resolution`、`duration` 必须在允许范围内

```bash
# 无效模型示例（会被 schema 校验拦截）
muapi image generate "test" --model invalid-model
# Error: Model 'invalid-model' not found in schema

# 无效参数示例
muapi video generate "test" --duration 1000
# Error: Duration '1000' exceeds maximum allowed value
```

## 常见问题

### 模型下载问题

社区反馈显示模型下载可能出现进度 100% 后报错的情况，通常是模型加载失败：

> "Model download error on 100% progress" - 模型文件下载完成但加载失败

建议：确保 `models/` 目录有足够空间，模型文件完整无损。

### 响应编码问题

部分用户报告出现编码异常响应：

> "Encoded responses" - 回答显示为乱码或编码字符

这通常是服务器端编码问题，非 Schema 配置问题。

### 性能优化

用户关心的响应时间问题：

- GPU 加速可显著提升推理速度
- 异步模式（`--no-wait`）适合批量任务
- 选择合适的模型（如 `flux-schnell` 速度快于 `flux-dev`）

## 相关资源

| 资源 | 链接 |
|:---|:---|
| muapi-cli NPM | https://www.npmjs.com/package/muapi-cli |
| muapi.ai Dashboard | https://muapi.ai/dashboard |
| MCP 服务器文档 | `muapi mcp serve --help` |
| 模型列表 | `muapi models list --output-json` |

---

<a id='core-primitives'></a>

## 核心原语层详解

### 相关页面

相关主题：[系统架构设计](#system-architecture), [视频与动效技能库](#motion-skills), [图像与设计技能库](#visual-skills)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)
- [core/edit/edit-image.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/edit-image.sh)
- [core/edit/enhance-image.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/enhance-image.sh)
- [core/edit/lipsync.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/lipsync.sh)
- [core/edit/video-effects.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/video-effects.sh)
- [core/platform/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/SKILL.md)
- [core/platform/setup.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/setup.sh)
- [core/platform/check-result.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/check-result.sh)
</details>

# 核心原语层详解

## 概述

核心原语层（Core Primitives）是 Generative-Media-Skills 架构的基础层，提供与 muapi.ai 平台交互的底层能力。该层采用极简设计原则，通过薄封装（thin wrappers）包装 `muapi-cli` 工具，提供文件上传、图像编辑、平台配置和结果轮询等原子化功能。

核心原语层的设计目标是**零样板代码**——所有操作均通过标准 CLI 调用完成，无需手动处理 curl 请求或 JSON 解析。资料来源：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

## 架构设计

### 整体架构分层

```mermaid
graph TD
    subgraph "核心原语层 Core"
        A[core/platform] --> B[平台配置与认证]
        A --> C[结果轮询与状态管理]
        D[core/edit] --> E[图像编辑原语]
        D --> F[图像增强原语]
        D --> G[唇形同步原语]
        D --> H[视频特效原语]
    end
    
    subgraph "muapi-cli 引擎"
        I[muapi-cli] --> J[REST API 封装]
        J --> K[JSON Schema 验证]
        K --> L[结构化输出]
    end
    
    subgraph "Expert Library 专家库"
        M[Expert Skills] --> N[高级工作流编排]
    end
    
    B -.->|调用| I
    C -.->|轮询| I
    E -.->|调用| I
    F -.->|调用| I
    G -.->|调用| I
    H -.->|调用| I
```

### 核心目录结构

| 目录 | 功能 | 描述 |
|:---|:---|:---|
| `core/platform/` | 平台工具 | API密钥配置、连接测试、结果轮询 |
| `core/edit/` | 编辑原语 | 图像编辑、增强、唇形同步、视频特效 |
| `core/media/` | 媒体上传 | 文件上传到CDN（README提及） |

资料来源：[README.md - Scalable Architecture](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

## 平台工具层

平台工具层位于 `core/platform/`，负责与 muapi.ai 平台的认证和通信基础建设。

### 可用脚本

| 脚本 | 功能 | 主要参数 |
|:---|:---|:---|
| `setup.sh` | API密钥配置与管理 | `--add-key`, `--show-config`, `--test` |
| `check-result.sh` | 异步任务结果轮询 | `--id`, `--once` |

资料来源：[core/platform/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/SKILL.md)

### setup.sh 配置脚本

`setup.sh` 是平台配置的核心脚本，提供交互式和非交互式两种配置模式。

```bash
# 交互式配置
bash setup.sh

# 非交互式配置（自动化场景）
bash setup.sh --add-key "YOUR_MUAPI_KEY"

# 查看当前配置
bash setup.sh --show-config

# 测试API密钥有效性
bash setup.sh --test
```

**关键参数说明：**

| 参数 | 说明 | 使用场景 |
|:---|:---|:---|
| `--add-key <KEY>` | 保存API密钥到配置 | 首次配置或更换密钥 |
| `--show-config` | 显示当前配置状态 | 调试和验证 |
| `--test` | 测试API连接和密钥有效性 | 排查连接问题 |

资料来源：[core/platform/setup.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/setup.sh)

### check-result.sh 结果轮询脚本

异步生成任务需要轮询获取结果，该脚本封装了状态检查逻辑。

```bash
# 持续轮询直到完成
bash check-result.sh --id "your-request-id"

# 单次检查（不等待）
bash check-result.sh --id "your-request-id" --once
```

**轮询机制：**

```mermaid
sequenceDiagram
    participant A as 客户端
    participant M as muapi.ai API
    
    A->>M: POST /generate (async)
    M-->>A: request_id
    Note over A,M: 轮询循环开始
    loop 轮询
        A->>M: GET /predict/{request_id}
        M-->>A: status: processing
        A->>M: GET /predict/{request_id}
        M-->>A: status: success, outputs
    end
    Note over A,M: 轮询循环结束
```

| 参数 | 说明 | 必填 |
|:---|:---|:---|
| `--id <REQUEST_ID>` | 异步请求的唯一标识符 | 是 |
| `--once` | 仅检查一次，不持续轮询 | 否 |

资料来源：[core/platform/check-result.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/check-result.sh)

## 媒体编辑层

媒体编辑层位于 `core/edit/`，提供图像和视频处理的核心原语。该层封装了所有与 muapi.ai 编辑API的交互。

### 脚本概览

| 脚本 | 功能 | 模型支持 |
|:---|:---|:---|
| `edit-image.sh` | 基于提示词的图像编辑 | Flux Kontext, GPT-4o, Midjourney, Qwen |
| `enhance-image.sh` | 一键图像增强 | upscale, background-remove, face-swap 等 |
| `lipsync.sh` | 视频唇形同步 | Sync Labs, LatentSync, Creatify, Veed |
| `video-effects.sh` | 视频特效 | Wan AI, face-swap, dance, dress-change |

资料来源：[core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)

### edit-image.sh 图像编辑

支持多种AI模型的提示词驱动图像编辑。

```bash
bash edit-image.sh \
    --image-url "https://example.com/image.jpg" \
    --prompt "add sunglasses" \
    --model flux-kontext-pro
```

**支持的模型：**

| 模型 | 用途 | 特点 |
|:---|:---|:---|
| `flux-kontext-pro` | 上下文感知编辑 | 理解图像整体语义 |
| `gpt-4o` | 多模态编辑 | GPT-4o视觉能力 |
| `midjourney` | Midjourney编辑 | MJ风格保持 |
| `qwen-vl` | Qwen视觉编辑 | 阿里通义千问 |

**常用参数：**

| 参数 | 说明 | 示例 |
|:---|:---|:---|
| `--image-url` | 输入图像URL | `https://...` |
| `--prompt` | 编辑指令 | `"add sunglasses"` |
| `--model` | AI模型选择 | `flux-kontext-pro` |
| `--async` | 异步提交 | 不等待结果 |
| `--json` | JSON格式输出 | 便于程序解析 |

资料来源：[core/edit/edit-image.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/edit-image.sh)

### enhance-image.sh 图像增强

一键式图像增强操作，无需复杂提示词。

```bash
# 图像超分
bash enhance-image.sh --op upscale --image-url "https://..."

# 背景移除
bash enhance-image.sh --op background-remove --image-url "https://..."

# 人脸替换
bash enhance-image.sh --op face-swap --image-url "https://..." --target-face "https://..."

# 吉卜力风格
bash enhance-image.sh --op ghibli --image-url "https://..."
```

**增强操作类型：**

| 操作 | 说明 | 输出 |
|:---|:---|:---|
| `upscale` | AI超分辨率 | 更高分辨率版本 |
| `background-remove` | 背景移除 | 透明背景PNG |
| `face-swap` | 人脸替换 | 编辑后图像 |
| `colorize` | 黑白上色 | 彩色版本 |
| `ghibli` | 吉卜力风格转换 | 宫崎骏风格 |
| `product-shot` | 产品摄影级处理 | 商业级产品图 |

资料来源：[core/edit/enhance-image.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/enhance-image.sh)

### lipsync.sh 唇形同步

将音频与视频中的人物唇形同步。

```bash
bash lipsync.sh \
    --video-url "https://example.com/video.mp4" \
    --audio-url "https://example.com/audio.mp3" \
    --model sync
```

**支持模型：**

| 模型 | 提供商 | 特点 |
|:---|:---|:---|
| `sync` | Sync Labs | 高精度唇形同步 |
| `latent-sync` | LatentSync | 潜在空间同步 |
| `creatify` | Creatify | 自动化驱动 |
| `veed` | Veed | 快速处理 |

资料来源：[core/edit/lipsync.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/lipsync.sh)

### video-effects.sh 视频特效

应用各类AI视频特效。

```bash
# 舞蹈效果
bash video-effects.sh \
    --op dance \
    --image-url "https://..." \
    --audio-url "https://..."

# 人脸替换
bash video-effects.sh \
    --op face-swap \
    --video-url "https://..." \
    --target-face "https://..."

# 换装效果
bash video-effects.sh \
    --op dress-change \
    --video-url "https://..." \
    --garment-image "https://..."
```

**特效操作类型：**

| 操作 | 说明 | 输入要求 |
|:---|:---|:---|
| `dance` | 图像跟随音频起舞 | image + audio |
| `face-swap` | 视频人脸替换 | video + target-face |
| `dress-change` | 视频换装 | video + garment-image |
| `luma-modify` | Luma特效 | video |
| `luma-reframe` | Luma智能重构 | video |

资料来源：[core/edit/video-effects.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/video-effects.sh)

## 通用参数

所有核心脚本支持以下通用参数：

| 参数 | 说明 | 适用脚本 |
|:---|:---|:---|
| `--async` | 异步模式，不等待完成 | 全部 |
| `--json` | 输出JSON格式 | 全部 |
| `--timeout N` | 超时时间（秒） | 全部 |
| `--download <PATH>` | 自动下载结果到指定目录 | 全部 |
| `--view` | 下载后自动打开系统查看器 | 全部 |
| `--output-json` | 结构化JSON输出 | muapi-cli |
| `--jq '<EXPR>'` | jq表达式过滤输出 | muapi-cli |

资料来源：[core/edit/SKILL.md - Common Flags](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)

## 环境依赖

核心原语层依赖以下组件：

| 依赖 | 说明 | 用途 |
|:---|:---|:---|
| `muapi-cli` | muapi命令行工具 | 所有操作的核心引擎 |
| `curl` | HTTP客户端 | API请求 |
| `jq` | JSON处理器 | 输出解析和过滤 |
| `python3` | Python运行时 | 脚本逻辑 |
| `MUAPI_KEY` | 环境变量 | API认证 |

**安装 muapi-cli：**

```bash
# npm 安装（推荐）
npm install -g muapi-cli

# pip 安装
pip install muapi-cli

# 直接运行（无需安装）
npx muapi-cli --help
```

资料来源：[README.md - Install muapi CLI](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

## 典型工作流

### 完整图像编辑工作流

```mermaid
graph LR
    A[上传图像] --> B[配置API密钥]
    B --> C[执行编辑]
    C --> D{同步或异步}
    D -->|同步| E[直接返回结果]
    D -->|异步| F[获取request_id]
    F --> G[轮询结果]
    G --> H{完成?}
    H -->|否| G
    H -->|是| I[下载输出]
    I --> J[查看结果]
```

**示例代码：**

```bash
# 1. 配置API密钥
bash core/platform/setup.sh --add-key "YOUR_MUAPI_KEY"

# 2. 上传本地文件（自动获取URL）
IMAGE_URL=$(muapi upload file ./input.jpg --output-json --jq '.url' | tr -d '"')

# 3. 提交异步编辑任务
REQUEST_ID=$(muapi image edit "$IMAGE_URL" \
    --prompt "转换为吉卜力动画风格" \
    --model flux-kontext-pro \
    --no-wait \
    --output-json \
    --jq '.request_id' | tr -d '"')

# 4. 轮询等待结果
bash core/platform/check-result.sh --id "$REQUEST_ID"

# 5. 下载并查看
muapi predict wait "$REQUEST_ID" --download ./outputs --view
```

### 批量处理工作流

```bash
# 批量超分处理
for img in ./images/*.jpg; do
    IMAGE_URL=$(muapi upload file "$img" --output-json --jq '.url' | tr -d '"')
    REQUEST_ID=$(muapi enhance upscale "$IMAGE_URL" --no-wait --output-json --jq '.request_id' | tr -d '"')
    echo "$img: $REQUEST_ID" >> batch_jobs.txt
done

# 批量收集结果
while read line; do
    img=$(echo "$line" | cut -d: -f1)
    rid=$(echo "$line" | cut -d: -f2- | tr -d ' ')
    muapi predict wait "$rid" --download "./outputs/$img"
done < batch_jobs.txt
```

## Schema 数据验证

核心原语层使用 `schema_data.json` 进行运行时验证：

```json
{
  "models": {
    "flux-kontext-pro": {
      "endpoint": "/v1/image/edit/kontext",
      "aspect_ratios": ["1:1", "16:9", "9:16", "4:3"],
      "resolutions": ["1K", "2K", "4K"]
    }
  }
}
```

**验证功能：**

| 功能 | 说明 |
|:---|:---|
| 模型ID验证 | 确保请求的模型存在 |
| 端点解析 | 自动映射模型名到API端点 |
| 参数检查 | 验证 aspect_ratio、resolution、duration |

```bash
# 列出所有可用模型
muapi models list

# 按类别筛选
muapi models list --category video --output-json
```

资料来源：[README.md - Schema Reference](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

## 与 Expert Library 的关系

核心原语层为 Expert Library（专家库）提供底层支撑：

```mermaid
graph BT
    subgraph "Expert Library 专家库"
        A[Cinema Director] --> D[调用核心原语]
        B[Nano-Banana] --> D
        C[UI Designer] --> D
    end
    
    D --> E[core/edit]
    D --> F[core/platform]
    D --> G[muapi-cli]
```

**分工原则：**

| 层级 | 职责 | 抽象级别 |
|:---|:---|:---|
| Core Primitives | 原子操作，薄封装 | 低 |
| Expert Library | 领域知识，工作流编排 | 高 |

专家库中的技能（如 Cinema Director）读取 SKILL.md 文件，按照步骤指示调用核心原语，实现专业级输出而无需暴露底层细节。

资料来源：[README.md - Expert Library](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

## 常见问题与排查

### 认证问题

**症状：** API调用返回认证错误

**排查步骤：**

```bash
# 1. 确认密钥配置
bash core/platform/setup.sh --show-config

# 2. 测试密钥有效性
bash core/platform/setup.sh --test
```

### 异步任务卡住

**症状：** `check-result.sh` 长时间无响应

**排查步骤：**

```bash
# 1. 检查一次不过滤
bash core/platform/check-result.sh --id "YOUR_ID" --once

# 2. 查看任务状态
muapi predict result "YOUR_ID" --json
```

### 模型不支持

**症状：** 报错模型不存在

**解决方案：**

```bash
# 查看支持的模型列表
muapi models list --category image --output-json | jq '.models[].id'
```

## 总结

核心原语层是 Generative-Media-Skills 的基础设施，通过标准化的脚本封装提供：

- **平台无关性**：统一的 CLI 接口，底层切换透明
- **零样板**：无需编写 curl 或 JSON 解析代码
- **可组合性**：脚本可自由组合构建复杂工作流
- **类型安全**：Schema 验证确保参数正确性

核心原语层的设计哲学是**简单、可信、持久**——专注于做好一件事（与 muapi.ai API 交互），而不试图做太多。这与 Expert Library 的高级抽象形成良好互补，共同构成完整的 AI 媒体生成能力体系。

---

<a id='motion-skills'></a>

## 视频与动效技能库

### 相关页面

相关主题：[核心原语层详解](#core-primitives), [社交媒体技能库](#social-skills)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [library/motion/cinema-director/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/cinema-director/SKILL.md)
- [library/motion/seedance-2/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/seedance-2/SKILL.md)
- [library/motion/seedance-2/scripts/generate-seedance.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/seedance-2/scripts/generate-seedance.sh)
- [library/motion/cinema-director/scripts/generate-film.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/cinema-director/scripts/generate-film.sh)
- [library/motion/product-video-ad-maker/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/product-video-ad-maker/SKILL.md)
- [library/motion/ugc-video-factory/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/ugc-video-factory/SKILL.md)
- [library/edit/ai-clipping/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/edit/ai-clipping/SKILL.md)
</details>

# 视频与动效技能库

## 概述

视频与动效技能库是 Generative-Media-Skills 项目的核心模块之一，专门用于为 AI Agent 提供专业级的视频生成、编辑和动效制作能力。该技能库整合了文本转视频（Text-to-Video）、图片转视频（Image-to-Video）、视频剪辑（Video Editing）和短视频创作（Short Video Creation）等多条技术路线，支持从概念构思到最终成品的完整工作流。

资料来源：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

## 技术架构

### 分层设计

视频与动效技能库采用 **Core/Library** 分层架构：

```mermaid
graph TD
    A[用户/Agent] --> B[Expert Library 专家技能层]
    B --> C[core/media 媒体核心]
    B --> D[core/edit 编辑核心]
    B --> E[core/platform 平台核心]
    C --> F[muapi-cli]
    D --> F
    E --> F
    F --> G[muapi.ai API]
```

资料来源：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

### 技能分类

技能库包含 **16 个视频动效技能**，分为以下几大类：

| 类别 | 技能数量 | 代表技能 |
|:---|:---:|:---|
| 电影级视频生成 | 3 | Cinema Director、Seedance 2.0、One-Shot Video |
| 产品展示视频 | 4 | Product Video Ad Maker、Giant Product Showcase、Jewelry Product Video、Product Showcase Video |
| 人物视频创作 | 4 | Animal Vlogger Video、Talking Baby Video、UGC Lifestyle Try-On、Cartoon Dance Animation |
| 视频特效与动画 | 3 | 3D Logo Animation、AI Fight Scene Generator、Character Story Video |
| 社交媒体短视频 | 2 | UGC Video Factory、YouTube Shorts |

资料来源：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

## 核心组件详解

### Cinema Director（电影导演）

Cinema Director 是技能库中最具电影感的高级技能，提供专业的电影级视频生成能力。

**功能特性：**

- 支持 **Kling v3.0 Pro** 等顶级视频生成模型
- 可配置视频时长（1-10秒）
- 支持多种情绪风格（Intent）：epic（史诗）、cinematic（电影感）、dramatic（戏剧性）等
- 支持 Seedance 2.0 模型的文本转视频、图片转视频和视频扩展

资料来源：[library/motion/cinema-director/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/cinema-director/SKILL.md)

**使用示例：**

```bash
cd library/motion/cinema-director

# 创建10秒史诗级视频
bash scripts/generate-film.sh \
  --subject "a cybernetic dragon over Tokyo" \
  --intent "epic" \
  --model "kling-v3.0-pro" \
  --duration 10 \
  --view
```

资料来源：[library/motion/cinema-director/scripts/generate-film.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/cinema-director/scripts/generate-film.sh)

### Seedance 2.0（字节豆包视频）

Seedance 2.0 提供导演级别的专业视频生成能力，支持三种工作模式：

| 模式 | 说明 |
|:---|:---|
| `t2v` | 文本转视频（Text-to-Video） |
| `i2v` | 图片转视频（Image-to-Video） |
| `extend` | 视频扩展（Video Extension） |

资料来源：[library/motion/seedance-2/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/seedance-2/SKILL.md)

**核心脚本参数：**

| 参数 | 类型 | 说明 |
|:---|:---:|:---|
| `--mode` | string | 工作模式：t2v/i2v/extend |
| `--subject` | string | 视频主体描述 |
| `--intent` | string | 创作意图（如 reveal、orbit、sweep） |
| `--file` | string | 输入图片路径（i2v模式必需） |
| `--request-id` | string | 扩展模式需要提供原视频ID |
| `--duration` | int | 视频时长（秒） |
| `--view` | flag | 生成后自动打开查看 |

资料来源：[library/motion/seedance-2/scripts/generate-seedance.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/seedance-2/scripts/generate-seedance.sh)

### AI Clipping（智能剪辑）

AI Clipping 提供从长视频自动提取高传播力短视频的能力，是内容创作者的效率利器。

**核心能力：**

- **服务端转录**：无需本地 Whisper，在服务端完成语音识别
- **病毒式排名**：基于传播潜力自动排序精彩片段
- **去重机制**：智能检测并去除重复内容
- **人脸追踪自动裁剪**：保持人物始终在画面中心

资料来源：[library/edit/ai-clipping/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/edit/ai-clipping/SKILL.md)

### UGC Video Factory（用户生成内容工厂）

UGC Video Factory 将产品推广流程自动化，从人物照片到10秒竖屏广告一气呵成。

**工作流：**

1. 上传人物照片
2. 上传产品照片
3. 生成推广文案
4. Nano-Banana Pro 风格编辑
5. Seedance 2.0 VIP 图片转视频

资料来源：[library/motion/ugc-video-factory/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/ugc-video-factory/SKILL.md)

### Product Video Ad Maker（产品广告制作器）

高端电影级产品视频广告制作，从简单的产品照片即可生成专业级商业视频。

**输出规格：**

- 竖屏 9:16 格式
- 适配 TikTok/Reels/Shorts 平台
- 高端商业电影质感

资料来源：[library/motion/product-video-ad-maker/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/motion/product-video-ad-maker/SKILL.md)

## MCP 工具接口

视频与动效技能通过 MCP Server 暴露为结构化工具，Claude Desktop、Cursor 等 Agent 可直接调用。

资料来源：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

### 视频生成相关工具

| 工具名称 | 功能 | 支持模型数 |
|:---|:---|:---:|
| `muapi_video_generate` | 文本转视频 | 13 |
| `muapi_video_from_image` | 图片转视频 | 16 |
| `muapi_video_extend` | 视频扩展 | 2 |

### 视频编辑相关工具

| 工具名称 | 功能 | 支持模型数 |
|:---|:---|:---:|
| `muapi_edit_lipsync` | 口型同步 | 4 |
| `muapi_edit_clipping` | AI 精彩片段提取 | 1 |
| `muapi_enhance_upscale` | 视频超分辨率 | 3 |

## 异步处理流程

视频生成采用异步工作模式，需要通过轮询获取结果：

```mermaid
sequenceDiagram
    participant Agent
    participant muapi
    participant API
    participant Storage

    Agent->>muapi: muapi video generate --no-wait
    muapi->>API: POST /video/generate
    API-->>muapi: request_id
    muapi-->>Agent: { request_id: "xxx" }

    loop 轮询直到完成
        Agent->>muapi: muapi predict result --id xxx
        muapi->>API: GET /predict/result?id=xxx
        API-->>muapi: status: pending/processing/done
        muapi-->>Agent: status
    end

    API->>Storage: 存储完成的视频
    Agent->>muapi: muapi predict wait --download ./outputs
    muapi->>API: GET /predict/result?id=xxx
    API-->>muapi: { outputs: [url] }
    muapi->>Storage: 下载视频文件
    muapi-->>Agent: ./outputs/video.mp4
```

资料来源：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

**CLI 异步操作示例：**

```bash
# 提交异步任务并获取 request_id
REQUEST_ID=$(muapi video generate "a dog running on a beach" \
  --model kling-master --no-wait --output-json --jq '.request_id' | tr -d '"')

# 执行其他任务...

# 等待并下载结果
muapi predict wait "$REQUEST_ID" --download ./outputs
```

## 使用指南

### 快速开始

**前置条件：**

1. 安装 muapi-cli：`npm install -g muapi-cli`
2. 配置 API Key：`muapi auth configure --api-key "YOUR_MUAPI_KEY"`

资料来源：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

### 基础视频生成

```bash
# 文本转视频
muapi video generate "a sunset over mountains" \
  --model kling-v3.0-pro \
  --duration 5 \
  --view

# 图片转视频
URL=$(muapi upload file ./product.jpg --output-json --jq '.url' | tr -d '"')
muapi video from-image "$URL" \
  --subject "camera slowly zooms in" \
  --model seedance-2.0 \
  --view
```

### 使用高级技能

```bash
# 使用 Cinema Director 生成电影级视频
cd library/motion/cinema-director
bash scripts/generate-film.sh \
  --subject "cybernetic samurai in Tokyo neon district" \
  --intent "cinematic" \
  --model kling-v3.0-pro \
  --duration 10 \
  --view

# 使用 Seedance 2.0 i2v 模式
cd library/motion/seedance-2
bash scripts/generate-seedance.sh \
  --mode i2v \
  --file ./concept.jpg \
  --subject "camera slowly pulls back to reveal the full landscape" \
  --intent "reveal" \
  --view
```

## MCP Server 配置

在 Claude Desktop 或 Cursor 中配置 MCP Server：

```json
{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": { "MUAPI_API_KEY": "your-key-here" }
    }
  }
}
```

配置完成后，Agent 可直接调用 `muapi_video_generate`、`muapi_video_from_image` 等工具，无需编写 Shell 脚本。

资料来源：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

## 常见问题与社区反馈

根据社区讨论，以下是用户关心的热点问题：

| 问题 | 说明 | 状态 |
|:---|:---|:---:|
| 视频生成速度慢 | 用户询问 GPU 加速支持 | 已支持云端 GPU 加速 |
| 发布到第三方平台 | 用户希望在视频生成后自动发布 | 路线图中 |
| CUDA 本地运行 | 社区询问本地 CUDA 加速 | 推荐使用云端 API |
| Docker 支持 | 用户询问 Docker 部署方案 | 需要额外配置 |

资料来源：[GitHub Issues #89](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/89), [#70](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/70), [#68](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/68)

## 相关技能推荐

视频与动效技能库可与以下技能协同使用：

| 配套技能 | 用途 |
|:---|:---|
| Nano-Banana | 提供 Gemini 3 风格的图片生成作为视频素材 |
| AI Clipping | 将长视频自动剪辑为短视频 |
| Lip Sync | 为视频添加口型同步配音 |
| Social Media Pack | 生成各平台适配的社交媒体版本 |
| YouTube Thumbnail | 生成高点击率的视频缩略图 |

## 技术参考

- **CLI 文档**：[muapi-cli npm](https://www.npmjs.com/package/muapi-cli)
- **API Key 获取**：[https://muapi.ai/dashboard](https://muapi.ai/dashboard)
- **支持的模型列表**：`muapi models list --category video`
- **支持的分辨率**：`flux-dev`、`kling-v3.0-pro`、`seedance-2.0` 等主流模型

---

<a id='visual-skills'></a>

## 图像与设计技能库

### 相关页面

相关主题：[核心原语层详解](#core-primitives), [社交媒体技能库](#social-skills)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)
- [core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)
- [library/visual/nano-banana/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/visual/nano-banana/SKILL.md)
- [library/visual/ui-design/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/visual/ui-design/SKILL.md)
- [library/visual/logo-creator/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/visual/logo-creator/SKILL.md)
- [library/visual/action-figure-generator/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/visual/action-figure-generator/SKILL.md)
- [library/visual/amazon-product-listing/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/visual/amazon-product-listing/SKILL.md)
- [library/visual/interior-design/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/visual/interior-design/SKILL.md)
</details>

# 图像与设计技能库

图像与设计技能库是 Generative-Media-Skills 项目中专注于视觉内容生成的专家知识层，提供 21 种专业图像生成和设计技能。该模块通过 `muapi-cli` 核心引擎驱动，结合 AI 推理能力，为 AI 代理提供从产品摄影到 UI 设计、从品牌标识到室内装修的全链路视觉内容创作能力。资料来源：[README.md]()

## 架构概览

图像与设计技能库采用 **核心层 / 技能层** 双层架构：

```mermaid
graph TD
    A[AI 代理 Agent] --> B[技能层 Skill Library]
    B --> C[Nano-Banana 推理生成]
    B --> D[UI Designer 界面设计]
    B --> E[Logo Creator 标识创作]
    B --> F[Interior Design 室内设计]
    B --> G[Action Figure 人偶生成]
    
    C --> H[core/edit 编辑核心]
    D --> H
    E --> H
    F --> H
    G --> H
    
    H --> I[muapi-cli 核心引擎]
    I --> J[Flux Kontext Pro]
    I --> K[Midjourney v7]
    I --> L[Kling 3.0]
    I --> M[HiDream]
```

技能层封装专业领域知识，核心层处理底层 API 调用，两者通过标准化 CLI 接口通信。资料来源：[README.md]()

## 核心编辑功能

`core/edit` 模块提供基础的图像编辑与增强能力，是所有高级视觉技能的底层支撑。资料来源：[core/edit/SKILL.md]()

### 可用脚本

| 脚本 | 功能描述 |
|:---|:---|
| `edit-image.sh` | 基于提示词的图像编辑（支持 Flux Kontext、GPT-4o、Midjourney、Qwen 等模型） |
| `enhance-image.sh` | 一键增强操作：超分辨率、背景移除、人脸替换、色彩化、吉卜力风格、产品摄影 |
| `lipsync.sh` | 视频唇形同步（支持 Sync Labs、LatentSync、Creatify、Veed） |
| `video-effects.sh` | 视频特效：AI 特效、人脸替换、舞蹈、换装、Luma 修饰/重构 |

### 常用参数

所有脚本支持以下通用参数：

```bash
--async      # 异步提交，不等待结果
--json       # 输出 JSON 格式
--timeout N  # 超时时间（秒）
--help       # 显示帮助信息
```

### 快速使用

```bash
# 图像编辑
bash edit-image.sh --image-url "https://..." --prompt "添加太阳镜" --model flux-kontext-pro

# 超分辨率放大
bash enhance-image.sh --op upscale --image-url "https://..."

# 背景移除
bash enhance-image.sh --op background-remove --image-url "https://..."

# 唇形同步
bash lipsync.sh --video-url "https://..." --audio-url "https://..." --model sync

# 舞蹈特效
bash video-effects.sh --op dance --image-url "https://..." --audio-url "https://..."
```

资料来源：[core/edit/SKILL.md]()

## Nano-Banana 推理生成

Nano-Banana 是项目中最具创新性的图像生成技能，采用 AI 推理驱动的方式生成高质量视觉内容。其设计理念融合了 Gemini 3 的推理风格，能够在生成过程中进行多步思考和优化。资料来源：[library/visual/nano-banana/SKILL.md]()

### 核心特性

- **推理驱动的生成**：通过链式思维（Chain-of-Thought）方式分析输入，逐步优化生成结果
- **2K/4K 高分辨率输出**：支持超高清分辨率选项
- **多风格支持**：涵盖微距摄影、电影感、人像、产品摄影等多种风格
- **视角控制**：支持鱼眼、鸟瞰、低角度、微距等多种拍摄视角

### 工作流程

```mermaid
graph LR
    A[输入源文件] --> B[输入主体描述]
    B --> C[选择风格]
    C --> D[Nano-Banana 推理引擎]
    D --> E{分辨率选择}
    E -->|2K| F[生成2K图像]
    E -->|4K| G[生成4K图像]
    F --> H[自动下载并预览]
    G --> H
```

### 脚本使用

```bash
bash library/visual/nano-banana/scripts/generate-nano-art.sh \
  --file ./my-source-image.jpg \
  --subject "一只玻璃蜂鸟" \
  --style "macro photography" \
  --resolution "2k" \
  --view
```

**参数说明**：

| 参数 | 必需 | 描述 |
|:---|:---:|:---|
| `--file` | 是 | 输入源图像文件路径 |
| `--subject` | 是 | 主体描述 |
| `--style` | 是 | 艺术风格（macro photography、cinematic、portrait 等） |
| `--resolution` | 否 | 输出分辨率（2k、4k），默认 2k |
| `--view` | 否 | 生成后自动打开预览 |

资料来源：[library/visual/nano-banana/SKILL.md]()

## UI Designer 界面设计

UI Designer 技能专注于生成高保真移动端和 Web 端界面设计稿，采用原子设计（Atomic Design）方法论构建可复用的设计系统。资料来源：[library/visual/ui-design/SKILL.md]()

### 设计方法论

该技能遵循原子设计的五级层次结构：

| 层级 | 描述 | 示例 |
|:---|:---|:---|
| 原子 | 基础UI组件 | 按钮、输入框、图标 |
| 分子 | 简单组件组合 | 搜索框（图标+输入框+按钮） |
| 有机体 | 复杂功能模块 | 导航栏、卡片组件 |
| 模板 | 页面骨架结构 | 列表页模板、表单页模板 |
| 页面 | 完整设计稿 | 登录页、个人中心页 |

### 脚本使用

```bash
bash library/visual/ui-design/scripts/generate-mockup.sh \
  --type "mobile-app" \
  --theme "modern-minimal" \
  --output ./outputs/ui-mockup.png
```

支持生成类型包括：`mobile-app`、`web-dashboard`、`landing-page`、`e-commerce` 等。

资料来源：[library/visual/ui-design/SKILL.md]()

## Logo Creator 标识创作

Logo Creator 提供简洁高效的矢量风格品牌标识生成能力，通过几何原语构建专业级品牌视觉系统。资料来源：[library/visual/logo-creator/SKILL.md]()

### 设计特点

- **几何原语驱动**：使用基础几何形状构建复杂标识
- **品牌一致性**：生成标识时可同时输出品牌色板、字体配对建议
- **多格式输出**：支持 SVG、PNG、PDF 等多种格式

### 脚本使用

```bash
bash library/visual/logo-creator/scripts/create-logo.sh \
  --name "TechCorp" \
  --style "geometric" \
  --colors "blue,white" \
  --output ./outputs/logo.png
```

资料来源：[library/visual/logo-creator/SKILL.md]()

## 专业技能库

### 产品摄影类

| 技能 | 描述 | 适用场景 |
|:---|:---|:---|
| Action Figure Generator | 将人物照片转换为3D手办人偶造型 | 玩具、收藏品营销 |
| Amazon Product Listing | 亚马逊产品图组（主图+场景图+信息图+细节图） | 电商平台 |
| Photo Pack Generator | 多角度产品拍摄套组 | 产品展示 |
| Jewelry Product Video | 奢侈珠宝高定摄影与动画 | 高端品牌 |

### 品牌设计类

| 技能 | 描述 | 适用场景 |
|:---|:---|:---|
| Brand Kit | 品牌视觉套件（标识概念、色板、字体配对） | 品牌建设 |
| Brand Design Guide | 完整设计规范（色板、字体、UI组件、视觉规则） | 设计系统 |
| Logo + Branding Package | 标识+完整品牌包（深色/浅色/图标变体、色板、模型） | 品牌启动 |
| Logo Generator | 快速单次精致标识（干净矢量美学） | 快速原型 |

### 室内与空间设计

| 技能 | 描述 | 适用场景 |
|:---|:---|:---|
| Interior Design | 专业室内设计可视化 | 装修设计 |
| Interior Design Visualizer | 生成空房间并填充家具/装饰，或重设现有房间 | 室内软装 |
| Floor Plan Rendering | 2D平面图转3D建筑渲染 | 建筑设计 |
| Fashion Try-On | 虚拟试衣（人物照片+服装单品组合） | 时尚电商 |

### 社交媒体类

| 技能 | 描述 | 适用场景 |
|:---|:---|:---|
| YouTube Thumbnail | 高点击率YouTube缩略图 | 内容创作 |
| Instagram Post | 品牌风格Instagram帖子（主图+文案+标签） | 社交营销 |
| Social Media Pack | 主图转多平台比例（Instagram/TikTok/Shorts/X） | 跨平台运营 |
| RedNote Cover | 小红书封面图（活力生活方式美学） | 中文平台 |

资料来源：[README.md]()

## 模型支持

图像与设计技能库通过 `muapi-cli` 接入 100+ AI 图像生成模型：

### 主流模型

| 模型 | 类型 | 特点 |
|:---|:---|:---|
| Flux Kontext Pro | 图像编辑 | 提示词驱动的精准编辑 |
| Midjourney v7 | 通用生成 | 高美学质量 |
| HiDream Fast | 快速生成 | 速度快，适合预览 |
| HiDream | 高质量生成 | 细节丰富 |
| Kling 3.0 | 图生视频 | 图像转视频能力 |
| Seedance 2.0 | 视频生成 | 导演级电影效果 |

### 模型查询

```bash
# 列出所有图像模型
muapi models list --category image

# 查看具体模型参数
muapi models list --output-json | jq '.[] | select(.category == "image")'
```

资料来源：[README.md]()

## AI 代理集成

图像与设计技能库专为 AI 代理设计，支持多种集成方式：

### MCP 服务器模式

```bash
muapi mcp serve
```

在 Claude Desktop 配置中启用：

```json
{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": { "MUAPI_API_KEY": "your-key-here" }
    }
  }
}
```

### CLI 直接调用

```bash
# 生成图像并自动下载
muapi image generate "科技产品特写" --model flux-dev --download ./outputs

# 仅获取 URL（供代理后续处理）
muapi image generate "产品图" --model flux-schnell --output-json --jq '.outputs[0]'
```

### 执行代理技能

```bash
# 安装所有视觉技能
npx skills add SamurAIGPT/Generative-Media-Skills --skill muapi-visual

# 或安装到特定代理
npx skills add SamurAIGPT/Generative-Media-Skills --all -a claude-code -a cursor
```

资料来源：[README.md]()

## 常见工作流程

### 产品广告生成流程

```mermaid
graph TD
    A[上传产品照片] --> B[Nano-Banana 增强处理]
    B --> C[生成多角度视图]
    C --> D[Interior Design 场景合成]
    D --> E[AI Clipping 提取精华片段]
    E --> F[Seedance 2.0 视频化]
    F --> G[最终广告成品]
```

### 品牌设计流程

```mermaid
graph TD
    A[品牌名称输入] --> B[Logo Creator 生成标识]
    B --> C[Brand Kit 生成品牌套件]
    C --> D[UI Designer 应用到界面]
    D --> E[Social Pack 发布到各平台]
```

## 社区关注点

根据社区反馈，用户对以下功能表示关注：

- **发布到 Vynly**：Issue #89 中用户提议在媒体生成后添加一键发布到 Vynly 的技能，实现完整的生成到发布工作流
- **CUDA 加速**：Issue #70 中用户询问是否支持 CUDA 加速，目前图像生成主要依赖云端 API
- **多语言支持**：用户希望技能能支持不同语言的提示词处理，包括西班牙语等

## 环境要求

| 组件 | 要求 |
|:---|:---|
| muapi-cli | 最新版（npm 或 pip 安装） |
| curl | 系统自带 |
| jq | JSON 处理 |
| python3 | 脚本执行 |
| MUAPI_KEY | 通过 `muapi auth configure` 配置 |

资料来源：[core/edit/SKILL.md]()

## 下一步

- 探索 [运动与视频技能库](./motion-video-skills.md) 了解视频生成能力
- 查看 [MCP 服务器配置](./mcp-server.md) 了解代理集成详情
- 阅读 [架构设计文档](./architecture.md) 了解核心层与技能层交互

---

<a id='social-skills'></a>

## 社交媒体技能库

### 相关页面

相关主题：[视频与动效技能库](#motion-skills), [图像与设计技能库](#visual-skills)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [library/social/youtube-shorts/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/youtube-shorts/SKILL.md)
- [library/social/youtube-shorts/scripts/run-youtube-shorts.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/youtube-shorts/scripts/run-youtube-shorts.sh)
- [library/social/instagram-post/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/instagram-post/SKILL.md)
- [library/social/product-campaign/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/product-campaign/SKILL.md)
- [library/social/rednote-cover/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/rednote-cover/SKILL.md)
- [library/social/social-media-video/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/social-media-video/SKILL.md)
</details>

# 社交媒体技能库

## 概述

社交媒体技能库是 Generative-Media-Skills 项目中专注于社交平台内容生成的专业技能集合。该技能库包含 5 个核心技能和 1 个视频处理技能，旨在帮助 AI Agent 自动化生成面向各大社交平台的营销内容和创意素材。

**核心功能定位：**

- 多平台适配：支持 Instagram、小红书 (RedNote)、YouTube Shorts、TikTok、抖音等多平台
- 一站式工作流：从素材输入到多平台分发的完整自动化流程
- AI 驱动的内容创作：利用 Nano-Banana、Seedance 2.0 等先进模型生成高质量内容
- UGC 风格支持：生成真实用户生成内容风格的口碑营销素材

**技能清单：**

| 技能名称 | 路径 | 描述 |
|:---|:---|:---|
| Instagram Post | `library/social/instagram-post/` | 品牌风格一致的 Instagram 帖子生成 |
| Product Campaign Pack | `library/social/product-campaign/` | 多渠道营销活动综合素材包 |
| RedNote Cover | `library/social/rednote-cover/` | 小红书封面图生成 |
| Social Media Pack | `library/social/social-pack/` | 主流社交平台多比例素材适配 |
| UGC Ads Workflow | `library/social/ugc-ads-workflow/` | UGC 风格视频广告制作流程 |
| YouTube Shorts | `library/social/youtube-shorts/` | 短视频平台垂直内容制作 |

资料来源：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

---

## 架构设计

### 技能分层模型

社交媒体技能库采用三层架构设计，实现从底层 API 调用到顶层创意策略的完整封装：

```mermaid
graph TD
    A[社交媒体技能库] --> B[表现层 Skill]
    A --> C[工作流层 Workflow]
    A --> D[工具层 muapi-cli]
    
    B --> B1[Instagram Post]
    B --> B2[RedNote Cover]
    B --> B3[Product Campaign]
    
    C --> C1[UGC Ads Workflow]
    C --> C2[YouTube Shorts]
    
    D --> D1[muapi image generate]
    D --> D2[muapi video generate]
    D --> D3[muapi enhance]
    
    style A fill:#f9f,color:#000
    style D fill:#ff9,color:#000
```

### 核心执行流程

社交媒体内容的生成遵循标准的 AI Agent 工作流模式：

```mermaid
graph LR
    A[输入素材] --> B[AI Agent 解析 SKILL.md]
    B --> C[执行 muapi CLI 调用]
    C --> D[生成主素材]
    D --> E[多平台适配裁剪]
    E --> F[输出多格式成品]
    
    style B fill:#9ff,color:#000
    style C fill:#9f9,color:#000
```

资料来源：[library/social/youtube-shorts/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/youtube-shorts/SKILL.md)

---

## 核心技能详解

### Instagram Post

**功能描述：** 生成符合品牌风格的专业 Instagram 帖子，包含主图、标题文案和话题标签推荐。

**输入参数：**

| 参数 | 类型 | 必填 | 说明 |
|:---|:---|:---:|:---|
| subject | string | ✓ | 产品或内容主题 |
| brand_style | string | ○ | 品牌视觉风格要求 |
| keywords | string[] | ○ | 关键词用于 hashtag 生成 |

**输出产物：**

- 1080×1080 主图 (1:1 比例)
- 英文/双语 caption 文案
- 15-20 个相关话题标签

**执行脚本：**

```bash
bash library/social/instagram-post/scripts/generate-instagram.sh \
  --subject "your product" \
  --style "minimal luxury" \
  --view
```

资料来源：[library/social/instagram-post/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/instagram-post/SKILL.md)

---

### RedNote Cover

**功能描述：** 专为小红书平台设计的封面图生成技能，强调生动活泼的生活美学和排版设计。

**设计特点：**

- 竖版 3:4 比例适配移动端浏览习惯
- 大标题 + 副标题双层文字排版
- 情感化视觉元素和人物主体突出
- 中文排版优化

**输出规格：**

| 属性 | 值 |
|:---|:---|
| 宽高比 | 3:4 |
| 推荐分辨率 | 1080×1440 |
| 主色调 | 活泼明亮 |
| 字体风格 | 中文手写体 + 粗体标题 |

**执行示例：**

```bash
bash library/social/rednote-cover/scripts/generate-rednote.sh \
  --content "生活方式分享" \
  --theme "温馨治愈" \
  --view
```

资料来源：[library/social/rednote-cover/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/rednote-cover/SKILL.md)

---

### Product Campaign Pack

**功能描述：** 综合性的多渠道营销活动素材包，生成覆盖 Hero 视觉、社交资产、短视频和平台适配裁剪的完整素材集。

**生成素材类型：**

| 类型 | 用途 | 格式 |
|:---|:---|:---|
| Hero Visual | 主视觉 Banner | 1920×1080 横版 |
| Social Assets | 社交媒体用图 | 多比例裁剪 |
| Short Video | 短视频广告 | 9:16 竖版 |
| Platform Crops | Meta/Google/LinkedIn | 平台特定规格 |

**工作流配置：**

```mermaid
graph TD
    A[产品图 + 品牌 Brief] --> B[生成 Hero 主图]
    B --> C[分解为多平台素材]
    C --> D[生成短视频广告]
    D --> E[输出完整 Campaign 素材包]
    
    B --> F[MuAPI: image generate]
    D --> G[MuAPI: video generate]
    
    style E fill:#9f9,color:#000
```

**执行命令：**

```bash
bash library/social/product-campaign/scripts/generate-campaign.sh \
  --product-image "./product.jpg" \
  --brand-brief "minimal, eco-friendly" \
  --platforms "instagram,tiktok,facebook"
```

资料来源：[library/social/product-campaign/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/product-campaign/SKILL.md)

---

### Social Media Pack

**功能描述：** 将一张主素材自动转换为多个主流社交平台的适配版本，包括 Instagram、TikTok、Shorts (YouTube) 和 X (Twitter)。

**支持的平台比例：**

| 平台 | 比例 | 尺寸 |
|:---|:---|:---|
| Instagram Feed | 1:1 | 1080×1080 |
| Instagram Story | 9:16 | 1080×1920 |
| TikTok | 9:16 | 1080×1920 |
| YouTube Shorts | 9:16 | 1080×1920 |
| X (Twitter) | 16:9 | 1200×675 |

**执行脚本：**

```bash
muapi upload file ./hero-image.jpg --output-json
# 获取 URL 后执行裁剪
bash library/social/social-pack/scripts/generate-social-pack.sh \
  --source-url "https://cdn.muapi.ai/..." \
  --platforms all
```

---

### YouTube Shorts

**功能描述：** 基于 AI Clipping 技能的视频处理工作流，专门针对 YouTube Shorts、TikTok 和抖音等短视频平台优化。

**核心处理流程：**

```mermaid
graph TD
    A[长视频输入] --> B[AI Clipping 智能剪辑]
    B --> C[自动转录 + 时间轴]
    C --> D[病毒性评分排名]
    D --> E[人脸追踪自动裁剪]
    E --> F[垂直 9:16 输出]
    
    B -.->|服务端处理| G[无本地 Whisper]
    B -.->|无本地 LLM| H[全云端推理]
    
    style F fill:#9f9,color:#000
```

**关键特性：**

- **服务端转录**：无需本地 Whisper 模型，全云端处理
- **智能排序**：基于多维度评分自动排序高价值片段
- **去重机制**：自动识别并去除重复片段
- **人脸追踪**：自动保持人像在画面中心

**执行脚本：**

```bash
bash library/social/youtube-shorts/scripts/run-youtube-shorts.sh \
  --video "./long-video.mp4" \
  --platform "shorts" \
  --max-clips 5 \
  --aspect-ratio "9:16"
```

**参数说明：**

| 参数 | 默认值 | 说明 |
|:---|:---:|:---|
| --platform | shorts | 目标平台 (shorts/tiktok/reels) |
| --max-clips | 3 | 最大剪辑数量 |
| --aspect-ratio | 9:16 | 输出宽高比 |
| --language | auto | 视频语言检测 |

资料来源：[library/social/youtube-shorts/scripts/run-youtube-shorts.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/youtube-shorts/scripts/run-youtube-shorts.sh)

---

### UGC Ads Workflow

**功能描述：** 生成用户生成内容 (UGC) 风格的视频广告，将人物照片与产品图结合，创作真实感强的口碑营销素材。

**工作流组成：**

| 步骤 | 技能 | 输出 |
|:---|:---|:---|
| 1 | 人物自拍生成 | selfie-with-celebrities |
| 2 | 产品图合成 | 产品植入场景 |
| 3 | 文案撰写 | 脚本 + 配音 |
| 4 | 视频动画 | Seedance 2.0 i2v |

**执行流程：**

```mermaid
graph LR
    A[人物照片] --> B[生成 UGC 风格自拍]
    C[产品图片] --> D[产品植入]
    B --> E[生成脚本]
    D --> E
    E --> F[Seedance 2.0 动画]
    F --> G[10s 竖版 UGC 视频]
    
    style G fill:#9f9,color:#000
```

**执行命令：**

```bash
bash library/social/ugc-ads-workflow/scripts/generate-ugc.sh \
  --person "./person.jpg" \
  --product "./product.jpg" \
  --script "自然真实的使用体验分享" \
  --view
```

资料来源：[library/social/ugc-ads-workflow/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/library/social/ugc-ads-workflow/SKILL.md)

---

## 社区反馈与功能建议

### 用户反馈的功能需求

根据 GitHub Issues 中的社区讨论，以下是用户对社交媒体相关内容的高频需求：

| 需求 | 状态 | 说明 |
|:---|:---:|:---|
| 发布到 Vynly 平台 | 功能建议 | Issue #89：用户希望在媒体生成后自动发布到 Vynly |
| 多语言内容支持 | 已支持 | 德语、西班牙语等非英语内容均可处理 |
| 本地文件批量导入 | 功能建议 | Issue #73：支持 NFS/CIFS 文件共享批量导入 |

**Issue #89 原文摘录：**
> "Generative-Media-Skills giving agents multi-modal generation is exactly the kind of workflow that needs a publish destination at the end."

该反馈指出当前工作流的局限：AI Agent 生成媒体内容后，成品仅保存在本地，缺乏直接的分发渠道集成能力。

### 常见问题排查

| 问题 | 原因 | 解决方案 |
|:---|:---|:---|
| 视频裁剪后人脸不居中 | 人脸追踪未启用 | 添加 `--face-track true` 参数 |
| 生成的 hashtag 不准确 | 关键词不足 | 增加 `--keywords` 参数提供更多上下文 |
| 平台比例不匹配 | 平台配置错误 | 检查 `--platform` 参数是否与目标平台匹配 |

---

## 快速上手指南

### 环境准备

```bash
# 安装 muapi-cli
npm install -g muapi-cli

# 配置 API Key
muapi auth configure --api-key "YOUR_MUAPI_KEY"

# 验证配置
muapi account balance
```

### 选择合适的技能

```mermaid
graph TD
    A[需要生成什么内容?] --> B{内容类型}
    
    B -->|单张图片| C{目标平台}
    C -->|Instagram| D[Instagram Post]
    C -->|小红书| E[RedNote Cover]
    C -->|多平台| F[Social Media Pack]
    
    B -->|视频内容| G{视频来源}
    G -->|长视频剪辑| H[YouTube Shorts]
    G -->|产品广告| I[UGC Ads Workflow]
    G -->|综合活动| J[Product Campaign]
    
    style D fill:#9f9,color:#000
    style E fill:#9f9,color:#000
    style F fill:#9f9,color:#000
    style H fill:#9f9,color:#000
    style I fill:#9f9,color:#000
    style J fill:#9f9,color:#000
```

### 典型使用场景

**场景 1：新品发布社交媒体同步**

```bash
# 1. 生成 Instagram 帖子
bash library/social/instagram-post/scripts/generate-instagram.sh \
  --subject "NEW PRODUCT LAUNCH" --view

# 2. 生成小红书封面
bash library/social/rednote-cover/scripts/generate-rednote.sh \
  --content "新品首发" --view

# 3. 生成多平台素材包
bash library/social/social-pack/scripts/generate-social-pack.sh \
  --source-url "https://..." --platforms all
```

**场景 2：KOL 风格 UGC 广告**

```bash
# 人物 + 产品 → UGC 视频广告
bash library/social/ugc-ads-workflow/scripts/generate-ugc.sh \
  --person "./influencer.jpg" \
  --product "./product.jpg" \
  --script "真实使用体验分享" \
  --view
```

**场景 3：长视频内容再利用**

```bash
# YouTube 长视频 → Shorts 剪辑
bash library/social/youtube-shorts/scripts/run-youtube-shorts.sh \
  --video "./webinar.mp4" \
  --platform shorts \
  --max-clips 10
```

---

## 技术规格总结

| 属性 | 规格 |
|:---|:---|
| 支持平台 | Instagram, TikTok, YouTube, 小红书, Facebook, LinkedIn |
| 图片输出格式 | JPG/PNG, 最大 4096×4096 |
| 视频输出格式 | MP4 (H.264), 最大 1080×1920 |
| 音频支持 | MMAudio 音效生成, Suno 音乐生成 |
| 处理方式 | 全云端 API 调用, 无本地模型依赖 |

**与底层工具集成：**

| MuAPI 工具 | 用途 |
|:---|:---|
| `muapi_image_generate` | 社交图片生成 |
| `muapi_video_generate` | 短视频生成 |
| `muapi_enhance_upscale` | 图片质量增强 |
| `muapi_upload_file` | 素材上传 |
| `muapi_clipping` | AI 视频剪辑 |

资料来源：[README.md - MuAPI Tools](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

---

## 扩展与集成建议

### 发布到外部平台

当前版本 (v0.1.0) 的社交媒体技能库专注于内容生成阶段。社区反馈 (Issue #89) 建议在后续版本中增加：

- **Vynly MCP 集成**：自动将生成的媒体发布到 Vynly 平台
- **其他社交平台 API**：Twitter/X、LinkedIn 企业账号直连
- **本地文件系统输出**：支持保存到网络共享 (NFS/CIFS)

### 批量处理工作流

对于企业级用户，建议通过 AI Agent 编排实现批量社交媒体内容生成：

```bash
# 示例：批量处理产品目录
for product in ./products/*; do
  muapi upload file "$product" --output-json
  # 调用各平台技能生成...
done
```

---

## 相关资源

- **核心技能库**：查看 [Core Primitives](../core/) 了解底层 API 调用方式
- **视觉技能库**：查看 [Visual Skills](../library/visual/) 了解图片生成能力
- **视频技能库**：查看 [Motion Skills](../library/motion/) 了解视频制作能力
- **MuAPI CLI 文档**：[muapi-cli npm package](https://www.npmjs.com/package/muapi-cli)

---

<a id='mcp-server'></a>

## MCP服务器集成

### 相关页面

相关主题：[快速入门指南](#quick-start), [系统架构设计](#system-architecture)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)
</details>

# MCP服务器集成

## 概述

MCP（Model Context Protocol）服务器集成是 Generative-Media-Skills 项目为 AI 代理提供的核心功能之一。通过运行 `muapi mcp serve` 命令，可以将 muapi.ai 平台的所有多媒体生成工具以结构化的 MCP 工具形式暴露给支持 MCP 协议的 AI 代理客户端（如 Claude Desktop、Cursor、Windsurf 等）。[资料来源：README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

这种集成方式使 AI 代理无需通过 shell 脚本或命令行调用，即可直接调用多媒体生成工具，实现了**零脚本、零 JSON 解析**的原生代理体验。

## 架构设计

### 系统组件关系

```mermaid
graph TD
    A[AI 代理客户端<br/>Claude Desktop / Cursor / Windsurf] --> B[MCP Server<br/>muapi mcp serve]
    B --> C[muapi-cli 核心引擎]
    C --> D[muapi.ai API]
    D --> E[多媒体生成服务]
    
    F[19个MCP工具] --> B
    G[JSON Schema<br/>输入/输出定义] --> F
```

### 工具分类总览

| 类别 | 工具数量 | 功能描述 |
|:---|:---:|:---|
| 图像生成 | 1 | 文本转图像（14种模型） |
| 图像编辑 | 1 | 图像转图像编辑（11种模型） |
| 视频生成 | 2 | 文本转视频、图像转视频 |
| 音频处理 | 2 | 音乐生成、音效合成 |
| 增强处理 | 4 | AI放大、背景移除、人脸交换、Ghibli风格转换 |
| 编辑功能 | 2 | 唇形同步、AI剪辑 |
| 账户管理 | 4 | API密钥管理、余额查询、充值 |
| 文件操作 | 1 | 本地文件上传至CDN |

## 快速配置

### 1. 启动 MCP 服务器

```bash
muapi mcp serve
```

该命令会在本地启动 MCP 服务器，默认监听标准 MCP 协议端口。[资料来源：README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

### 2. Claude Desktop 配置

编辑 Claude Desktop 配置文件：

**macOS 路径：** `~/Library/Application Support/Claude/claude_desktop_config.json`

**Windows 路径：** `%APPDATA%\Claude\claude_desktop_config.json`

```json
{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": {
        "MUAPI_API_KEY": "your-key-here"
      }
    }
  }
}
```

### 3. API Key 配置

确保在环境变量中配置有效的 muapi.ai API Key：

```bash
# 方式一：通过环境变量
export MUAPI_API_KEY="your-api-key"

# 方式二：通过 muapi-cli 配置
muapi auth configure --api-key "your-api-key"
```

获取 API Key：访问 [https://muapi.ai/dashboard](https://muapi.ai/dashboard)

## MCP 工具清单

### 媒体生成工具

| 工具名称 | 输入参数 | 输出 | 模型支持 |
|:---|:---|:---|:---|
| `muapi_image_generate` | prompt, model, aspect_ratio, resolution | 图像URL数组 | 14种模型（Flux、Midjourney等） |
| `muapi_image_edit` | prompt, image, model | 图像URL | 11种模型 |
| `muapi_video_generate` | prompt, model, duration | 视频URL | 13种模型 |
| `muapi_video_from_image` | image, prompt, model | 视频URL | 16种模型 |

### 音频生成工具

| 工具名称 | 输入参数 | 输出 | 服务 |
|:---|:---|:---|:---|
| `muapi_audio_create` | prompt, style | 音频URL | Suno 音乐生成 |
| `muapi_audio_from_text` | text, type | 音频URL | MMAudio 音效 |

### 增强处理工具

| 工具名称 | 操作类型 | 输入 | 输出 |
|:---|:---|:---|:---|
| `muapi_enhance_upscale` | upscale | 图像URL | 高分辨率图像 |
| `muapi_enhance_bg_remove` | background-remove | 图像URL | 透明背景图像 |
| `muapi_enhance_face_swap` | face-swap | 图像/视频 + 人脸 | 换脸结果 |
| `muapi_enhance_ghibli` | ghibli-style | 图像URL | 吉卜力风格图像 |

### 编辑工具

| 工具名称 | 功能 | 输入 | 输出 |
|:---|:---|:---|:---|
| `muapi_edit_lipsync` | 唇形同步 | 视频 + 音频 | 同步后视频 |
| `muapi_edit_clipping` | AI剪辑 | 长视频 | 精选片段 |

### 账户管理工具

| 工具名称 | 功能描述 |
|:---|:---|
| `muapi_keys_list` | 列出所有API密钥 |
| `muapi_keys_create` | 创建新API密钥 |
| `muapi_keys_delete` | 删除指定API密钥 |
| `muapi_account_balance` | 查询账户余额 |
| `muapi_account_topup` | 充值（Stripe结账） |

### 文件操作工具

| 工具名称 | 功能描述 |
|:---|:---|
| `muapi_upload_file` | 上传本地文件并返回CDN URL |

## 工作流程示例

### 异步视频生成与轮询

```mermaid
sequenceDiagram
    participant Agent as AI代理
    participant MCP as MCP Server
    participant API as muapi.ai API
    participant Storage as 存储服务
    
    Agent->>MCP: muapi_video_generate<br/>"a dog running" --model kling-v3.0-pro
    MCP->>API: 提交异步请求
    API-->>MCP: 返回 request_id
    MCP-->>Agent: { request_id: "xxx", status: "pending" }
    
    Agent->>MCP: muapi_predict_result --id "xxx"
    API-->>MCP: { status: "processing" }
    MCP-->>Agent: { status: "processing" }
    
    Agent->>MCP: muapi_predict_result --id "xxx"
    API-->>MCP: { status: "completed", outputs: [...] }
    MCP-->>Agent: 视频生成完成
```

### 典型代理对话流程

```mermaid
graph LR
    A[用户请求] --> B[Claude Desktop<br/>解析意图]
    B --> C[MCP工具调用<br/>muapi_image_generate]
    C --> D[返回结构化JSON]
    D --> E[代理整合结果]
    E --> F[用户响应]
```

## JSON Schema 规范

每个 MCP 工具都提供完整的 JSON Schema 定义，包含：

- **输入模式（inputSchema）**：定义必需参数和可选参数
- **输出模式（outputSchema）**：定义返回数据结构
- **描述文档**：每个参数的用途和类型说明

```json
{
  "name": "muapi_image_generate",
  "description": "Generate image from text prompt",
  "inputSchema": {
    "type": "object",
    "properties": {
      "prompt": { "type": "string" },
      "model": { "type": "string", "enum": ["flux-dev", "flux-schnell", ...] },
      "aspect_ratio": { "type": "string" },
      "resolution": { "type": "string" }
    },
    "required": ["prompt"]
  }
}
```

## 兼容客户端

| 客户端 | 支持状态 | 配置方式 |
|:---|:---:|:---|
| Claude Desktop | ✅ 完全支持 | claude_desktop_config.json |
| Cursor | ✅ 完全支持 | MCP设置面板 |
| Windsurf | ✅ 完全支持 | MCP配置 |
| Gemini CLI | ✅ 兼容 | 环境变量 + 直接调用 |
| 自定义 MCP 客户端 | ✅ 兼容 | 标准 MCP 协议 |

## 常见问题

### Q1: MCP 服务器启动失败

**症状：** 执行 `muapi mcp serve` 无响应或报错

**解决方案：**
1. 确认已安装 muapi-cli：`npm install -g muapi-cli`
2. 检查 API Key 配置是否正确
3. 验证网络连接：确保能访问 muapi.ai

### Q2: 工具调用超时

**症状：** 调用生成工具后长时间无响应

**解决方案：**
使用异步模式 + 轮询机制：

```bash
# 提交任务（不等待）
muapi video generate "prompt" --model kling-v3.0-pro --no-wait

# 获取 request_id 后轮询结果
muapi predict wait "request-id" --download ./outputs
```

### Q3: API Key 无效

**症状：** 返回认证错误

**解决方案：**
```bash
muapi auth configure --api-key "your-new-key"
```

## 与传统 CLI 的对比

| 特性 | MCP Server 模式 | CLI 脚本模式 |
|:---|:---:|:---:|
| 调用方式 | 结构化工具调用 | shell 命令执行 |
| 结果处理 | 自动 JSON 解析 | 需要 `--output-json --jq` |
| 代理友好度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 实时流输出 | 支持 | 支持 |
| 错误处理 | 结构化错误 | 文本解析 |

## 相关资源

- muapi-cli 官方文档：[https://www.npmjs.com/package/muapi-cli](https://www.npmjs.com/package/muapi-cli)
- muapi.ai 平台：[https://muapi.ai/dashboard](https://muapi.ai/dashboard)
- MCP 协议规范：[Model Context Protocol](https://modelcontextprotocol.io/)

## 扩展阅读

- [核心脚本模块](../core/index.md)
- [专家技能库](../library/index.md)
- [工具链概览](../tools/index.md)
- [快速入门指南](../getting-started/index.md)

---

<a id='troubleshooting'></a>

## 常见问题与故障排除

### 相关页面

相关主题：[快速入门指南](#quick-start), [核心原语层详解](#core-primitives)

<details>
<summary>相关源码文件</summary>

以下源码文件用于生成本页说明：

- [README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)
- [core/platform/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/SKILL.md)
- [core/platform/setup.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/setup.sh)
- [core/platform/check-result.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/check-result.sh)
- [core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)
</details>

# 常见问题与故障排除

本文档汇集了 Generative-Media-Skills 项目在使用过程中常见的问题及其解决方案，涵盖环境配置、API 集成、媒体生成和运行时问题等多个方面。

## 环境配置问题

### muapi-cli 安装失败

**问题描述**：使用 npm 或 pip 安装 muapi-cli 时出现错误。

**解决方案**：

```bash
# 通过 npm 安装（推荐，无需 Python 环境）
npm install -g muapi-cli

# 或通过 pip 安装
pip install muapi-cli

# 或直接运行而不安装
npx muapi-cli --help
```

**参考资料**：[README.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

### API Key 配置异常

**问题描述**：配置 API Key 后无法正常调用 API，提示认证失败。

**解决方案**：确保 API Key 正确配置并验证其有效性。

```bash
# 交互式配置
muapi auth configure

# 直接指定 API Key
muapi auth configure --api-key "YOUR_MUAPI_KEY"

# 测试 API Key 是否有效
bash core/platform/setup.sh --test

# 查看当前配置
bash core/platform/setup.sh --show-config
```

**API Key 验证流程**：

```mermaid
graph TD
    A[开始配置] --> B[检查 MUAPI_KEY 环境变量]
    B --> C{Key 是否存在?}
    C -->|是| D[测试 API 连接]
    C -->|否| E[提示配置 Key]
    D --> F{连接成功?}
    F -->|是| G[配置完成]
    F -->|否| H[检查 Key 有效性]
    H --> I[重新获取 Key]
```

**参考资料**：[core/platform/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/SKILL.md)

### Ubuntu 服务器依赖缺失

**问题描述**：在 Ubuntu 服务器上安装依赖时缺少必要的开发工具。

**解决方案**：根据社区反馈，安装以下依赖：

```bash
apt install python3-dev make g++
pip install wheel
pip install -r requirements.txt
```

同时确保安装正确版本的 NodeJS：

```bash
curl -sL https://deb.nodesource.com/setup_18.x | sudo bash -
```

**参考资料**：[GitHub Issue #43](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/43)

## 媒体生成问题

### 图像生成返回乱码或异常响应

**问题描述**：模型训练后生成的响应出现乱码，如 `"H9E,:?&+8&1<*<2E(#!=)G68/?5C/BGC,..."`。

**可能原因**：

1. 模型加载不完整或损坏
2. 编码处理错误
3. 模型与输入数据不兼容

**解决方案**：

1. 重新下载并验证模型文件完整性
2. 确保上传的文档使用 UTF-8 编码
3. 检查训练数据集的质量和格式

**参考资料**：[GitHub Issue #39](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/39)

### 图像编辑操作失败

**问题描述**：使用 `edit-image.sh` 进行图像编辑时请求失败。

**基本用法**：

```bash
bash core/edit/edit-image.sh \
    --image-url "https://example.com/image.jpg" \
    --prompt "添加太阳镜" \
    --model flux-kontext-pro
```

**支持的操作类型**：

| 操作 | 命令参数 | 说明 |
|:---|:---|:---|
| 提示词编辑 | `--op edit` | 基于文本提示修改图像 |
| 超分辨率 | `--op upscale` | 提升图像分辨率 |
| 背景移除 | `--op background-remove` | 移除图像背景 |
| 人脸替换 | `--op face-swap` | 换脸操作 |
| 吉卜力风格 | `--op ghibli` | 转换为吉卜力动画风格 |

**参考资料**：[core/edit/SKILL.md](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/edit/SKILL.md)

### 异步任务结果查询

**问题描述**：提交异步生成任务后无法获取结果。

**解决方案**：使用 `check-result.sh` 脚本查询任务状态。

```bash
# 持续轮询直到完成
bash core/platform/check-result.sh --id "your-request-id"

# 单次查询（不轮询）
bash core/platform/check-result.sh --id "your-request-id" --once
```

**异步任务流程**：

```mermaid
graph LR
    A[提交任务] --> B[获取 request_id]
    B --> C[轮询状态]
    C --> D{完成?}
    D -->|否| C
    D -->|是| E[获取结果]
    E --> F[下载媒体]
```

**参考资料**：[core/platform/check-result.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/check-result.sh)

## 性能与加速问题

### GPU 加速支持

**问题描述**：用户询问是否支持 GPU 加速以加快处理速度。

**当前状态**：本项目主要依赖 muapi.ai 云端 API 服务，GPU 加速由服务端处理。客户端本地运行不受 GPU 限制影响。

**提升响应速度的建议**：

1. 使用更快的生成模型（如 `--model flux-schnell`）
2. 减少输入内容的复杂度
3. 使用异步模式处理批量任务

```bash
# 异步提交（不等待完成）
muapi video generate "a dog running" \
    --model kling-master \
    --no-wait \
    --output-json

# 后续再查询结果
muapi predict wait "$REQUEST_ID" --download ./outputs
```

**参考资料**：[GitHub Issue #7](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/7)、[GitHub Issue #16](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/16)

### CUDA 支持

**问题描述**：用户询问是否支持 CUDA 进行本地计算加速。

**当前状态**：本项目的设计架构使用云端 API，CUDA 相关计算在 muapi.ai 服务端处理。客户端无需配置本地 CUDA 环境。

**参考资料**：[GitHub Issue #70](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/70)

## 运行时错误

### 500 内部服务器错误

**问题描述**：上传文档后提问时收到 500 Internal Server Error。

**错误信息**：

```
Error getting data.
<!doctype html>
<html lang=en>
<title>500 Internal Server Error</title>
<h1>Internal Server Error</h1>
<p>The server encountered an internal error...</p>
```

**可能原因**：

1. 服务器过载
2. 上传的文档处理异常
3. 后端服务暂时不可用

**建议操作**：

1. 稍后重试
2. 尝试重新上传文档
3. 检查文档格式是否受支持（PDF、DOCX、PPT 等）
4. 减小文档大小后重试

**参考资料**：[GitHub Issue #27](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/27)

### npm run dev 挂起

**问题描述**：在 PowerShell 中运行 `npm run dev` 时卡在某个点不继续。

**错误信息**：

```
Import trace for requested module:
./node_modules/next/dist/lib/is-api-route.js
./node_modules/next/dist/shared/lib/router/router.js
./node_modules/next/dist/lib/is-error.js
```

**解决方案**：

1. 清理 node_modules 并重新安装：

```bash
rm -rf node_modules package-lock.json
npm install
```

2. 确保使用正确版本的 NodeJS：

```bash
node --version  # 应为 v18.x 或更高
```

3. 检查是否有端口冲突：

```bash
# Windows
netstat -ano | findstr :3000

# Linux/Mac
lsof -i :3000
```

**参考资料**：[GitHub Issue #34](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/34)、[GitHub Issue #45](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/45)

### 模型下载错误

**问题描述**：下载模型时进度达到 100% 后出现错误。

**错误信息**：

```
Download Progress: 100.0%
Found model file.
gptj_model_load: loading model from 'models/ggml-gpt4all-j-v1.3-groovy.bin'
```

**解决方案**：

1. 检查模型文件是否完整下载
2. 验证模型文件的 SHA256 校验和
3. 删除损坏的文件后重新下载

**注意**：如果使用的是 GPT4All 模型，该库不支持 GPU 加速。如需 GPU 支持，建议使用支持 CUDA 的模型如 Llama。

**参考资料**：[GitHub Issue #38](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/38)、[GitHub Issue #44](https://github.com/SamurAIGPT/Generative-Media-Skills/issues/44)

## CLI 使用问题

### 命令执行无响应

**问题描述**：执行 muapi 命令后无输出或无响应。

**排查步骤**：

```mermaid
graph TD
    A[命令无响应] --> B[检查 API Key]
    B --> C{Key 有效?}
    C -->|否| D[重新配置 Key]
    C -->|是| E[检查网络连接]
    E --> F{网络正常?}
    F -->|否| G[检查代理设置]
    F -->|是| H[查看详细日志]
    H --> I[使用 --json 输出]
```

**常用诊断命令**：

```bash
# 显示完整配置
muapi auth configure --show-config

# 测试 API 连接
muapi auth configure --test

# 列出可用模型
muapi models list

# 查看特定类别模型
muapi models list --category video --output-json
```

**参考资料**：[core/platform/setup.sh](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/core/platform/setup.sh)

### 输出格式问题

**问题描述**：需要以特定格式提取命令输出用于脚本处理。

**解决方案**：使用 `--output-json` 和 `--jq` 参数进行格式化输出。

```bash
# 获取纯 URL 输出
muapi image generate "a sunset" \
    --model flux-schnell \
    --output-json \
    --jq '.outputs[0]'

# 提取 request_id
REQUEST_ID=$(muapi video generate "a dog running" \
    --model kling-master \
    --no-wait \
    --output-json \
    --jq '.request_id' | tr -d '"')
```

**管道组合示例**：

```bash
# 上传 → 编辑 → 下载
URL=$(muapi upload file ./photo.jpg \
    --output-json \
    --jq '.url' | tr -d '"')

muapi image edit "make it look like a painting" \
    --image "$URL" \
    --model flux-kontext-pro \
    --download ./outputs
```

## MCP 服务器问题

### MCP Server 连接失败

**问题描述**：无法通过 MCP 协议连接到 muapi 服务。

**解决方案**：

1. 启动 MCP 服务器：

```bash
muapi mcp serve
```

2. 配置 Claude Desktop（`~/Library/Application Support/Claude/claude_desktop_config.json`）：

```json
{
  "mcpServers": {
    "muapi": {
      "command": "muapi",
      "args": ["mcp", "serve"],
      "env": { "MUAPI_API_KEY": "your-key-here" }
    }
  }
}
```

3. 验证 MCP 工具列表是否包含所有 19 个工具：

| 工具类别 | 工具数量 | 说明 |
|:---|:---:|:---|
| 图像生成 | 1 | Text-to-image |
| 图像编辑 | 1 | Image-to-image |
| 视频生成 | 2 | 文本/图像转视频 |
| 音频创建 | 2 | 音乐/音效 |
| 图像增强 | 4 | 超分/背景移除/人脸替换/风格化 |
| 视频编辑 | 2 | 唇同步/AI剪辑 |
| 文件操作 | 1 | 文件上传 |
| 密钥管理 | 3 | 列出/创建/删除 |
| 账户管理 | 2 | 余额/充值 |

**参考资料**：[README.md - MCP Server 部分](https://github.com/SamurAIGPT/Generative-Media-Skills/blob/main/README.md)

## 故障排除工具

### 常用诊断脚本

| 脚本路径 | 功能 | 用法 |
|:---|:---|:---|
| `core/platform/setup.sh` | API Key 配置与验证 | `bash setup.sh --test` |
| `core/platform/check-result.sh` | 异步任务状态查询 | `bash check-result.sh --id "xxx"` |
| `core/edit/edit-image.sh` | 图像编辑操作 | `bash edit-image.sh --image-url "..." --prompt "..."` |
| `core/edit/enhance-image.sh` | 图像增强操作 | `bash enhance-image.sh --op upscale --image-url "..."` |

### 环境变量检查

确保以下环境变量正确设置：

```bash
# 检查 API Key
echo $MUAPI_API_KEY

# 设置 API Key（如果缺失）
export MUAPI_API_KEY="your-api-key-here"
```

### 依赖验证

```bash
# 验证 curl
curl --version

# 验证 jq
jq --version

# 验证 Python3
python3 --version

# 验证 muapi-cli
muapi --version
```

## 获取帮助

如果以上方案均无法解决您的问题：

1. 搜索 [GitHub Issues](https://github.com/SamurAIGPT/Generative-Media-Skills/issues) 查看是否已有类似问题
2. 创建新 Issue 并提供以下信息：
   - 操作系统和版本
   - muapi-cli 版本（`muapi --version`）
   - 完整的错误信息
   - 复现步骤
3. 访问 [muapi.ai](https://muapi.ai/dashboard) 检查账户状态和 API 余额

---

<!-- evidence_pipeline_checked: true -->
<!-- evidence_injected: true -->

---

## Doramagic 踩坑日志

项目：SamurAIGPT/Generative-Media-Skills

摘要：发现 17 个潜在踩坑项，其中 1 个为 high/blocking；最高优先级：安全/权限坑 - 来源证据：Optional: add a 'publish to Vynly' skill after media generation?。

## 1. 安全/权限坑 · 来源证据：Optional: add a 'publish to Vynly' skill after media generation?

- 严重度：high
- 证据强度：source_linked
- 发现：GitHub 社区证据显示该项目存在一个安全/权限相关的待验证问题：Optional: add a 'publish to Vynly' skill after media generation?
- 对用户的影响：可能影响授权、密钥配置或安全边界。
- 建议检查：来源问题仍为 open，Pack Agent 需要复核是否仍影响当前版本。
- 防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
- 证据：community_evidence:github | cevd_e801ed325bcf4fbbb8e0d9cac02b5f7f | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/89 | 来源类型 github_issue 暴露的待验证使用条件。

## 2. 身份坑 · 仓库名和安装名不一致

- 严重度：medium
- 证据强度：runtime_trace
- 发现：仓库名 `generative-media-skills` 与安装入口 `skills` 不完全一致。
- 对用户的影响：用户照着仓库名搜索包或照着包名找仓库时容易走错入口。
- 建议检查：在 npm/PyPI/GitHub 上确认包名映射和官方 README 说明。
- 复现命令：`npx skills`
- 防护动作：页面必须同时展示 repo 名和真实安装入口，避免用户搜索错包。
- 证据：identity.distribution | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | repo=generative-media-skills; install=skills

## 3. 安装坑 · 来源证据：Error downloading model

- 严重度：medium
- 证据强度：source_linked
- 发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：Error downloading model
- 对用户的影响：可能增加新用户试用和生产接入成本。
- 建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- 防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
- 证据：community_evidence:github | cevd_ec1cdc92d8c84b2bbce43cf37a668443 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/44 | 来源讨论提到 node 相关条件，需在安装/试用前复核。

## 4. 安装坑 · 来源证据：Server install pre-requisites on Ubuntu

- 严重度：medium
- 证据强度：source_linked
- 发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：Server install pre-requisites on Ubuntu
- 对用户的影响：可能增加新用户试用和生产接入成本。
- 建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- 防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
- 证据：community_evidence:github | cevd_c7a0e07d61b547aba3280ac82ac305e2 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/43 | 来源讨论提到 python 相关条件，需在安装/试用前复核。

## 5. 安装坑 · 来源证据：install vicuna13b?

- 严重度：medium
- 证据强度：source_linked
- 发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：install vicuna13b?
- 对用户的影响：可能增加新用户试用和生产接入成本。
- 建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- 防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
- 证据：community_evidence:github | cevd_c6ace8e72f95491f945200849e083d96 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/46 | 来源类型 github_issue 暴露的待验证使用条件。

## 6. 安装坑 · 来源证据：npm run dev error

- 严重度：medium
- 证据强度：source_linked
- 发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：npm run dev error
- 对用户的影响：可能增加新用户试用和生产接入成本。
- 建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- 防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
- 证据：community_evidence:github | cevd_de5cf59443c74838a8d10d1ecbec9457 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/45 | 来源讨论提到 python 相关条件，需在安装/试用前复核。

## 7. 安装坑 · 来源证据：npm run dev hang in certain point

- 严重度：medium
- 证据强度：source_linked
- 发现：GitHub 社区证据显示该项目存在一个安装相关的待验证问题：npm run dev hang in certain point
- 对用户的影响：可能增加新用户试用和生产接入成本。
- 建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- 防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
- 证据：community_evidence:github | cevd_8082f7c5e7be496c89fac789d932e74c | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/34 | 来源讨论提到 node 相关条件，需在安装/试用前复核。

## 8. 配置坑 · 可能修改宿主 AI 配置

- 严重度：medium
- 证据强度：source_linked
- 发现：项目面向 Claude/Cursor/Codex/Gemini/OpenCode 等宿主，或安装命令涉及用户配置目录。
- 对用户的影响：安装可能改变本机 AI 工具行为，用户需要知道写入位置和回滚方法。
- 建议检查：列出会写入的配置文件、目录和卸载/回滚步骤。
- 防护动作：涉及宿主配置目录时必须给回滚路径，不能只给安装命令。
- 证据：capability.host_targets | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | host_targets=claude, claude_code, cursor

## 9. 配置坑 · 来源证据：Model download error on 100% progress

- 严重度：medium
- 证据强度：source_linked
- 发现：GitHub 社区证据显示该项目存在一个配置相关的待验证问题：Model download error on 100% progress
- 对用户的影响：可能增加新用户试用和生产接入成本。
- 建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- 防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
- 证据：community_evidence:github | cevd_14498a89412f40ceb03d61889ea96de2 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/38 | 来源讨论提到 python 相关条件，需在安装/试用前复核。

## 10. 能力坑 · 能力判断依赖假设

- 严重度：medium
- 证据强度：source_linked
- 发现：README/documentation is current enough for a first validation pass.
- 对用户的影响：假设不成立时，用户拿不到承诺的能力。
- 建议检查：将假设转成下游验证清单。
- 防护动作：假设必须转成验证项；没有验证结果前不能写成事实。
- 证据：capability.assumptions | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | README/documentation is current enough for a first validation pass.

## 11. 运行坑 · 来源证据：500 Internal Server Error

- 严重度：medium
- 证据强度：source_linked
- 发现：GitHub 社区证据显示该项目存在一个运行相关的待验证问题：500 Internal Server Error
- 对用户的影响：可能增加新用户试用和生产接入成本。
- 建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- 防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
- 证据：community_evidence:github | cevd_36c10c9b7ece4b10af4873b655817add | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/27 | 来源讨论提到 python 相关条件，需在安装/试用前复核。

## 12. 运行坑 · 来源证据：Error Fetching Answer. Please try again.

- 严重度：medium
- 证据强度：source_linked
- 发现：GitHub 社区证据显示该项目存在一个运行相关的待验证问题：Error Fetching Answer. Please try again.
- 对用户的影响：可能增加新用户试用和生产接入成本。
- 建议检查：来源显示可能已有修复、规避或版本变化，说明书中必须标注适用版本。
- 防护动作：不得脱离来源链接放大为确定性结论；需要标注适用版本和复核状态。
- 证据：community_evidence:github | cevd_a8e460757f114a9d8e4357758c834524 | https://github.com/SamurAIGPT/Generative-Media-Skills/issues/54 | 来源类型 github_issue 暴露的待验证使用条件。

## 13. 维护坑 · 维护活跃度未知

- 严重度：medium
- 证据强度：source_linked
- 发现：未记录 last_activity_observed。
- 对用户的影响：新项目、停更项目和活跃项目会被混在一起，推荐信任度下降。
- 建议检查：补 GitHub 最近 commit、release、issue/PR 响应信号。
- 防护动作：维护活跃度未知时，推荐强度不能标为高信任。
- 证据：evidence.maintainer_signals | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | last_activity_observed missing

## 14. 安全/权限坑 · 下游验证发现风险项

- 严重度：medium
- 证据强度：source_linked
- 发现：no_demo
- 对用户的影响：下游已经要求复核，不能在页面中弱化。
- 建议检查：进入安全/权限治理复核队列。
- 防护动作：下游风险存在时必须保持 review/recommendation 降级。
- 证据：downstream_validation.risk_items | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | no_demo; severity=medium

## 15. 安全/权限坑 · 存在评分风险

- 严重度：medium
- 证据强度：source_linked
- 发现：no_demo
- 对用户的影响：风险会影响是否适合普通用户安装。
- 建议检查：把风险写入边界卡，并确认是否需要人工复核。
- 防护动作：评分风险必须进入边界卡，不能只作为内部分数。
- 证据：risks.scoring_risks | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | no_demo; severity=medium

## 16. 维护坑 · issue/PR 响应质量未知

- 严重度：low
- 证据强度：source_linked
- 发现：issue_or_pr_quality=unknown。
- 对用户的影响：用户无法判断遇到问题后是否有人维护。
- 建议检查：抽样最近 issue/PR，判断是否长期无人处理。
- 防护动作：issue/PR 响应未知时，必须提示维护风险。
- 证据：evidence.maintainer_signals | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | issue_or_pr_quality=unknown

## 17. 维护坑 · 发布节奏不明确

- 严重度：low
- 证据强度：source_linked
- 发现：release_recency=unknown。
- 对用户的影响：安装命令和文档可能落后于代码，用户踩坑概率升高。
- 建议检查：确认最近 release/tag 和 README 安装命令是否一致。
- 防护动作：发布节奏未知或过期时，安装说明必须标注可能漂移。
- 证据：evidence.maintainer_signals | github_repo:645381450 | https://github.com/SamurAIGPT/Generative-Media-Skills | release_recency=unknown

<!-- canonical_name: SamurAIGPT/Generative-Media-Skills; human_manual_source: deepwiki_human_wiki -->
