通过 MCP (Model Context Protocol) 为 DeepSeek 等纯文本模型添加 看图 和 画图 能力。
- 看图 (Vision):分析图片内容、提取文字 (OCR)、比较图片
- 画图 (Image Generation):根据文字描述生成图片、根据参考图生成新场景
┌─────────────┐ ┌─────────────┐ ┌─────────────────┐
│ Kelivo │────▶│ DeepSeek │────▶│ MCP Server │
│ (Client) │ │ V3 API │ │ (Vision + Gen) │
└─────────────┘ └─────────────┘ └────────┬────────┘
│
┌──────────────────┼──────────────────┐
▼ ▼
┌─────────────────┐ ┌─────────────────┐
│ Vision Model │ │ Image Model │
│ (Qwen-VL-Max) │ │ (Gemini 3 Pro) │
└─────────────────┘ └─────────────────┘
| 提供商 | 模型 | 说明 |
|---|---|---|
| 通义千问 | qwen-vl-max | 阿里云通义千问视觉模型 (推荐) |
| OpenAI | gpt-4o | OpenAI 视觉模型 |
| Ollama | llava | 本地运行的开源视觉模型 |
| 提供商 | 模型 | 说明 |
|---|---|---|
| Gemini | gemini-3-pro-image-preview | Google Gemini 图片生成 (推荐) |
-
Fork 仓库到你的 GitHub
-
在 Railway 创建项目
- 登录 Railway
- 点击 "New Project" → "Deploy from GitHub repo"
- 选择你的仓库
-
配置环境变量 在 Railway 的 Variables 中添加:
# Vision (看图) - 使用通义千问 VISION_PROVIDER=qwen QWEN_API_KEY=your_dashscope_api_key # Image Generation (画图) - 使用 Gemini GEMINI_API_KEY=your_google_api_key -
部署完成后获取 URL Railway 会给你一个类似
https://your-app.up.railway.app的 URL -
在 Kelivo 中配置 MCP
{ "mcpServers": { "vision": { "transport": "sse", "url": "https://your-app.up.railway.app/sse" } } }
# 安装依赖
pip install -e .
# 配置环境变量
cp .env.example .env
# 编辑 .env 填入 API Key
# 运行
python -m hitomi.server# ===== Vision 配置 =====
VISION_PROVIDER=qwen # 可选: qwen, openai, ollama
QWEN_API_KEY=your_key # 通义千问 API Key
# ===== Image Generation 配置 =====
GEMINI_API_KEY=your_key # Google Gemini API Key
# ===== 服务器配置 =====
HOST=0.0.0.0
PORT=8000获取图片上传页面的网址,用户可以上传图片获取链接。
分析图片内容,返回详细描述。
参数:
image(必需): 图片 URL 或 base64 数据question(可选): 关于图片的具体问题detail(可选): 分析精度 -low/high/auto
从图片中提取文字内容。
参数:
image(必需): 图片 URL 或 base64 数据language(可选): 预期语言 -zh/en/auto
比较两张图片的异同。
参数:
image1(必需): 第一张图片image2(必需): 第二张图片focus(可选): 比较重点 -differences/similarities/all
根据文字描述生成图片。
参数:
prompt(必需): 图片描述aspect_ratio(可选): 宽高比 -1:1/16:9/9:16/4:3/3:4
分析参考图片,然后根据描述生成新场景。适合"用这个人设画 xxx 场景"这类需求。
参数:
reference_image(必需): 参考图片 URL 或 base64scene_prompt(必需): 新场景描述style_hints(可选): 风格提示focus_on(可选): 要关注的特征
用户: 帮我看看这张图片 [发送图片链接]
AI: [调用 analyze_image] 这张图片显示的是...
用户: 画一只在月球上喝咖啡的猫
AI: [调用 generate_image] 🎨 图片已生成![显示图片]
用户: 用这张人设图画一个在海边玩耍的场景 [发送人设图链接]
AI: [调用 transform_image] 🎨 新场景已生成![显示图片]
- 通义千问 (Qwen): 阿里云 DashScope
- Gemini: Google AI Studio
MIT
Built with 🌀 Claude Code