Hitomi

通过 MCP (Model Context Protocol) 为 DeepSeek 等纯文本模型添加看图和画图能力。

功能

看图 (Vision)：分析图片内容、提取文字 (OCR)、比较图片
画图 (Image Generation)：根据文字描述生成图片、根据参考图生成新场景

工作原理

┌─────────────┐     ┌─────────────┐     ┌─────────────────┐
│   Kelivo    │────▶│  DeepSeek   │────▶│  MCP Server     │
│  (Client)   │     │   V3 API    │     │ (Vision + Gen)  │
└─────────────┘     └─────────────┘     └────────┬────────┘
                                                 │
                              ┌──────────────────┼──────────────────┐
                              ▼                                     ▼
                     ┌─────────────────┐                   ┌─────────────────┐
                     │  Vision Model   │                   │  Image Model    │
                     │  (Qwen-VL-Max)  │                   │  (Gemini 3 Pro) │
                     └─────────────────┘                   └─────────────────┘

支持的后端

Vision (看图)

提供商	模型	说明
通义千问	qwen-vl-max	阿里云通义千问视觉模型 (推荐)
OpenAI	gpt-4o	OpenAI 视觉模型
Ollama	llava	本地运行的开源视觉模型

Image Generation (画图)

提供商	模型	说明
Gemini	gemini-3-pro-image-preview	Google Gemini 图片生成 (推荐)

部署

Railway 云端部署（推荐）

Fork 仓库到你的 GitHub
在 Railway 创建项目
- 登录 Railway
- 点击 "New Project" → "Deploy from GitHub repo"
- 选择你的仓库

配置环境变量 在 Railway 的 Variables 中添加：

# Vision (看图) - 使用通义千问
VISION_PROVIDER=qwen
QWEN_API_KEY=your_dashscope_api_key

# Image Generation (画图) - 使用 Gemini
GEMINI_API_KEY=your_google_api_key

部署完成后获取 URL Railway 会给你一个类似 https://your-app.up.railway.app 的 URL

在 Kelivo 中配置 MCP

{
  "mcpServers": {
    "vision": {
      "transport": "sse",
      "url": "https://your-app.up.railway.app/sse"
    }
  }
}

本地运行

# 安装依赖
pip install -e .

# 配置环境变量
cp .env.example .env
# 编辑 .env 填入 API Key

# 运行
python -m hitomi.server

环境变量

# ===== Vision 配置 =====
VISION_PROVIDER=qwen              # 可选: qwen, openai, ollama
QWEN_API_KEY=your_key             # 通义千问 API Key

# ===== Image Generation 配置 =====
GEMINI_API_KEY=your_key           # Google Gemini API Key

# ===== 服务器配置 =====
HOST=0.0.0.0
PORT=8000

提供的工具

1. `get_upload_url` - 获取上传页面

获取图片上传页面的网址，用户可以上传图片获取链接。

2. `analyze_image` - 图片分析

分析图片内容，返回详细描述。

参数：

image (必需): 图片 URL 或 base64 数据
question (可选): 关于图片的具体问题
detail (可选): 分析精度 - low/high/auto

3. `extract_text` - 文字提取 (OCR)

从图片中提取文字内容。

参数：

image (必需): 图片 URL 或 base64 数据
language (可选): 预期语言 - zh/en/auto

4. `compare_images` - 图片对比

比较两张图片的异同。

参数：

image1 (必需): 第一张图片
image2 (必需): 第二张图片
focus (可选): 比较重点 - differences/similarities/all

5. `generate_image` - 生成图片

根据文字描述生成图片。

参数：

prompt (必需): 图片描述
aspect_ratio (可选): 宽高比 - 1:1/16:9/9:16/4:3/3:4

6. `transform_image` - 场景转换

分析参考图片，然后根据描述生成新场景。适合"用这个人设画 xxx 场景"这类需求。

参数：

reference_image (必需): 参考图片 URL 或 base64
scene_prompt (必需): 新场景描述
style_hints (可选): 风格提示
focus_on (可选): 要关注的特征

示例对话

用户: 帮我看看这张图片 [发送图片链接]
AI: [调用 analyze_image] 这张图片显示的是...

用户: 画一只在月球上喝咖啡的猫
AI: [调用 generate_image] 🎨 图片已生成！[显示图片]

用户: 用这张人设图画一个在海边玩耍的场景 [发送人设图链接]
AI: [调用 transform_image] 🎨 新场景已生成！[显示图片]

API Key 获取

通义千问 (Qwen): 阿里云 DashScope
Gemini: Google AI Studio

License

MIT

_{Built with 🌀 Claude Code}

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
src/hitomi		src/hitomi
README.md		README.md
pyproject.toml		pyproject.toml
railway.toml		railway.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Hitomi

功能

工作原理

支持的后端

Vision (看图)

Image Generation (画图)

部署

Railway 云端部署（推荐）

本地运行

环境变量

提供的工具

1. `get_upload_url` - 获取上传页面

2. `analyze_image` - 图片分析

3. `extract_text` - 文字提取 (OCR)

4. `compare_images` - 图片对比

5. `generate_image` - 生成图片

6. `transform_image` - 场景转换

示例对话

API Key 获取

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Hitomi

功能

工作原理

支持的后端

Vision (看图)

Image Generation (画图)

部署

Railway 云端部署（推荐）

本地运行

环境变量

提供的工具

1. get_upload_url - 获取上传页面

2. analyze_image - 图片分析

3. extract_text - 文字提取 (OCR)

4. compare_images - 图片对比

5. generate_image - 生成图片

6. transform_image - 场景转换

示例对话

API Key 获取

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

1. `get_upload_url` - 获取上传页面

2. `analyze_image` - 图片分析

3. `extract_text` - 文字提取 (OCR)

4. `compare_images` - 图片对比

5. `generate_image` - 生成图片

6. `transform_image` - 场景转换

Packages