如何用 Gemini 3.5 Flash 把素描变成真实照片

Sketch Toon 2 months ago

8 分钟阅读

最后更新：2026 年 5 月 20 日

今天早上 Google 发布了 Gemini 3.5 Flash，整个白天它都待在 Hacker News 第一的位置，532 个 upvote、414 条评论——讨论几乎全在一件事上：图像生成的速度，已经快到和回一条聊天差不多。同日发布的 Gemini Omni 多模态世界模型把这条线又往前推了一步。对插画师和设计师来说，问题很直接：现在能不能把铅笔素描丢进去，几秒钟内拿到一张真实照片？

答案是可以——单张约 1.5 秒。这篇教程把完整工作流走一遍：Gemini 3.5 Flash 用来快速迭代，Sketch To 的 Professional 模型用来出终稿，并告诉你在哪种场景下用哪个更划算。读完你会有一条可用的双工具流水线，也会清楚特定任务该走哪条路径。

为什么 Gemini 3.5 Flash 改变了素描转图

Gemini 3.5 Flash 是 Google 第一个让图像生成跑到对话速度的模型——根据今天发布会公布的基准，原生 1024×1024 单张约 1.5 秒。模型在一次多模态调用里同时接收素描图片和文字提示，返回渲染后的照片。从素描转图的角度，有三件事真正有用：

一次调用搞定多模态输入：素描 + 文字描述一起送进去，模型同时读两者。不用单独跑 ControlNet，也不用预处理线稿。
速度极快、成本极低：2026 年 5 月发布价约 $0.003/张，同等吞吐下比 Imagen 3 或 GPT Image 便宜约 10 倍。Google AI Studio 免费额度每天 1500 次请求。
聊天式迭代：追问 prompt 时模型在上一张的基础上改，不会从头生成。「光线再暖一点」「背景换成厨房」每次再花 ~2 秒。

代价是保真度。Gemini 3.5 Flash 是通才。终稿要求每一条素描线都落到照片里时——比如时装稿、产品概念、建筑图——一个专门为素描输入训练的模型，线条还原得更准。Sketch To 的 Professional 模型正是补这一块的，下半篇会展开。

Gemini 3.5 Flash vs Sketch To 快速对比

两个工具都能把素描变照片。怎么选，看你优化的是迭代速度还是输出保真度。

维度	Gemini 3.5 Flash	Sketch To（Professional 模型）
速度	~1.5 秒/张	~10 秒/张
成本	~$0.003/张（每天 1500 次免费）	$8/月，约 480 张
接入方式	Google AI Studio + Google 账号	网页拖拽上传
素描保真	粗略素描可用，细线易丢	线条还原准，专为细节训练
风格控制	仅文字 prompt	风格预设 + prompt
人像写实	不错但偏通用	商业级照片质感
适合	概念迭代、聊天式优化	终稿渲染、客户交付
不适合	高细节产品图、时装稿	没有素描参考的纯文生图

我们用 30 多张素描跑了一轮：Gemini 在速度和探索上赢；Sketch To Professional 在所有「客户需要把成品和原稿对照检查」的任务上赢。

分步教程：把你的素描变成照片

五步走完。第 2 步是 Gemini 3.5 Flash 的工作流，第 3-5 步是 Sketch To Professional 的生产路径。按任务选其一，或者串成双工具流水线。

Step 1：准备一张干净的素描

光线均匀的情况下扫描或拍照。裁剪到主体居中，铅笔线条要够深——HB 太淡有时会被两个模型当成涂污，2B 或 4B 笔芯识别更准。保存为 JPG 或 PNG，分辨率建议 1024×1024 起。

预期结果：光照均匀、画面无手影、背景干净的图片。

body_image_1

Step 2：用 Gemini 3.5 Flash 跑草稿

打开 aistudio.google.com，用 Google 账号登录。右上角的模型下拉里选 Gemini 3.5 Flash（确认是 2026 年 5 月版本）。打开 Run settings 面板，把 "Image generation" 打开。

点 "+" 上传素描，然后在下方写 prompt。我们测下来效果最好的模板：

This is a pencil sketch of [subject].
Render it as a photo-realistic image with [lighting],
in a [setting], shot on a [camera/lens].
Keep the composition and proportions from the sketch.

举例："This is a pencil sketch of a vintage motorcycle. Render it as a photo-realistic image with golden-hour side lighting, parked on a desert road, shot on a 50mm lens. Keep the composition and proportions from the sketch."

别收第一版。在同一个会话里继续追问——"make the lighting warmer"、"swap the background to a foggy mountain road"、"add chrome detail to the exhaust"——Gemini 会在上一张的基础上改，不会从头生成。我们的经验是 3-4 轮迭代基本能拿到可用稿。

预期结果：1024×1024 真实照片，每次生成 1-2 秒，构图和比例大致保留原稿。

Step 3：终稿换 Sketch To 跑

概念跑通、需要每一条素描线都落到终稿上时，把同一张素描传到 Sketch To。它在我们的流水线里固定占第二槽位，原因只有一个：模型专门为素描输入训练，线条还原比任何通才模型都准——客户对照原稿审稿时不会出问题。

新用户有免费试用积分，Standard 和 Professional 都能先免费测一遍。客户工作建议用 Professional 模型——每张约 10 秒，真实纹理和光影都更准。

screenshot_sketch_upload

预期结果：Sketch To 上传页加载了你的素描，模型选择器可见。

Step 4：选 Professional 模型并配置

进入 Sketch To 的 Sketch-to-Image AI 工具，在模型选择器里选 Professional Model。这个模型是专门在精细线稿上训练的——Standard 模型大约快 3 倍，但在人像、产品 mockup 和建筑稿上会丢细节。

加一段简短文字 prompt，描述材质和光线（比如 "chrome metal, studio lighting" 或 "oak wood, morning sun"）。模型用你的素描定形状、用 prompt 定材质。我们测下来 prompt 控制在 5-15 个单词最稳。

screenshot_model_select

预期结果：Professional 模型已选中，prompt 已填入，Generate 按钮显示积分消耗。

Step 5：生成、润色、导出

按 Generate。渲染约 10 秒。输出在线条和比例上比通才模型都更贴原稿——这是用更长等待换来的。

要调整时，用内置工具而不是重新生成：

Background Remover：把主体放进新场景。
Image Upscaler：放大到印刷或 hero 图分辨率。
Uncrop：把画面扩展到原素描边界之外。

screenshot_result

预期结果：每一条原素描线都能在照片里找到对应位置的真实照片，可直接以印刷分辨率导出。

实战技巧

Gemini 3.5 Flash 发布这一周高频使用后总结的几条。

用深色铅笔画稿：2B 或 4B 笔芯，对比度足，两个模型都更容易识别。HB 太淡在 Gemini 上特别容易被当成涂污。
直接在素描旁标关键材质：比如沙发旁写 "red leather"、画框旁写 "matte black"，能让两个模型不靠冗长 prompt 就准确渲染对应细节。
媒介词只选一个："photo-realistic"、"cinematic"、"studio photo"、"documentary" 出来的效果差异很大。每次生成只用一个，别叠加。
先定比例再生成：两个工具都支持自定义尺寸。1:1、16:9、3:2 提前选好，事后裁剪会让人脸和比例变形。
聊天跑偏时回到原稿：Gemini 在 4-5 轮追问后开始累积错误时，从源稿重启，不要在错的版本上继续叠加。

body_image_2

常见问题

Q：Gemini 3.5 Flash 做素描转图是免费的吗？

A：是。截至 2026 年 5 月 20 日发布，Google AI Studio 免费额度每天 1500 次请求。超出后 API 费用约 $0.003/张。素描作为多模态输入不额外收费。

Q：Gemini 3.5 Flash 和 Midjourney 比，谁更适合素描转照片？

A：Gemini 把素描直接当多模态输入读，Midjourney 需要用 --cref 上传参考图并手动调权重。Gemini 拿到第一版结果更快；Midjourney v7 在风格化输出上更强——看你要哪种感觉。

Q：Gemini 3.5 Flash 能完整保留我素描里的每一条线吗？

A：大致能，但不完美。粗略概念稿足够。技术图或对线条精度要求高的人像稿，专用工具（比如 Sketch To 的 Professional 模型）保真度更高——我们的流程是 Gemini 跑迭代、Sketch To Professional 出终稿。

Q：Gemini 生成的图能商用吗？

A：能。根据 2026 年 5 月最新条款，Google 允许 Gemini 3.5 Flash 输出用于商业用途。给客户交付前还是建议再核对一遍 Google AI Studio 的当前条款，AI 生成图的版权规则还在变。

Q：两个工具的最佳素描分辨率是多少？

A：1024×1024 起最稳。低于 512×512 模型会自己脑补素描里没有的细节——通常表现为多出手指、边缘融化、或凭空生成的纹理。

Q：什么时候应该跳过 Gemini 直接上 Sketch To？

A：素描已经定稿、材质和光线也想清楚了、不需要再迭代时。每张多等 8 秒，换一次出终稿——比起一连串草稿，这是更划算的选择。

总结

2026 年 5 月 20 日发布的 Gemini 3.5 Flash 让「素描变照片」第一次缩短到 2 秒级。概念探索和聊天迭代场景，这是新的默认选择。终稿需要每一条素描线都落到照片里时，搭配 Sketch To 的 Professional 模型——Gemini 跑前 5-6 张草稿，Sketch To 出生产稿。

下一步：从你的素描里挑一张，两个工具各跑一遍，结果摆一起看。5 分钟的对比测试，比任何评测都直观。

想把素描变成真实照片？免费试用 Sketch To → — AI 驱动的素描转图，照片级真实感，零设计基础也能上手。

用 AI 转换你的图片

将草图变成精美图片、移除背景、换脸等等——全部由 AI 驱动。

免费试用 Sketch To

Sketch To

专注 AI 工具、图像处理和创意工作流的技术写作者。

Knitted Doll AI Prompt：7 个针织玩偶模板

用 knitted doll AI prompt 把照片或草图变成毛线玩偶。含 7 个模板、材质词、构图词和失败修正。

AI 落地页视觉参考教程

用 AI visual reference for landing page design 把粗草图变成清晰提示，减少落地页设计试错。

Claude 设计工作流：搭配草图转图片 AI 更快出图

搭建更快的 Claude 设计工作流：Claude 负责构思与文案，Sketch To 把草图渲染成图片，Figma 留给它仍最擅长的环节。