如何用 Gemini 3.5 Flash 把素描变成真实照片

如何用 Gemini 3.5 Flash 把素描变成真实照片

Sketch Toon 4 days ago
8 分钟阅读

最后更新:2026 年 5 月 20 日

今天早上 Google 发布了 Gemini 3.5 Flash,整个白天它都待在 Hacker News 第一的位置,532 个 upvote、414 条评论——讨论几乎全在一件事上:图像生成的速度,已经快到和回一条聊天差不多。同日发布的 Gemini Omni 多模态世界模型把这条线又往前推了一步。对插画师和设计师来说,问题很直接:现在能不能把铅笔素描丢进去,几秒钟内拿到一张真实照片?

答案是可以——单张约 1.5 秒。这篇教程把完整工作流走一遍:Gemini 3.5 Flash 用来快速迭代,Sketch To 的 Professional 模型用来出终稿,并告诉你在哪种场景下用哪个更划算。读完你会有一条可用的双工具流水线,也会清楚特定任务该走哪条路径。

Banner

目录

为什么 Gemini 3.5 Flash 改变了素描转图

Gemini 3.5 Flash 是 Google 第一个让图像生成跑到对话速度的模型——根据今天发布会公布的基准,原生 1024×1024 单张约 1.5 秒。模型在一次多模态调用里同时接收素描图片和文字提示,返回渲染后的照片。从素描转图的角度,有三件事真正有用:

  • 一次调用搞定多模态输入:素描 + 文字描述一起送进去,模型同时读两者。不用单独跑 ControlNet,也不用预处理线稿。
  • 速度极快、成本极低:2026 年 5 月发布价约 $0.003/张,同等吞吐下比 Imagen 3 或 GPT Image 便宜约 10 倍。Google AI Studio 免费额度每天 1500 次请求。
  • 聊天式迭代:追问 prompt 时模型在上一张的基础上改,不会从头生成。「光线再暖一点」「背景换成厨房」每次再花 ~2 秒。

代价是保真度。Gemini 3.5 Flash 是通才。终稿要求每一条素描线都落到照片里时——比如时装稿、产品概念、建筑图——一个专门为素描输入训练的模型,线条还原得更准。Sketch To 的 Professional 模型正是补这一块的,下半篇会展开。

Gemini 3.5 Flash vs Sketch To 快速对比

两个工具都能把素描变照片。怎么选,看你优化的是迭代速度还是输出保真度。

维度Gemini 3.5 FlashSketch To(Professional 模型)
速度~1.5 秒/张~10 秒/张
成本~$0.003/张(每天 1500 次免费)$8/月,约 480 张
接入方式Google AI Studio + Google 账号网页拖拽上传
素描保真粗略素描可用,细线易丢线条还原准,专为细节训练
风格控制仅文字 prompt风格预设 + prompt
人像写实不错但偏通用商业级照片质感
适合概念迭代、聊天式优化终稿渲染、客户交付
不适合高细节产品图、时装稿没有素描参考的纯文生图

我们用 30 多张素描跑了一轮:Gemini 在速度和探索上赢;Sketch To Professional 在所有「客户需要把成品和原稿对照检查」的任务上赢。

分步教程:把你的素描变成照片

五步走完。第 2 步是 Gemini 3.5 Flash 的工作流,第 3-5 步是 Sketch To Professional 的生产路径。按任务选其一,或者串成双工具流水线。

Step 1:准备一张干净的素描

光线均匀的情况下扫描或拍照。裁剪到主体居中,铅笔线条要够深——HB 太淡有时会被两个模型当成涂污,2B 或 4B 笔芯识别更准。保存为 JPG 或 PNG,分辨率建议 1024×1024 起。

预期结果:光照均匀、画面无手影、背景干净的图片。

body_image_1

Step 2:用 Gemini 3.5 Flash 跑草稿

打开 aistudio.google.com,用 Google 账号登录。右上角的模型下拉里选 Gemini 3.5 Flash(确认是 2026 年 5 月版本)。打开 Run settings 面板,把 "Image generation" 打开。

点 "+" 上传素描,然后在下方写 prompt。我们测下来效果最好的模板:

This is a pencil sketch of [subject].
Render it as a photo-realistic image with [lighting],
in a [setting], shot on a [camera/lens].
Keep the composition and proportions from the sketch.

举例:"This is a pencil sketch of a vintage motorcycle. Render it as a photo-realistic image with golden-hour side lighting, parked on a desert road, shot on a 50mm lens. Keep the composition and proportions from the sketch."

别收第一版。在同一个会话里继续追问——"make the lighting warmer"、"swap the background to a foggy mountain road"、"add chrome detail to the exhaust"——Gemini 会在上一张的基础上改,不会从头生成。我们的经验是 3-4 轮迭代基本能拿到可用稿。

预期结果:1024×1024 真实照片,每次生成 1-2 秒,构图和比例大致保留原稿。

Step 3:终稿换 Sketch To 跑

概念跑通、需要每一条素描线都落到终稿上时,把同一张素描传到 Sketch To。它在我们的流水线里固定占第二槽位,原因只有一个:模型专门为素描输入训练,线条还原比任何通才模型都准——客户对照原稿审稿时不会出问题。

新用户有免费试用积分,Standard 和 Professional 都能先免费测一遍。客户工作建议用 Professional 模型——每张约 10 秒,真实纹理和光影都更准。

screenshot_sketch_upload

预期结果:Sketch To 上传页加载了你的素描,模型选择器可见。

Step 4:选 Professional 模型并配置

进入 Sketch To 的 Sketch-to-Image AI 工具,在模型选择器里选 Professional Model。这个模型是专门在精细线稿上训练的——Standard 模型大约快 3 倍,但在人像、产品 mockup 和建筑稿上会丢细节。

加一段简短文字 prompt,描述材质和光线(比如 "chrome metal, studio lighting" 或 "oak wood, morning sun")。模型用你的素描定形状、用 prompt 定材质。我们测下来 prompt 控制在 5-15 个单词最稳。

screenshot_model_select

预期结果:Professional 模型已选中,prompt 已填入,Generate 按钮显示积分消耗。

Step 5:生成、润色、导出

按 Generate。渲染约 10 秒。输出在线条和比例上比通才模型都更贴原稿——这是用更长等待换来的。

要调整时,用内置工具而不是重新生成:

  • Background Remover:把主体放进新场景。
  • Image Upscaler:放大到印刷或 hero 图分辨率。
  • Uncrop:把画面扩展到原素描边界之外。

screenshot_result

预期结果:每一条原素描线都能在照片里找到对应位置的真实照片,可直接以印刷分辨率导出。

实战技巧

Gemini 3.5 Flash 发布这一周高频使用后总结的几条。

  • 用深色铅笔画稿:2B 或 4B 笔芯,对比度足,两个模型都更容易识别。HB 太淡在 Gemini 上特别容易被当成涂污。
  • 直接在素描旁标关键材质:比如沙发旁写 "red leather"、画框旁写 "matte black",能让两个模型不靠冗长 prompt 就准确渲染对应细节。
  • 媒介词只选一个:"photo-realistic"、"cinematic"、"studio photo"、"documentary" 出来的效果差异很大。每次生成只用一个,别叠加。
  • 先定比例再生成:两个工具都支持自定义尺寸。1:1、16:9、3:2 提前选好,事后裁剪会让人脸和比例变形。
  • 聊天跑偏时回到原稿:Gemini 在 4-5 轮追问后开始累积错误时,从源稿重启,不要在错的版本上继续叠加。

body_image_2

常见问题

Q:Gemini 3.5 Flash 做素描转图是免费的吗?

A:是。截至 2026 年 5 月 20 日发布,Google AI Studio 免费额度每天 1500 次请求。超出后 API 费用约 $0.003/张。素描作为多模态输入不额外收费。

Q:Gemini 3.5 Flash 和 Midjourney 比,谁更适合素描转照片?

A:Gemini 把素描直接当多模态输入读,Midjourney 需要用 --cref 上传参考图并手动调权重。Gemini 拿到第一版结果更快;Midjourney v7 在风格化输出上更强——看你要哪种感觉。

Q:Gemini 3.5 Flash 能完整保留我素描里的每一条线吗?

A:大致能,但不完美。粗略概念稿足够。技术图或对线条精度要求高的人像稿,专用工具(比如 Sketch To 的 Professional 模型)保真度更高——我们的流程是 Gemini 跑迭代、Sketch To Professional 出终稿。

Q:Gemini 生成的图能商用吗?

A:能。根据 2026 年 5 月最新条款,Google 允许 Gemini 3.5 Flash 输出用于商业用途。给客户交付前还是建议再核对一遍 Google AI Studio 的当前条款,AI 生成图的版权规则还在变。

Q:两个工具的最佳素描分辨率是多少?

A:1024×1024 起最稳。低于 512×512 模型会自己脑补素描里没有的细节——通常表现为多出手指、边缘融化、或凭空生成的纹理。

Q:什么时候应该跳过 Gemini 直接上 Sketch To?

A:素描已经定稿、材质和光线也想清楚了、不需要再迭代时。每张多等 8 秒,换一次出终稿——比起一连串草稿,这是更划算的选择。

总结

2026 年 5 月 20 日发布的 Gemini 3.5 Flash 让「素描变照片」第一次缩短到 2 秒级。概念探索和聊天迭代场景,这是新的默认选择。终稿需要每一条素描线都落到照片里时,搭配 Sketch To 的 Professional 模型——Gemini 跑前 5-6 张草稿,Sketch To 出生产稿。

下一步:从你的素描里挑一张,两个工具各跑一遍,结果摆一起看。5 分钟的对比测试,比任何评测都直观。


想把素描变成真实照片?免费试用 Sketch To → — AI 驱动的素描转图,照片级真实感,零设计基础也能上手。

用 AI 转换你的图片

将草图变成精美图片、移除背景、换脸等等——全部由 AI 驱动。

免费试用 Sketch To

分享

ST

Sketch To

专注 AI 工具、图像处理和创意工作流的技术写作者。