如何使用 GPT-Image-2：OpenAI 精准 AI 图像生成器教程

Sketch Toon 2 months ago

9 分钟阅读

最后更新：2026 年 5 月

OpenAI 这次推出 GPT-Image-2 顺手做了一件事：把图像生成的定价从「一刀切」改成三档（low 1 credit、medium 3 credits、high 9-11 credits）。这不只是营销话术，而是 OpenAI 的图像模型第一次允许你「便宜跑实验、贵的出成稿」——不用换工具，也不用换账号。叠加上原生透明 PNG、单次最多生成 10 张、3 种宽高比和 3 种输出格式，GPT-Image-2 不再是「又一个图像 API」，而是当你需要在下午 4 点前交付素材时会第一时间想到的模型。本文先讲清楚到底什么变了，再从注册到下载第一张可生产图，60 秒走完整个流程，全程基于 Sketchto 的 GPT-Image-2 实现。

GPT-Image-2 到底变了什么

GPT-Image-2 是 OpenAI 最新的文生图模型，作为前代的生产级升级版本发布。对实际工作真正有影响的有四点：

1. 三档质量 + 显性定价。 前代 OpenAI 图像模型采用统一定价，结果就是用户「保险起见都选最高质量」。GPT-Image-2 把成本切成三档：low 1 credit、medium 3 credits、high 9-11 credits（1:1 是 11 credits，3:2 / 2:3 是 9 credits）。换句话说，你现在可以用「2 张高质量最终图」的 credits 跑「20 次低质量原型实验」——这是设计师从 DALL-E 3 时代就在等的迭代/产出比。

质量	Credits（1:1）	Credits（3:2 / 2:3）	适用场景
Low	1	1	提示词探索、灵感打稿、快速迭代
Medium	3	3	内部 mockup、方案变体、日常作图
High	11	9	终稿、客户交付、生产用素材

2. 原生透明背景。 GPT-Image-2 直接暴露 background 参数，可选 auto / transparent / opaque 三个值。选 transparent 配合 PNG 输出，模型直接返回带 alpha 通道的素材——不用再过 Remove.bg、不用 Photoshop 抠图。logo、产品图、UI 图标、贴纸这些场景每张能省 30-60 秒。

3. 单次最多 10 张批量。 number_of_images 参数支持 1-10。Credits 线性叠加（4 张高质量 1:1 = 4 × 11 = 44 credits）。更关键的是——批量结果是真的变体，不是「near-duplicate 凑数」。一个 4 张批量可以当作真正的 A/B 测试，而不是「先生成一堆备用」。

4. 灵活的宽高比和输出格式。 三种宽高比：1:1 方图、3:2 横版、2:3 竖版。三种输出格式：WebP（默认、最小）、PNG（带透明通道）、JPEG（照片级压缩、无 alpha）。按用途挑——网页用 WebP、需要合成用 PNG、首页主图用 JPEG。

支撑这四点的底层升级是指令遵循。GPT-Image-2 渲染复杂提示词——具体产品细节、标签文字、多元素构图——的「漂移」明显小于前代。我们的测试里，前代需要 3-4 次试错的提示词，GPT-Image-2 通常一两次就能命中。

实操步骤：在 Sketchto 上使用 GPT-Image-2

五步从冷启动到下载第一张生产图。登录后整个流程不到 60 秒。

第一步：注册并领取 GPT-Image-2 免费 credits

打开 sketchto.com 用邮箱或 Google 注册账号。新用户首次登录后自动到账免费 credits——足够跑几张高质量 GPT-Image-2 成图，或者几十张低质量草稿。试用不需要绑定支付信息。

预期结果： 注册完成后直接进入 dashboard，右上角显示当前 credits 余额。每次生成后实时更新。

第二步：在模型选择器里打开 GPT Image 2

在 dashboard 进入 AI 图像生成器、打开模型选择器，从列表里选 GPT Image 2——或者直接打开模型页 sketchto.com/model/gpt-image-2，该页面默认预选 GPT-Image-2，并自带 dynamic credits UI，让你「在按生成之前就看到这次的精确成本」，只为实际需要的质量档付费。

预期结果： 编辑器打开，顶部是提示词输入框，右侧是配置面板（质量、宽高比、背景、批量、格式），底部是 Generate 按钮——按钮本身就显示当前配置下的 credit 成本。

第三步：配置质量、宽高比、背景和批量数量

这一步是 GPT-Image-2 灵活性的核心。在写提示词之前先把这四项设好：

质量档：任何新提示词从未测试过时，先用 low（1 credit）。构图定下来之后切到 medium，确认终稿前再切 high。
宽高比：Instagram 方图、通用缩略图选 1:1；网页 banner、横版构图选 3:2；海报、TikTok 竖屏选 2:3。
背景：常规场景留 auto。素材需要合成进设计稿时（logo、产品抠图、图标）选 transparent。需要满背景填充时选 opaque。
图片数量：单图选 1，A/B 测试选 4，宽探索选 10。

调参时盯着 Generate 按钮——它会实时显示精确 credit 总额（比如 3 credits × 4 images = 12 credits），不存在「按下去才发现扣多了」。

第四步：写提示词并生成

在输入框写提示词。GPT-Image-2 对「具体」的回报最大：主体、构图、光线、色调、氛围、风格参考。一条「a luxury leather handbag on a marble pedestal, soft studio lighting from upper left, deep contrast, editorial magazine quality」会比「一个好看的手提包照片」稳定得多。

按 Generate。低质量大约 8-15 秒返回，高质量 1:1 4 张批量大约 30-60 秒（取决于平台负载）。Dynamic credits UI 按显示的精确数额扣费——不取整、不藏 fee。

预期结果： 结果以网格形式出现在右侧面板。点任意图片放大，悬停显示下载选项。

第五步：单张或打包下载

每张图都有下载图标。单张点一下即下载。批量场景下「全部下载」会打包成 ZIP。输出严格按所选格式——透明背景出 PNG with alpha，默认出 WebP，切换后出 JPEG。

预期结果： 文件下载到浏览器默认目录，文件名带 slug 和短哈希。直接拖进 Figma 或设计工具就能用。

body_image_1

让 GPT-Image-2 跑得更好的实战技巧

模型上线头几周高频使用后总结的几条。零成本应用，多数能省真金白银的 credits。

先低后高，便宜迭代昂贵收稿。 一个新提示词的前 5-10 次尝试用 low 质量（每次 1 credit）。构图和提示词结构跑通之后，把胜出的提示词重跑一次 high。任何涉及提示词实验的项目（多数都是），这套流程能省下约 70% 的 credits。

任何「需要合成」的素材一律用 background=transparent。 如果最终素材会进设计稿（网站 hero、产品列表图、Figma 组件），从一开始就开透明。整个抠图步骤直接省掉，而且边缘比任何抠图工具都干净。

批量 4-10 张是为了真探索，不是为了备份。 用户对批量的本能反应是「多生成几张以防万一」。GPT-Image-2 批量返回的图片其实是有显著差异的构图，应该当探索素材用。真的想对比方向时设 number_of_images=4，变体范围比你预期的更宽。

宽高比匹配目标，不要匹配源图。 生成方图再裁剪是双重浪费（credits + 分辨率）。目标是 2:3 海报就直接生成 2:3。GPT-Image-2 是按选定的宽高比有意识构图的，比裁剪方图效果好得多。

按用途挑输出格式。 网页用 WebP（文件小、加载快）。需要合成或带透明通道用 PNG。希望照片级压缩且不需要 alpha 通道时用 JPEG（首页主图常用）。生成后切格式不额外收费，但前置选对能省一次导出步骤。

GPT-Image-2 在工作流里的适用场景

五个 GPT-Image-2 目前比同类工具明显更顺手的具体场景：

可直接交付的产品摄影。 精度足够做 mockup、商品页、宣讲 deck。background=transparent 加 high 质量，30 秒拿到生产可用的抠图，比起约 10 分钟的实拍摄影 + 后期，省的时间是数量级的。

品牌创意变体。 营销团队批量生成 10 张 medium 质量变体（共 30 credits），挑出 2 张胜出后再用 high 重跑。单张可用创意的成本低于多数 stock photo 授权费。

UI 图标和贴纸。 透明 PNG 输出能直接进设计系统。模型对「flat、单色、几何」风格的指令遵循足够稳定，可以跳过手工清理这一步。

社媒批量素材。 1:1 medium 质量 10 张变体（30 credits）覆盖一周的内容供给。批量之间的真实差异意味着不会五天发一样的图。

海报和印刷物。 2:3 high 质量（每张 9 credits）能 handle 海报、lookbook 页、印刷素材。文字渲染准确度足够把产品名和短文案直接写进提示词，不用再走外部排版。

body_image_2

常见问题

GPT-Image-2 怎么收费？

GPT-Image-2 使用三档定价，按质量和宽高比组合。Low 质量每张 1 credit；medium 每张 3 credits；high 1:1 是 11 credits，3:2 / 2:3 是 9 credits。批量按数量线性叠加——比如 4 张高质量 1:1 = 4 × 11 = 44 credits。Generate 按钮在你点击之前就显示精确总额。

GPT-Image-2 能用于商业项目吗？

可以。GPT-Image-2 生成的图像可用于商业用途——营销创意、产品 mockup、社媒内容、UI 素材、印刷物等。精度和透明背景支持让它特别适合对一致性有要求的专业设计工作流。

GPT-Image-2 支持透明背景吗？

支持。GPT-Image-2 提供 background 参数，可选 auto、transparent、opaque。设为 transparent 并选 PNG 输出，模型直接返回带 alpha 通道的抠图——不需要再过抠图工具。logo、产品抠图、UI 图标、贴纸场景尤其适用。

GPT-Image-2 单次批量最多生成几张？

GPT-Image-2 支持单次 1-10 张批量，通过 number_of_images 参数控制。Credits 线性叠加。批量结果是真实变体而不是 near-duplicate，所以 4 张批量可以当真 A/B 测试用，不只是「备份」。

GPT-Image-2 和 Nano Banana 2 怎么选？

需要精准指令遵循、透明背景、或在「便宜迭代 + 高质量交付」之间灵活切换时选 GPT-Image-2。需要画面内准确文字渲染、Google Search grounding、或多角色 / 多元素的主体一致性时选 Nano Banana 2。后续会有一篇详细对比文章——两个模型在 Sketchto 上都可用，可以同一个提示词分别跑一遍再决定。

GPT-Image-2 支持哪些输出格式？

三种格式：WebP（默认、最小、网页首选）、PNG（需要透明通道或无损合成时用）、JPEG（照片级压缩、不带 alpha 通道、适合首页 hero）。按目标终端挑——网站用 WebP，设计系统用 PNG，首页主图用 JPEG。

总结

GPT-Image-2 的真正优势不是单点突破，而是四个变化的叠加效应。三档质量把「探索」和「生产」从一笔账拆成两笔；原生透明背景省下一道后期工序；批量返回真实变体而非凑数；指令遵循变强意味着更少重试。叠加在一起就是更短的交付周期和更低的 credits 消耗。

五步、不到 60 秒、新用户免费 credits。今天从「我需要这张图」到「我手里就是这张图」的最快路径，就是 GPT-Image-2。

准备好试 GPT-Image-2 了？60 秒拿到免费 credits 并开始生成 → — 每次生成前看到精确成本，只为实际需要的质量档付费，生产可用素材直接出，不再需要单独的去背景步骤。

用 AI 转换你的图片

将草图变成精美图片、移除背景、换脸等等——全部由 AI 驱动。

免费试用 Sketch To

Sketch To

专注 AI 工具、图像处理和创意工作流的技术写作者。

Knitted Doll AI Prompt：7 个针织玩偶模板

用 knitted doll AI prompt 把照片或草图变成毛线玩偶。含 7 个模板、材质词、构图词和失败修正。

AI 落地页视觉参考教程

用 AI visual reference for landing page design 把粗草图变成清晰提示，减少落地页设计试错。

Claude 设计工作流：搭配草图转图片 AI 更快出图

搭建更快的 Claude 设计工作流：Claude 负责构思与文案，Sketch To 把草图渲染成图片，Figma 留给它仍最擅长的环节。