キャラクター表情シート生成: Gemini vs GPT Image 2 — リファレンス画像で精度が変わる

Nehan.AIの3匹のマスコットキャラクターの表情差分を、画像生成AIで一括生成する実験です。Google Gemini 2.5 Flash と OpenAI GPT Image 2 を比較しました。

キャラクターデザイン

まず、3体のキャラクターデザインシートを紹介します。これらも画像生成AI（GPT Image 2）で作成したものです。

ElecSheep⚡（電気羊） — 歩いて発電する元気な羊。紺キャップ、黄色ジャケット、プラグ型しっぽ。

ElecSheep デザインシート

ParipiSheep🎉（パリピ羊） — 交流担当のギャル羊。黒ライダージャケット、QRペンダント、WiFiテール。

ParipiSheep デザインシート

SomniSheep🌙（寝言羊） — 癒し担当の眠り羊。紺ナイトキャップ、ラベンダーパジャマ。

SomniSheep デザインシート

やりたいこと

これらのデザインシートをもとに、6表情（sleep / drowsy / surprised / happy / confused / excited）を均等なグリッドで生成したい。アプリ内のキャラクターアイコンとして使います。

条件:

3×2グリッドに均等配置

キャラクターデザインの忠実な再現

テキスト・ラベル・記号は一切なし

白背景

まず Gemini 2.5 Flash で試す

Google の Gemini 2.5 Flash Image モデルは、リファレンス画像をインラインで渡せるのが強みです。


POST generativelanguage.googleapis.com/v1beta/models/
     gemini-2.5-flash-image:generateContent

contents.parts[0]: inlineData（リファレンス画像のbase64）
contents.parts[1]: text（プロンプト）
generationConfig.responseModalities: ["TEXT", "IMAGE"]
generationConfig.temperature: 0.6

グリッドテンプレート画像（空の6セル枠）も一緒に渡して、レイアウトを強制しようとしました。

テンプレート

Geminiの結果

ElecSheep（Gemini + テンプレート + リファレンス）

ElecSheep Gemini

指定した6セルではなく8枚（4×2）に。帽子は維持されているが、セルサイズが不均一。テンプレートのグリッド線を参照してはいるが、正確には守れていない。

ParipiSheep（Gemini）

ParipiSheep Gemini

5枚横並びになり、さらに「FRONT」「SURRISED」「BACK」などのテキストラベルが混入。プロンプトで「NO text」と何度強調しても消えない。

SomniSheep（Gemini）

SomniSheep Gemini

2×3の6枚グリッドになり、3体の中では最も安定。ただし「?」マークが混入。

Geminiの課題をまとめると:

グリッドのセル数を守れない（5枚、8枚、9枚にばらつく）

テキストラベルが頑固に混入する

セルごとにキャラのサイズ・位置がバラつく

リファレンス画像を渡せるのは良いが、構造化された出力（グリッド）が苦手。

GPT Image 2 で解決

OpenAI の GPT Image 2 には2つのエンドポイントがあります。

generations（テキストのみ）


POST api.openai.com/v1/images/generations
Content-Type: application/json

model: gpt-image-2
prompt: "..."
size: 1536x1024
quality: high

リファレンス画像は渡せませんが、グリッド制御が完璧。

edits（リファレンス画像あり）


POST api.openai.com/v1/images/edits
Content-Type: multipart/form-data

model: gpt-image-2
image[]: @character_reference.png
prompt: "Using this character reference..."
size: 1536x1024
quality: high

image[] パラメータでキャラデザインシートを渡せる。これが今回の発見です。Geminiの「参照画像が渡せる」メリットと、OpenAIの「グリッドが完璧」メリットを両取りできます。

editsのプロンプト例


Using this character reference sheet, create a 3x2
expression sheet (6 cells).

The character is "ElecSheep" — match the design EXACTLY
from the reference image.
IMPORTANT: Include the dark navy baseball cap with
lightning bolt pin in EVERY cell.

LAYOUT: 3 columns x 2 rows, white background,
thin gray borders.
Same character size and center position in all 6 cells.

6 EXPRESSIONS (left→right, top→bottom):
1. sleeping peacefully, eyes closed, relaxed
2. drowsy yawning, half-open eyes, covering mouth
3. surprised, wide eyes, shocked expression
4. happy, big smile, joyful laughing
5. confused, tilted head, puzzled look
6. excited, star eyes, triumphant arms-up pose

NO text, NO labels, NO symbols, NO letters anywhere.
Pure illustration only.

ポイント:

「Using this character reference sheet」でリファレンスの用途を明示

「match the design EXACTLY」でデザイン再現を要求

帽子のような重要アクセサリーは「IMPORTANT」で別行強調

表情は番号付きで具体的に指示

禁止事項は最終行に列挙

GPT Image 2 edits の結果

ElecSheep（edits + リファレンスあり）

ElecSheep Image2 edits

3×2グリッド完璧。紺キャップが全フレームに。プラグテール、青ポーチも忠実に再現。テキストなし。

ParipiSheep（edits + リファレンスあり）

ParipiSheep Image2 edits

ライダージャケットの金スタッド、WiFiテール、LED厚底ブーツ、QRペンダント。元デザインの特徴が全て入っている。テキストなし。

SomniSheep（edits + リファレンスあり）

SomniSheep Image2 edits

ナイトキャップの月星柄、ラベンダーパジャマの星ボタン、紺スカーフ。6表情の差分が明確。テキストなし。

数値比較

出力サイズ

GPT Image 2: 1536×1024（固定指定可能）

Gemini 2.5 Flash: 1024×1024 が多い（自動、指定不可）

コスト（1枚あたり）

GPT Image 2 (high, 1536x1024): 約$0.08

Gemini 2.5 Flash: 約$0.02

トークン使用量（GPT Image 2 edits）

入力: 約1,700トークン（テキスト+画像）

出力: 5,488トークン（画像1枚分）

グリッド成功率（6セル指定）

GPT Image 2: 100%

Gemini 2.5 Flash: 約30%

結論

キャラクター表情シートのような「構造化されたグリッド出力」には GPT Image 2 の edits API が最適。リファレンス画像でデザインの再現度を担保しつつ、グリッド制御とテキスト除去が完璧です。

Gemini 2.5 Flashはコスト1/4で自由な構図の単体イラストには向きますが、グリッドや表情シートには不向き。

どちらもキャラクター生成の品質は十分実用レベルで、rembg（U2-Net）による背景除去→正方形切り出しのパイプラインと組み合わせれば、アプリ用のアセットを効率的に量産できます。

参考

GPT-image-2で架空のゲーム広告とAI漫画を作ってみた（アマベサイキ氏） — 日本語テキスト描画の精度向上レポート

OpenAI Image Generation API — edits/generationsの公式ドキュメント

Gemini API Image Generation — Geminiの画像生成ガイド

Nehan.AI開発チーム — AICU Inc.