nehan.ai 睡眠やヘルスケアを見やすく管理。毎日の日記をプライバシーに配慮しながらAIが自動生成。

キャラクター表情シート生成: Gemini vs GPT Image 2

2026-04-23 · staff

— リファレンス画像で精度が変わる

Nehan.AIの3匹のマスコットキャラクターの表情差分を、画像生成AIで一括生成する実験です。Google Gemini 2.5 Flash と OpenAI GPT Image 2 を比較しました。

キャラクターデザイン

まず、3体のキャラクターデザインシートを紹介します。これらも画像生成AI(GPT Image 2)で作成したものです。

ElecSheep⚡(電気羊) — 歩いて発電する元気な羊。紺キャップ、黄色ジャケット、プラグ型しっぽ。

ElecSheep デザインシート

ParipiSheep🎉(パリピ羊) — 交流担当のギャル羊。黒ライダージャケット、QRペンダント、WiFiテール。

ParipiSheep デザインシート

SomniSheep🌙(寝言羊) — 癒し担当の眠り羊。紺ナイトキャップ、ラベンダーパジャマ。

SomniSheep デザインシート

やりたいこと

これらのデザインシートをもとに、6表情(sleep / drowsy / surprised / happy / confused / excited)を均等なグリッドで生成したい。アプリ内のキャラクターアイコンとして使います。

条件:

  • 3×2グリッドに均等配置
  • キャラクターデザインの忠実な再現
  • テキスト・ラベル・記号は一切なし
  • 白背景
  • まず Gemini 2.5 Flash で試す

    Google の Gemini 2.5 Flash Image モデルは、リファレンス画像をインラインで渡せるのが強みです。

    
    POST generativelanguage.googleapis.com/v1beta/models/
         gemini-2.5-flash-image:generateContent
    
    contents.parts[0]: inlineData(リファレンス画像のbase64)
    contents.parts[1]: text(プロンプト)
    generationConfig.responseModalities: ["TEXT", "IMAGE"]
    generationConfig.temperature: 0.6
    

    グリッドテンプレート画像(空の6セル枠)も一緒に渡して、レイアウトを強制しようとしました。

    テンプレート

    Geminiの結果

    ElecSheep(Gemini + テンプレート + リファレンス)

    ElecSheep Gemini

    指定した6セルではなく8枚(4×2)に。帽子は維持されているが、セルサイズが不均一。テンプレートのグリッド線を参照してはいるが、正確には守れていない。

    ParipiSheep(Gemini)

    ParipiSheep Gemini

    5枚横並びになり、さらに「FRONT」「SURRISED」「BACK」などのテキストラベルが混入。プロンプトで「NO text」と何度強調しても消えない。

    SomniSheep(Gemini)

    SomniSheep Gemini

    2×3の6枚グリッドになり、3体の中では最も安定。ただし「?」マークが混入。

    Geminiの課題をまとめると:

  • グリッドのセル数を守れない(5枚、8枚、9枚にばらつく)
  • テキストラベルが頑固に混入する
  • セルごとにキャラのサイズ・位置がバラつく
  • リファレンス画像を渡せるのは良いが、構造化された出力(グリッド)が苦手。

    GPT Image 2 で解決

    OpenAI の GPT Image 2 には2つのエンドポイントがあります。

    generations(テキストのみ)

    
    POST api.openai.com/v1/images/generations
    Content-Type: application/json
    
    model: gpt-image-2
    prompt: "..."
    size: 1536x1024
    quality: high
    

    リファレンス画像は渡せませんが、グリッド制御が完璧。

    edits(リファレンス画像あり)

    
    POST api.openai.com/v1/images/edits
    Content-Type: multipart/form-data
    
    model: gpt-image-2
    image[]: @character_reference.png
    prompt: "Using this character reference..."
    size: 1536x1024
    quality: high
    

    image[] パラメータでキャラデザインシートを渡せる。これが今回の発見です。Geminiの「参照画像が渡せる」メリットと、OpenAIの「グリッドが完璧」メリットを両取りできます。

    editsのプロンプト例

    
    Using this character reference sheet, create a 3x2
    expression sheet (6 cells).
    
    The character is "ElecSheep" — match the design EXACTLY
    from the reference image.
    IMPORTANT: Include the dark navy baseball cap with
    lightning bolt pin in EVERY cell.
    
    LAYOUT: 3 columns x 2 rows, white background,
    thin gray borders.
    Same character size and center position in all 6 cells.
    
    6 EXPRESSIONS (left→right, top→bottom):
    1. sleeping peacefully, eyes closed, relaxed
    2. drowsy yawning, half-open eyes, covering mouth
    3. surprised, wide eyes, shocked expression
    4. happy, big smile, joyful laughing
    5. confused, tilted head, puzzled look
    6. excited, star eyes, triumphant arms-up pose
    
    NO text, NO labels, NO symbols, NO letters anywhere.
    Pure illustration only.
    

    ポイント:

  • 「Using this character reference sheet」でリファレンスの用途を明示
  • 「match the design EXACTLY」でデザイン再現を要求
  • 帽子のような重要アクセサリーは「IMPORTANT」で別行強調
  • 表情は番号付きで具体的に指示
  • 禁止事項は最終行に列挙
  • GPT Image 2 edits の結果

    ElecSheep(edits + リファレンスあり)

    ElecSheep Image2 edits

    3×2グリッド完璧。紺キャップが全フレームに。プラグテール、青ポーチも忠実に再現。テキストなし。

    ParipiSheep(edits + リファレンスあり)

    ParipiSheep Image2 edits

    ライダージャケットの金スタッド、WiFiテール、LED厚底ブーツ、QRペンダント。元デザインの特徴が全て入っている。テキストなし。

    SomniSheep(edits + リファレンスあり)

    SomniSheep Image2 edits

    ナイトキャップの月星柄、ラベンダーパジャマの星ボタン、紺スカーフ。6表情の差分が明確。テキストなし。

    数値比較

    出力サイズ

  • GPT Image 2: 1536×1024(固定指定可能)
  • Gemini 2.5 Flash: 1024×1024 が多い(自動、指定不可)
  • コスト(1枚あたり)

  • GPT Image 2 (high, 1536x1024): 約$0.08
  • Gemini 2.5 Flash: 約$0.02
  • トークン使用量(GPT Image 2 edits)

  • 入力: 約1,700トークン(テキスト+画像)
  • 出力: 5,488トークン(画像1枚分)
  • グリッド成功率(6セル指定)

  • GPT Image 2: 100%
  • Gemini 2.5 Flash: 約30%
  • 結論

    キャラクター表情シートのような「構造化されたグリッド出力」には GPT Image 2 の edits API が最適。リファレンス画像でデザインの再現度を担保しつつ、グリッド制御とテキスト除去が完璧です。

    Gemini 2.5 Flashはコスト1/4で自由な構図の単体イラストには向きますが、グリッドや表情シートには不向き。

    どちらもキャラクター生成の品質は十分実用レベルで、rembg(U2-Net)による背景除去→正方形切り出しのパイプラインと組み合わせれば、アプリ用のアセットを効率的に量産できます。

    参考

  • GPT-image-2で架空のゲーム広告とAI漫画を作ってみた(アマベサイキ氏) — 日本語テキスト描画の精度向上レポート
  • OpenAI Image Generation API — edits/generationsの公式ドキュメント
  • Gemini API Image Generation — Geminiの画像生成ガイド

  • Nehan.AI開発チーム — AICU Inc.

    ← staff の記事一覧
    トップ · ブログについて · プライバシーポリシー · 利用規約
    © 2026 AICU Inc.