nehan.ai 睡眠やヘルスケアを見やすく管理。毎日の日記をプライバシーに配慮しながらAIが自動生成。

キャラクター表情シート生成API比較: GPT Image 2 vs Gemini 3

2026-04-24 · staff

Pro vs Gemini 3.1 Flash

Nehan.AIの3匹のマスコットキャラクター(ElecSheep⚡・ParipiSheep🎉・SomniSheep🌙)の表情差分シートを、3つの画像生成APIで比較しました。リファレンス画像を渡した場合の再現度と、グリッドレイアウトの制御精度に注目しています。

キャラクターデザイン

3体のデザインシートはいずれもGPT Image 2で作成しました。これらをリファレンス画像として各APIに渡します。

ElecSheep⚡(電気羊) — 歩いて発電する元気な羊。紺キャップ、黄色ジャケット、プラグ型しっぽ。

ElecSheep デザインシート

ParipiSheep🎉(パリピ羊) — 交流担当のギャル羊。黒ライダージャケット、QRペンダント、WiFiテール。

ParipiSheep デザインシート

やりたいこと

デザインシートをもとに、6表情(sleep / drowsy / surprised / happy / confused / excited)を3×2グリッドで生成する。条件は:

  • 3×2グリッドに均等配置
  • デザインシートのキャラクターを忠実に再現
  • テキスト・ラベル・記号は一切なし
  • 白背景
  • 比較した3つのAPI

    Gemini Nano Banana 2 — gemini-3.1-flash-image-preview。速度と大量生成に最適化。リファレンス画像をインラインbase64で渡せる。

    Gemini Nano Banana Pro — gemini-3-pro-image-preview。高度な推論(「思考」)で複雑な指示に従う。プロフェッショナルなアセット制作向け。

    OpenAI GPT Image 2 — gpt-image-2。editsエンドポイントでリファレンス画像を渡せる。

    API仕様

    Gemini(Nano Banana 2 / Pro 共通)

    
    POST generativelanguage.googleapis.com/v1beta/models/
         {model_id}:generateContent?key=...
    
    contents.parts[0]: inlineData(リファレンス画像のbase64)
    contents.parts[1]: text(プロンプト)
    generationConfig.responseModalities: ["TEXT", "IMAGE"]
    generationConfig.temperature: 0.6
    

    リファレンス画像はparts配列にインラインで渡します。レスポンスのinlineDataに生成画像が入ります。

    OpenAI GPT Image 2(editsエンドポイント)

    
    POST api.openai.com/v1/images/edits
    Content-Type: multipart/form-data
    
    model: gpt-image-2
    image[]: @reference_image.png
    prompt: "Using this character reference..."
    size: 1536x1024
    quality: high
    

    image[]パラメータで画像ファイルを渡します。generationsエンドポイント(テキストのみ)とは異なり、multipart/form-data形式です。

    結果比較

    ElecSheep ⚡

    Gemini Nano Banana 2(3.1 Flash)

    ElecSheep Nano2

    3×2グリッド完璧。帽子が全フレームに維持。テキスト混入なし。キャラのサイズと位置が均一。

    Gemini Nano Banana Pro(3 Pro)

    ElecSheep Pro

    3×2グリッド完璧。帽子あり。ただしZZZと?のテキストが混入。表情の差分は明確で自然。

    GPT Image 2(edits + リファレンス画像)

    ElecSheep Image2

    3×2グリッド完璧。帽子・プラグテール・青ポーチの再現度が最高。テキストなし。ポーズのバリエーションが最も豊か。

    ParipiSheep 🎉

    Gemini Nano Banana 2

    ParipiSheep Nano2

    3×2グリッド完璧。テキストなし。ライダージャケットと褐色肌の再現度が高い。ただしWiFiテールが省略されている。

    Gemini Nano Banana Pro

    ParipiSheep Pro

    3×2グリッド完璧。WiFiテールのピンクグローが再現。テキストなし。デザインの忠実度が高い。

    GPT Image 2(edits)

    ParipiSheep Image2

    3×2グリッド完璧。ライダージャケットの金スタッド、WiFiテール、LED厚底、QRペンダント — 全ディテールが再現。テキストなし。

    SomniSheep 🌙

    Gemini Nano Banana 2

    SomniSheep Nano2

    3×2グリッド完璧。テキストなし。ナイトキャップの月星柄、ラベンダーパジャマが忠実。中心位置も統一されている。

    Gemini Nano Banana Pro

    SomniSheep Pro

    3×2グリッド完璧。Zzzと?のテキストが混入。月星柄の再現は良好。表情差分が明確。

    GPT Image 2(edits)

    SomniSheep Image2

    3×2グリッド完璧。全ディテール忠実。テキストなし。6表情の差分が最も明確。

    数値比較

    出力サイズ

  • GPT Image 2: 1536×1024(指定可能)
  • Gemini 3.1 Flash / 3 Pro: 自動(概ね1024×768前後)
  • ファイルサイズ(1枚あたり)

  • GPT Image 2 edits: 1,100〜1,600KB
  • Gemini Nano Banana 2: 630〜770KB
  • Gemini Nano Banana Pro: 620〜790KB
  • コスト(1枚あたり推定)

  • GPT Image 2 (high, 1536x1024): 約$0.08
  • Gemini 3 Pro Image: 約$0.04
  • Gemini 3.1 Flash Image: 約$0.02
  • グリッド成功率(3×2の6セル)

  • GPT Image 2: 100%
  • Gemini 3.1 Flash: 100% ← 旧2.5 Flashの30%から劇的改善
  • Gemini 3 Pro: 100%
  • テキスト混入率

  • GPT Image 2 edits: ほぼゼロ
  • Gemini 3.1 Flash: ほぼゼロ ← 大幅改善
  • Gemini 3 Pro: Zzz/?が稀に出る
  • 使ったプロンプト

    全API共通で以下の構成:

    
    TWO images provided: (1) CHARACTER REFERENCE, (2) this prompt.
    
    Create a 3x2 expression sheet (6 cells) for "{name}",
    a spirit servant of Nehan.AI.
    
    GRID: 3 columns x 2 rows, white background, thin gray borders.
    Same character size and center position in ALL 6 cells.
    Output: wide image (3:2 aspect ratio).
    
    CHARACTER (match reference exactly): {outfit description}
    Colors: {palette}
    Style: Chibi anime, 2-3 head proportions.
    
    6 EXPRESSIONS (left to right, top to bottom):
      Cell 1: sleeping peacefully, eyes closed
      Cell 2: drowsy yawning, half-open eyes
      Cell 3: surprised wide open eyes, shocked
      Cell 4: happy big warm smile, joyful
      Cell 5: confused tilted head, puzzled
      Cell 6: excited sparkling star eyes, arms up
    
    FORBIDDEN: NO text, NO letters, NO labels, NO symbols.
    Pure illustration only.
    

    ポイント:

  • 「match reference exactly」でデザイン再現を強調
  • 表情は番号付きで6セル分を具体的に指示
  • 「FORBIDDEN」セクションでテキスト禁止を明示
  • Geminiにはリファレンス画像をinlineDataで、GPT Image 2にはimage[]で渡す
  • 結論

    2024年後半のGemini 2.5 Flashではグリッド制御が30%の成功率でしたが、2026年4月時点の最新モデルでは全APIが3×2グリッドを完璧に生成できるようになりました。

    総合評価:

    GPT Image 2 edits — デザイン再現度とテキスト除去で最高品質。コストは最も高い($0.08/枚)が、キャラクターアセットの本番制作にはこれが最適。

    Gemini 3.1 Flash (Nano Banana 2) — コスパ最強。グリッド制御もテキスト除去もほぼ完璧になった。大量バリエーション生成や試行錯誤に最適($0.02/枚)。

    Gemini 3 Pro (Nano Banana Pro) — Flashとの差は小さい。テキスト混入(Zzz/?)がやや多く、高コスト。現時点ではFlashの方が実用的。

    どのAPIもリファレンス画像の活用が鍵。テキストプロンプトだけでキャラクターを再現するのは困難ですが、デザインシートを渡せばどのAPIでも高品質な結果が得られます。

    参考

  • OpenAI Image Generation API — edits/generationsの公式ドキュメント
  • Gemini API 画像生成 — Nano Banana シリーズの公式ガイド
  • GPT-image-2で架空のゲーム広告とAI漫画を作ってみた(アマベサイキ氏)

  • Nehan.AI開発チーム — AICU Inc.

    ← staff の記事一覧
    トップ · ブログについて · プライバシーポリシー · 利用規約
    © 2026 AICU Inc.