LWのサイゼリヤ

ミラノ風ドリア300円

22/11/12 プランナー目線の生成AI妥協論

第2回創作+機械学習LT会

先日11/5(土)に開催された「第2回創作+機械学習LT会」に参加しました。
発表した内容の紹介兼イベントレポです。全体的にガチ感とカジュアル感の塩梅が良い感じで懇親会含めてかなり楽しめました。

connpass.com

僕の発表はカジュアル寄りで、プランナーの立場から「創作活動にイラスト生成AIを使うとき、AIを技術的に改善したりイラストを加筆修正したりする以外に『企画(プランニング)を妥協する』という選択肢を持ちましょう」という話をしました。
当日の参加者にはエンジニアかクリエイターが多くプランナーがいなかったので、ちょうどよくニッチなポジションから話せてそこそこウケて良かったです。

プランナー目線の生成AI妥協論

せっかく作ったスライドがあるので適宜貼りながら解説します。

プランナー目線って何?

ゲームでも小説でも漫画でも何らかの創作企画に生成AIイラストを利用するとき、一般的に「生成AIは理想出力をほぼ出せない」という問題がまずあります。
「誰でも理想のイラストを描ける」という触れ込みで紹介されていることも多い生成AIですが、実際には自分の頭の中で思い描いている画像を100%そのまま出せることは基本ありません。「表情が想定とちょっと違う」「装飾のデザインがブレてしまう」「狙った通りのポーズにならない」というような不整合が常に付きまとい、一枚絵を超えた体系性を持つ一貫した創作企画に用いるにはこの課題をクリアする必要があります。

幸いにも、この問題は色々な立場から解決することができます。
例えば生成AIをコードレベルで扱えるエンジニアならファインチューニングとかを施して生成AIモデル自体を改良できますし、イラストレーターのようなクリエイターなら生成AIが出力したイラストを加筆修正できます。この二つの対応は直感的に理解しやすく、技術やデザインの技能を持つ人たちによって今も様々な対応が試みられています。

しかしほとんど顧みられない第三の選択肢として、プランナーならば「創作企画の方を妥協する」という対応が可能です。つまり「生成AIが満点の出力を出さなくても問題が生じないように企画を設計・運用する」という考え方について説明していきます。

 

現実的な生成AIの限界と解決

具体的にイラストの枠組みを図示すると、以下のような領域に分けて捉えることができます。

まず黄色い領域が「理論上可能なイラスト」です。これは文字通り画素と色の組み合わせにおいて理論的に可能なイラストの全てで、例えばフルHDなら1920×1080×256×256×256≒35兆の要素があるドメインになります。

その中には「現実的にAI生成できるイラスト」を示す緑色の領域があります。これは生成AIで狙って作れるイラストのことですが、「現実的に」という言葉にけっこう力点があることに注意してください。エンジニアや研究者は理論上可能なイラストは概ね生成可能だと見做す傾向もありますが、プランナー的にはとにかく今の手札として創作に利用できるAIイラストに関心があるので「将来的な改善を考慮せずいま使えるもの」というニュアンスでわざわざ「現実的に」と付けています。

また、それとは独立に「使い物になるイラスト」を示す赤色の領域があります。使い物になるイラストとは何かには諸説ありますが、とりあえず人間クオリティのイラストとニアリーイコールということにしておきます。

具体例を充填すると以下のような感じです。

現実的にAI生成可能使い物になるイラスト」には最近話題になったチューリングテストをパスするようなイラスト、つまり生成AIで作れて普通に人間が描いたものと区別できないイラストが該当します。

現実的にAI生成可能だが使い物にならないイラスト」にはよく失敗作として出てくるようなデッサンが狂って身体が崩壊しているイラストなどがありますが、これは特に用事がないです。

問題は「使い物になるが現実的にAI生成できないイラスト」です。ここに入るイラストとして、例えば「2人以上の特定キャラが絡んでいるイラスト」があります。試したことがある人はわかると思いますが、キャラAがキャラBをお姫様抱っこしているイラストを生成しようとすると大抵キャラAとBの特徴が混ざった中途半端なキャラが出てきてしまい、なかなか綺麗なイラストが出ません。他にも紋章やボタンの数などの超細かい装飾を指定したイラストも現実的には生成が難しいです。

そして創作に生成AIを用いるにあたっては「使い物になるが現実的にAI生成できないイラストが欲しいときどうする?」という問題をクリアする必要があります。

生成AIを改善する」というエンジニアのアプローチは生成可能なイラストの範囲を拡張することで欲しいイラストを取りに行く対応として捉えられます。

AI生成イラストを加筆修正する」というクリエイターのアプローチはイラスト加筆能力によってAI生成可能な範囲を超えるイメージで捉えられます。

そして「創作企画の方を妥協する」というプランナーのアプローチは、「本来欲しいイラストを諦めて、現実的にAI生成できるイラストだけを使ってなんとかする」というものになります。

お察しの通り、他の二つに比べてこれはかなりクソみたいな解決方法ですが、悲しいことにプランナーにとってはよくある話です(生成AIが絡まなくても)。
例えば半年後にやる海水浴イベントでどうしてもデザイナー工数が確保できずキャラ二人分しか水着立ち絵を用意できないとき、「水着キャラ二人だけでも何とか楽しい海水浴イベントが作れるように頭を捻り、水着を着せるキャラを二人選んでなんとかイベント企画を設計する」という仕事はプランナーのお家芸です。

 

生成AIの妥協論に注目する意義

「何故そんなしょうもないソリューションをわざわざ考慮しなければいけないのか?(そもそもこれはソリューションなのか?)」と感じる人も多いと思いますが、生成AIに限ってはこの「プランナー目線の妥協論」に注目する意義がいくつもあります。

第一に、生成AIは素人も使うことがあります。
エンジニアでもクリエイターでもない素人にとってはファインチューニングやクリスタを利用する解決方法は相当にハードルが高く、理想のイラストが出せない時点で詰み状態になって創作を挫折してしまう可能性が高いです。その点、プランナーの思考法はコツさえ掴めば誰でも扱える数少ない手札であり、特殊技能を持たない人に生成AIでの創作支援を普及させるにあたって一つのキーになるはずです。

第二に、生成AIには原理的に不整合が付きまとうことがあります。
現代的な生成AIは理論的な基礎をルールベースではなく統計処理に置いているため、乱暴に言えば「こんなイラストがそれっぽい」という「っぽさ」ベースでの生成から逃れられず、今後も100%理想出力は当分は出ないことが予想されます。つまり生成AIがもたらす原理的な不整合は人間への発注と違ってクオリティマネジメントのレベルでどうにかなる問題ではないため、技術的に不可避な限界だと認識して妥協するスキルを身に付けておけば今後も賞味期限長く利用できるはずです。

第三に、企画の妥協は行き当たりばったりになりやすいことがあります。
「企画を妥協する」という考え方はプランナーだけが知っている秘儀というわけでもなく、むしろ逆で部分的には誰でもよく実行しているものです。例えば「本当は欲しいイラストとちょっと違うけどこれで我慢する」という無意識の妥協は素人こそよく行うものでしょう。しかし企画の妥協は「最初から妥協しやすい企画を設計しておく」などの事前の準備が明暗を分けることも多く、都度都度行き当たりばったりに行うのではなく問題点を認識して戦略的に行うことが重要になります。

第四に、生成AIは質より量の強みを活かすべきだということがあります。
これは諸説ある部分ですが、僕は生成AIイラストのクオリティはプロへの発注には及ばないと考える派閥で、プロが100点を出してくるとすれば生成AIは精々80点という優劣関係は今後も変わらないと思っています。その状況で生成AIのクオリティ上げを頑張って90点とか95点に持っていってもプロにはどうせ勝てなくて、生成AIという選択の強みを活かすにはクオリティの土俵で戦うのではなく生成スピードの速さを活かすべきだと思っています。プロが100点のイラストを10枚生産する間に生成AIは80点のイラストを15枚生産して総合点で上回るみたいなイメージで、この意識の下では80点のイラストをそのまま妥協して扱えるプランナーの思考法は強力な武器になるはずです。

 

妥協論の大前提と戦略

具体的な戦略指針について説明します。

妥協戦略は「最初から細部は整合しない前提で考える」という大前提の認識からスタートします。
整合しないのは装飾から構図から背景に至るまでの全ての描画要素です。体感的にはどうせ本当に描きたいものの80%くらいしか合わないので、20%はズレてても問題ないようにする方法を考えることになります。

この際、具体的な戦略にはフェイズが二つあります。
一つは準備段階で、「そもそもイラストが整合しなくても問題ないように準備しておく」ことがあります。不整合を頑張って排除しようとするのではなく、「不整合があったとしてもそれがユーザーの混乱を招かない設計になっていれば別に問題はない」という方向に発想を逆転させます。
もう一つは使用段階で、「整合していないイラストを誤魔化して使う」方法を考えることになります。設計で完全にはカバーできない部分に関しても、使う段階で常に不整合に起因する被害が最小限に抑えられるように考えながらAIイラストを配置していくということです。

これらを実際にどう遂行するかは創作の目的やメディアや許容ラインに応じてケースバイケースであり、一般論があるわけではありません。が、具体例として僕が自分の小説『ゲーミング自殺、16連射アルマゲドン』で挿絵に生成AIを用いる際に行っている試みを事例としていくつか紹介します(かなり面白いので気になった方は是非読んでください)。

www.alphapolis.co.jp

ちなみに表紙だけは生成AIではなくプロのイラストレーター・ロゴデザイナーに10万円で発注しています(生成AIはプロにクオリティでは勝てないため、表紙のように重要なイラストは依然としてプロに任せるべきだからです)。

 

事例① 整合してなくても問題ないキャラデザ

準備段階における事例です。

いわゆるキャラの同一性問題、つまり「生成AIが出力するイラストはキャラデザがブレて安定しない」という問題に対して、「キャラデザが整合するまで出力を頑張る」ではなく、逆転の発想で「別に整合しなくても問題ないようにキャラデザを設計しておく」という解決方法があります。キャラの同一性を保たないといけないのはユーザーが混乱すると困るからなので、裏を返せば「ユーザーが混乱しない設計になっていれば多少の不整合は許容できる」ということです。

例えば、同時に登場する可能性があるキャラは必ず髪色や目の色を分けておくことが考えられます。白髪のキャラを一人だけにしておけば、多少デザインがブレたとしても白髪である時点でキャラを特定できるため、誰かわからずにユーザーが混乱することは無いでしょう。
他にも、安定出力できる特徴的な外見を記号として付与するのも有効です。緑髪の女の子は左目に花を刺していますが、目に花を刺しているキャラは一人しかいないため多少デザインがブレていても容易に認識できます。実際、よく見るとパーカーの紐のデザインが左右で異なっていますが(右は丸いのに対して左は帯になっている)、目に突き刺さっている花のインパクトが些末な差異をかき消すため問題になりません。

まとめると、

①AIが安定出力できる
②区別が容易である

という二点を満たすように記号を配置したキャラデザを行うことによって、多少は不整合があったとしても混乱を招かないように企画を設計できます。

補足436:とはいえ、そもそもキャラクターコンテンツであれば一目見ればわかる程度には特徴的な記号を備えたキャラデザにしておくべきだという説もあります(生成AIを使わないとしても)。実際、上で例に使った「目に花をぶっ刺しているヒロイン」は別に生成AI用にわざわざ考えたものではなく、生成AIが存在しない時代に生み出された段階で既に目に花をぶっ刺していました。

 

事例② 生成AIに合わせて創作の方を変える

こちらは使用段階における事例です。

AI出力の不整合を帳消しにする方法として、やはり逆転の発想で「創作に合わせたAI出力が出るまで頑張る」ではなく、「AI出力に合わせて創作の方を変更してしまう」ことが考えられます。

例えばこの挿絵は主人公が首吊り死体を発見するシーンで、当初はソファーに座って死体を見上げる想定だったのですが、一番綺麗に出たAIイラストではパイプ椅子に座っていたので文章の方を書き換えてパイプ椅子に座っていることにしました。これで文章とAI生成イラストが完全に符号して全てが丸く収まります。

説明してしまえばかなり安直で簡単な対応に聞こえるかもしれませんが、実は作業としてはそれなりに難しいです。あらかじめ自分の中で「ここは曲げてもいい、ここは曲げられない」という許容ラインを持っておいて、常に妥協する選択肢を念頭に置きながら生成を繰り返す動的な判断力が必要になるためです。
具体的には、「ソファーに足を投げ出して死体を見つめる」という文章しか手元に無い段階で、とりあえずは「ソファーに座っているキャラ」を目指して生成を連打しつつ、途中でパイプ椅子に座っているイラストが出力されたのを見てから「これよく考えたらソファーにはこだわりないし別にパイプ椅子でもいいな→たぶん生成連打し続けてソファー出るのを待つより文章を書き換えた方が早いからそうしよう」と判断することになります。
またこの変更による影響範囲も考慮する必要もあり、今後の展開で「ソファーに座っていること」がキーになっていないかという文章サイドの整合性や、他に直す箇所が発生するならその修正工数も意識しておく必要があります。

 

事例③ 整合していない出力を誤魔化して使う

これも使用段階における事例の紹介です。

これは巫女の新キャラ登場シーンですが、AIイラストを状況説明の前に置くか後に置くかの二択があります。ソシャゲのイベントスチルとかだったら先に新キャラのイラストをバーンと出してテキストを見せるという順序の方が良いのですが、生成AIイラストの場合は「状況説明→AIイラスト」の順番に置くのが丸いと思います。

理由は「新情報は信頼できる情報であるべきだから」です。
一般的に言って、ユーザーが情報に目を通していく際、未知の新情報には注意を払う一方で、内容が重複する情報は補足的なものとして流し見することが想定されます。つまり先に置かれた情報が注意して見る情報、後に置かれた情報がその補足という順序になります。
この際、AIイラストは不整合が含まれうるのであまり信頼できない一方、状況説明の方は全て人力で書いているので100%信頼できる情報です。AIイラストを先に置いてしまうとAIイラストの方が主で状況説明が副と見做される可能性が高いですが、状況説明を先に置くことでそちらを主でAIイラストを副として提示できます。

提示順序以外の局面においても、AIイラストは説明ではなく補足として使い、新情報と見做される場所には置かないことによって不整合による混乱をある程度は軽減できるはずです。

 

質疑応答

会場の質疑応答(と懇親会)で議論した内容を二点紹介します。

 

創作の妥協ラインはどのように作っていくのか?

妥協ラインの設定自体はもう完全にケースバイケースで作者の決定に依存します(が、途中でブレないように最初にはっきり決めておいた方がいいです)。

僕の場合は既に小説を最後まで30万字書き上げており、そこに一から生成AIで挿絵を付けていくという順序でした。よって今から中身を大規模に書き換えることはできないので、書き換えは大勢に影響のない小規模なものだけとして、難しい場合は不整合を許容する方針です。
一方、文章を書くのと並行して挿絵を生成する場合、完全に挿絵と合致するように展開を変えるのも全然アリだと思います。文章生成AIとは異なる形でAIのガイドを受けながら話を進めていくことになります。

また、事前の準備なども創作のコンセプトに応じて容易な場合と困難な場合があります。例えば上で紹介した「キャラデザに安定生成可能な強い記号を付加する」という戦略についても、やりやすい創作とそうでない創作が明確にあります。
僕は「異常者の萌えキャラを作る」という強いこだわりがあって、「可愛い女の子だけど蛆が沸いたものしか食べない」「可愛い女の子だけど意味もなく子猫を殺しがち」「可愛い女の子だけど目に花を活ける趣味で失明している」みたいな強い設定を絶対に付けるので、キャラデザについてもパンチの強いファンタジックな外見を付与しやすいです。
その一方、例えばファンタジー要素がなくリアリティラインが高い学園もので髪を黒髪や茶髪程度に抑えたい場合は髪色で区別することは難しくなるでしょう。もちろんアイデア次第ではあって、キーホルダーや髪留めをimage to imageや透過合成で付与するなり、必ず動物とかとセットで描写するなりでどうにかすることはできますが、企画段階での設計の難易度が高くなります(行き当たりばったりではどうにもならない)。

 

チームでの創作においてはどのように対応すべきか?

一人で作っている趣味の創作なら自分で全てを把握できており責任も全て自分なので妥協判断が容易ですが、チームで創作する作品の場合は一転して膨大な困難が伴うことが予想されます。

例えば小説の挿絵生成がライターとAIデザイナーの分業体制である場合、「ソファーをパイプ椅子に書き換える」というだけの妥協判断でもかなりしんどいものになります。主人公がソファーに座っている文章をライターがAIデザイナーに渡したあと、それにイラストを付けているAIデザイナーが「ソファーよりパイプ椅子の方が綺麗に出たからパイプ椅子でよくね?」と思ったとして、「パイプ椅子でよくね?」とライターに伝えるのがまずコストですし、ライター側も今後の展開を考慮してOKかNGかを判断しつつ実際に出たイラストをチェックして修正し、AIデザイナーに送り返して再確認するというだけでそこそこの工数を消費します(1人なら5秒で判断して30秒で書き換えられますが、2人になった瞬間に30分くらいはかかる作業になるはずです)。

また作業が手間であるだけではなく、プライドや権限の問題もあります。
本来であればライターは自分の書いた文章に完全な責任と権限を持っているはずですが、生成AIが絡んでくるといちいち「これうどんじゃなくてラーメンでいい?」「これ綾鷹じゃなくてウォッカでいい?」「これスマホじゃなくてウンチでいい?」とか言われて他人の都合で自分の文章が書き換えられ続ける状態は精神的にもあまり良くなく、最悪の場合は「いやそこはスマホ描けよお前の仕事だろ!」「何度やっても出ないから聞いてるんだろうが!」という喧嘩に発展しかねません。
また、AIデザイナー側からも「目的のイラストが出るまで生成を繰り返すのとライターが文章を修正するのはどちらが早いか」を客観的に判断して説明するのはほぼ不可能です。生成AIは「何が出るのか正確には誰にもわからない」という厄介な性質を持つためです。

総じて文章やイラストのFIX権限がお互いに食い合うような状態になるため、チームで行う場合は誰がどう調停して最終的な責任を持つのかという作業フロー設計はマストでしょう。空気がギスギスすることを避けて工数を膨らませずにチームで生成AIを活用するには「妥協方針を緩く定めたマニュアルを作っておく」「ライターにも生成AIを使ってもらって温度感を把握してもらう」「ある程度はライター自身がAI生成も行う創作体制にする」「ライター側がテキストに許容ラインを添えておく」など色々な配慮を行う必要があります。

補足437:工数や予算に余裕があれば加筆修正能力を持つイラストレーターを雇って生成AI出力の修正対応を任せる選択肢も検討すべきです。

 

懇親会

LT会の後には会場近くのHUBで懇親会を行いました。僕は知り合いは基本いなくて全員初対面だと思っていたのですが、人生のどこかで関係していた人がかなり多くて世界の狭さを感じました。

数年前からLWのサイゼリヤを読んで頂いている古参読者に遭遇したり、mimicの開発者と遠い昔に研究室で一緒に徹夜してGetting Over Itを遊んでいたことが判明したり、AI BunChoの開発者と遠い昔に代々木のアニメ会社の近くで一緒に飯食ってたことが判明したり、人生の伏線回収が捗る良い夜でした。

LWのサイゼリヤは大人気サービスのmimicとAI BunChoを応援しています。

illustmimic.com

bun-cho.work