<aside> <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/225ea7f2-f3dc-4889-89d9-4c24b595da44/9435dff1-e06a-4df0-9b90-ff14b1a4496a/mitsua_happy.jpg" alt="https://prod-files-secure.s3.us-west-2.amazonaws.com/225ea7f2-f3dc-4889-89d9-4c24b595da44/9435dff1-e06a-4df0-9b90-ff14b1a4496a/mitsua_happy.jpg" width="40px" /> 2024/12/17、学習済OpenCLIP不使用のオプトイン画像生成AI「Mitsua Likes」のモデルが公開されました！詳細は以下のリリースをご確認ください (2024/12/17)

基盤モデル不使用のオプトイン画像生成AI「Mitsua Likes」公開！Fairly Trained認定(学習データのライセンスを取得した生成AIを認証する米国の非営利団体による認定)を日本初取得！

※本記事は2023年に公開されたMitsua Diffusion One及びMitsua Diffusion Step3に関するものであり、2024年12月に公開されたMitsua Likesに関するものではありません。

</aside>

AI VTuber絵藍ミツア(以下、ミツアちゃん)の応援をいただき、ありがとうございます。

現在公開中の画像生成AIのベースモデル「Mitsua Diffusion One」及び、ミツアちゃんのSNS活動に使用している「Mitsua Diffusion Step3」につきまして、CLIP Text Encoderの部分に「OpenCLIP」を使用していることの説明が不十分であるとのご意見をいただきました。当プロジェクトでは本件を重く受け止め、周知が不足していたことを深くお詫び申し上げると共に、改善のきっかけを与えていただきましたことを心より感謝いたします。

ミツアちゃんの画像生成AIは、公式WebサイトやX(Twitter)で「ゼロから倫理的に学習」「権利的にクリーンなデータのみを使用してフルスクラッチで学習」と説明されています。当プロジェクトといたしましては、そのこととOpenCLIPを使用していることは両立すると考えており、それゆえに特段の配慮や説明が必要であると気づくことができませんでした。

OpenCLIPを使用していることは、モデルカードでリリース当初から公開しており、情報を隠す意図はございませんでしたが、積極的な周知をしていなかったためにその事実を知らずに学習に参加していただく方もいらっしゃいました。OpenCLIPを使用していると知っていれば学習に参加しなかった、ミツアちゃんを応援しなかったという方もいらっしゃるでしょう。画像生成AIについて様々なご意見やお立場がある中で、十分な判断材料を示すことができなかったのは当プロジェクトの落ち度であり、反省いたしております。

つきましては、順次公式Webサイト上の説明の改善を行ってまいります。今後とも、分かりにくいところがございましたらご意見をお寄せいただければ幸いです。

また本記事では、現在のMitsua Diffusion Oneの構成をStable Diffusion型画像生成AIの簡単な説明とともに整理してお伝えします。(1章)
次に、CLIP及びStable Diffusionの仕組みを解説し、実際の各種条件下での**実験結果や生成結果を交えて、**CLIP Text Encoderの役割をわかりやすく解説します。(2章)
さらに、事前学習済みOpenCLIPを用いた場合の法的及び倫理的解釈を提示します。(3章)
最後に、それらを踏まえた上での当プロジェクトの今後の方針について説明させていただきます。(4章)

<aside> 💡 本記事は、技術及び法律面でそれぞれ外部の専門家に監修をしていただいています。

</aside>

<aside> 👤 法律監修：水野祐弁護士（シティライツ法律事務所）

</aside>

<aside> 👤 技術監修：牛久祥孝博士（合同会社ナインブルズ）

</aside>

<aside> 💡 本記事では**「表現」という言葉が頻出します。本説明文中で表される「表現」は著作権法上「類似性がある」と見なされるのに必要な表現(=他人の著作物の「表現上の本質的な特徴」)**のことを含んだ上で、それよりも広い範囲で表現という言葉を使用しています。

具体的には、構図・色合い・形状・テクスチャ等であり、特徴的な画風といった著作権では必ずしも保護されなくても「人間の目で見てわかるもの」「真似をしたら元権利者に迷惑が及ぶもの」まで含みます。

※機械学習の文脈で使用されるベクトルなどを指して言う「表現」という意味では使用していませんのでご注意をお願いいたします。

</aside>

<aside> 📖 目次

</aside>

1. Stable Diffusionの簡単な説明とMitsua Diffusion Oneの構成

<aside> 💡 本章における説明は技術的な知識があまりない方でもできるかぎり理解が進むように、かみ砕いて説明しています。技術的に正確な説明は次章以降の説明をご参照ください。

</aside>

Mitsua Diffusion Oneは、Stable Diffusion v2.1と同一のモデル構造をとっています。

そして、Stable Diffusion型の画像生成AIは、大別すると次の3つの部分に分けられます。