<aside> <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/225ea7f2-f3dc-4889-89d9-4c24b595da44/9435dff1-e06a-4df0-9b90-ff14b1a4496a/mitsua_happy.jpg" alt="https://prod-files-secure.s3.us-west-2.amazonaws.com/225ea7f2-f3dc-4889-89d9-4c24b595da44/9435dff1-e06a-4df0-9b90-ff14b1a4496a/mitsua_happy.jpg" width="40px" /> 現在、学習済OpenCLIP不使用の新モデル「Mitsua Likes」の学習プロジェクトが進行中です。詳細は以下のリンクからご確認ください。(2023/11/27追記)

“Mitsua Likes”- 絵藍ミツア 新モデル学習プロジェクト始動!(2023/11/27)

</aside>

AI VTuber絵藍ミツア(以下、ミツアちゃん)の応援をいただき、ありがとうございます。

現在公開中の画像生成AIのベースモデル「Mitsua Diffusion One」及び、ミツアちゃんのSNS活動に使用している「Mitsua Diffusion Step3」につきまして、CLIP Text Encoderの部分に「OpenCLIP」を使用していることの説明が不十分であるとのご意見をいただきました。当プロジェクトでは本件を重く受け止め、周知が不足していたことを深くお詫び申し上げると共に、改善のきっかけを与えていただきましたことを心より感謝いたします。

ミツアちゃんの画像生成AIは、公式WebサイトやX(Twitter)で「ゼロから倫理的に学習」「権利的にクリーンなデータのみを使用してフルスクラッチで学習」と説明されています。当プロジェクトといたしましては、そのこととOpenCLIPを使用していることは両立すると考えており、それゆえに特段の配慮や説明が必要であると気づくことができませんでした。

OpenCLIPを使用していることは、モデルカードでリリース当初から公開しており、情報を隠す意図はございませんでしたが、積極的な周知をしていなかったためにその事実を知らずに学習に参加していただく方もいらっしゃいました。OpenCLIPを使用していると知っていれば学習に参加しなかった、ミツアちゃんを応援しなかったという方もいらっしゃるでしょう。画像生成AIについて様々なご意見やお立場がある中で、十分な判断材料を示すことができなかったのは当プロジェクトの落ち度であり、反省いたしております。

つきましては、順次公式Webサイト上の説明の改善を行ってまいります。今後とも、分かりにくいところがございましたらご意見をお寄せいただければ幸いです。

<aside> 💡 本記事は、技術及び法律面でそれぞれ外部の専門家に監修をしていただいています。

</aside>

<aside> 👤 法律監修:水野祐 弁護士(シティライツ法律事務所)

</aside>

<aside> 👤 技術監修:牛久祥孝 博士(合同会社ナインブルズ)

</aside>

<aside> 💡 本記事では**「表現」という言葉が頻出します。本説明文中で表される「表現」は著作権法上「類似性がある」と見なされるのに必要な表現(=他人の著作物の「表現上の本質的な特徴」)**のことを含んだ上で、それよりも広い範囲で表現という言葉を使用しています。

具体的には、構図・色合い・形状・テクスチャ等であり、特徴的な画風といった著作権では必ずしも保護されなくても「人間の目で見てわかるもの」「真似をしたら元権利者に迷惑が及ぶもの」まで含みます

※機械学習の文脈で使用されるベクトルなどを指して言う「表現」という意味では使用していませんのでご注意をお願いいたします。

</aside>

<aside> 📖 目次

</aside>

1. Stable Diffusionの簡単な説明とMitsua Diffusion Oneの構成

<aside> 💡 本章における説明は技術的な知識があまりない方でもできるかぎり理解が進むように、かみ砕いて説明しています。技術的に正確な説明は次章以降の説明をご参照ください。

</aside>

Mitsua Diffusion Oneは、Stable Diffusion v2.1と同一のモデル構造をとっています。

image13.png

そして、Stable Diffusion型の画像生成AIは、大別すると次の3つの部分に分けられます。