東屋書店

一つのブログは一冊の本である

広告

文字だけで画像生成AIの内部構造を説明する

前提

文字だけで画像生成AIの内部構造を説明する
A4の紙をお渡しするのでこれに写真みたいな犬の絵を書いてくださいと言ったら、無理そう、でもA4に印刷した犬の写真をお渡しするので、鉛筆と定規で小さい正方形を適当な場所に1個ずつ書いてくださいと言ったらできそうに感じる

 

実はこれパソコンも同じ

 

意味のない画像から意味のある画像にするのはかなり大変で、意味のある画像に正方形(ノイズ)を加えて意味のない画像にしていくのは結構簡単。


わかりやすい例でいうと、ニュース映像にモザイクかけるのはすぐできるけど、モザイクを外すのは難しいみたいな感じ

 

話を戻して犬の写真に100個正方形を描いたとします。ここで、100番目と99番目に書いた正方形を消すことはできそう。


では、50番目まで順番に消してくださいと言ったら、書いた順番表みたいなのがあれば人間でもできる。例えばこれが1万個の正方形でもたまに行とか読み間違えて消すことあるだろうけどなんとか行けるかなとなる

 

実はこれもパソコンとおなじで、最初にノイズをかけた順番、(厳密には時刻で管理してるんですが)加えたノイズを逆順で除去していくことが可能です。とはいえ、人間と同じように消しミスをするので、順番にかけたノイズと、逆順で取り除いたノイズのミスを最小になるように学習しています。

 

そうすると、最初に入力した画像Aにノイズをかけた後、ノイズを除去して入力画像と同じA'の画像が出力される仕組みが出来上がります。

 

これが、Diffusionモデル、拡散モデルと呼ばれるざっくりとした仕組みです。

 

問題

ただこれには、2つ大きな問題があって、まずそもそもの問題として解像度の高い画像をそのまま処理していると処理に時間がかかって全く実用的じゃない。
もう一つが、拡散モデルは画像を入力したら限りなく近い画像を出力するただの画像出し入れマシンで何の役にも立ちません。
この二つを解決します


この解決に潜在空間と潜在変数と呼ばれるものが出てくるんですが、しっかり説明しようとすると訳が分からなくなるので、わかりやすさ重視の超訳で説明すると、物事の概念を数値化して、概念のみで処理してしまえば二つの問題が一気に解決するんじゃないか。ということです。

例えば犬と言っても、チワワやダックスフンド、パグ、ラブラドールレトリバーと様々な品種があり姿かたちが全く違いますが、私たちは犬といえば伝わりますよね。
なぜなら犬には四足歩行やしっぽ、体毛、顔つき、体格などいくつかの共通する要素があって、それらの要素の関係性を見て犬とするからです

逆に猫は犬と似たような要素を持ちますが、それぞれの要素の関係性は犬と違うため犬と猫を明確に区別しています。この関係性を潜在変数として数値化し、その潜在変数を記録する場所を潜在空間と呼ぶそうです。
(わかりやすさ重視です)

もし、画像をこの潜在変数に置き換えることが出来たら、画像に存在する大量の要素ではなくて要素ごとの関係性のみを取り扱うことができるので計算量が非常に小さくでき、ざっくり1/64とか1/48とかになるらしいです。これで、処理速度の問題については一応解決できたといえます。(ほかにも高速化手法を使っていますが、その辺は割愛)

では、もう一つの問題である、画像出し入れマシンの問題点はなんでしょうか?
入力した画像を限りなく近い画像に出すことしかできないことですよね。
では、画像を文字に置き換えて入力出来たらどうなるでしょうか?

先ほど犬の話をしましたが、単語の犬と画像の犬は表現方法が違うのに同一の概念を指すことができます。
潜在変数は要素の関係性を数値化するといいました。

ということは、単語の犬と画像の犬は潜在変数が似ていると言えそうです。

 

もし二つの異なる表現を潜在変数で取り扱えたら便利そうですよね!!!

この試みはOpenAIが作ったCLIPと呼ばれる学習手法で実現しています。
これらを踏まえて、先ほどの画像出し入れマシンに何をさせるかというと(わかりやすさ重視で表現します)

まずランダムノイズ画像を作成し、マシンに渡してノイズ除去させます。でもマシンが画像を何も入力されてない!というので、単語を潜在変数に置き換えて単語を画像入力であるとマシンに誤認させます。

そうするとマシンが画像に偽装した単語に限りなく近い画像を出してくるわけなんですが、そもそも画像を入力してないので、単語から画像が生まれたように見える。という話です。

この方式の興味深いことは潜在変数に置き換えられればなんでも入力可能というところで、可能性が無限大だー!!というところで今回は締めです。

文字だけでも十分伝わりますね!!!(迫真)

マルチ商法の勧誘にあった:人生3回目

先日、20代のころに働いていた職場の先輩から急に連絡があり会いに行った。

とはいえ、長期で連絡とってない人からの誘いは高確率でマルチ商法や何かしらかの営業の勧誘であると過去の経験からわかっている。その辺は留意しつつ単純に顔を見たいだけのノリで会うことにした。

マルチ商法

久しぶりに会った先輩は髪型以外はほぼ変わらず、思い出話に花を咲かせたが、終盤になるにつれてお金の不安やら何かの話を自身の家庭事情ともに話し始め、「なるほど、このルートで行くのね」と妙に達観した観察者のような気分で話を聞いていた。

最終的に紹介したい人がいるということで後日の約束を取り付けられたが、この流れで出てくるのは99%マルチの勧誘者であるため、どうか1%を引いてくれと思いながら当日を迎えた。

 

当日、先輩から紹介された人は40~50代の男性で数社会社を持っているらしい。当然僕や先輩より年齢が上である。若年には年長を当てろとか言うマニュアルでもあるのか、マルチの勧誘員はおおむね年長かつプチ成功者である。

 

とりあえず雑談から始めるが、頭でっかちの自分は話を聞きながら、「これがアイスブレイクってやつかー、小笑いをいくつか交えつつ相手にも自分の話をさせるのは歴戦の猛者を思わせる、コミュ力がものをいう業界の社長だけあってその辺うまいなぁ」とやたら感心させられた。

 

アイスブレイクも終わりかと思ったのか、本題のマルチ勧誘に入り始めるが、残念ながら僕はアイスじゃなくてロックなのでまだカチカチなんだがなぁと思いつつもマルチの仕組みを説明される。

 

パンフレットとともに紹介された商品はざっくり言えば、医療保険+福利厚生の共済を契約してもらおうというもので加入することで様々なサービスが受けられるとのことだ。こうした一見まともそうな商品がマルチかどうか見分けるポイントとして、虎の威を借りる狐話法を用いてるか否かがある。

例えば、今回の医療保険を提供している元会社はいわゆるメガ損保と呼ばれるような有名企業が提携していると強調したり、有名新電力会社、ガス会社の特別プランに入れてインフラ面もカバーできる!とか、社長の集まりでこの話したら俺も入りたい!と言われたとか、この制度の運営者は1円ももらってないんですよ!こういう章を受章したんですよ!とか。

 

あの手この手で商品自体ではなくその商品外部の存在を引き合いに出して、信用ありますよ、有名企業ってなかなかコラボしてくれないんですよ、こういう人物が運営している組織ってすごくないですか。という虎の威を借りる狐のような話法を駆使してくるのだ。

別のマルチ勧誘の話で一番笑ったのが、この地区の管轄リーダーは某有名芸能人の元配偶者だから安心というフレーズだった。何が安心なのか全く不明だし、こんなことしてるから離婚されたんだろとしか思えなかった。

 

そしてマルチの本題に入り、この共済には通常会員とプレミア会員の2種類があり、プレミア会員は通常の倍の会費を払うことで共済勧誘の権利と勧誘ボーナスが入るというわけだ。

勧誘ボーナスについてはなかなか複雑な仕組みがあったが、設立から一回も摘発されたことがないと自信をもっていっていたので、摘発をかいくぐるための仕組みなんだろうなぁと理解した。

 

入金の仕組みも摘発回避のために自分ではなく子が100人単位で勧誘しないとまともな収入にならず、ここでいう子は先輩の下に入る自分である。なんで10年ぶりに会った俺がそんなに頑張らねばならんのだと首をひねる内容だ。

最後に殺し文句的な内容で話されたのが、このパンフレットと入金されている通帳を銀行に見せれば莫大なローンが組めるという話だった。

どうも、この配当源泉がどこからきているかを銀行が理解すればそうなるらしく、なぜならプレミア会員費の半額を配当プールとして利用しそれを仕組みに基づいて分配するから枯渇する心配がないとのことだった。

 

いや、それって下っ端があからさまな養分ですよね???通常会費とプレミア会費の差額になんの意味があるかと思ったら、養分費だったのか納得です。

話せば話すほど墓穴に入るし、冷静に聞けば誰でもわかるこれに入ってる先輩。。。

 

でもわからなくもない。もう一つマルチを見分けるポイントとして、話している最中に自分が不満に思っている内容を聞き出しくすぐり、人間の欲を増長させる話術がある。

お金がない、時間がない、かなえたい夢。これらを聞き出され、これなら叶いますという、手段の提示をされるわけだ。

 

ちなみにこの話術は人間の欲望に特攻があるため、ほとんどすべての人間にクリティカルヒットを食らわせていく。

対抗策としては、別に金はそこまでいらんし、時間も今のままで十分だし、叶えたい夢も特にないというスタンスを貫くしかないのですが、それでもガードを潜り抜けて帰り際にあるといいなぁと思わせるだけのパンチを残していきます。

 

ろくにガードもしなかったら脳みそ揺さぶられてKOになるしかないわけで、前日に家庭環境やら現状を聞くと手を出したくなる気持ちもわかるけど、かわいそうだなと思いながら席を立ったのでした。