Gemini Advanceのマルチモーダル機能で何ができるのか？

公開日：2024年3月8日　更新日：2024年4月12日

gemini advanceのマルチモーダル機能を使っていろんなことができないか試しています。最近、AIについて思うのは、一見優秀に見えるのですが、駄目なところも結構あるよねってところです。

と、ここ最近で一気にAIの話題をかっさらったマルチモーダル機能とはなんなんでしょうか？

テキスト・画像・動画・音楽・コードといった、複数のモード間でのやり取りに対応しており、より複雑なタスクをこなせるように設計されています。

この説明文だとちょっと意味が分からないな。

例えば、テキストを音声にしたり、動画をテキストにすることができると考えると分かりやすいかもしれません。

youtubeの動画の音声が一瞬で文字起こししてくれるのも、マルチモーダル機能の一種なんでしょうか。当時は感動すら覚えました。動画を見なくても、内容が分かっちゃうわけですから。

こういった機能は今の人手不足を考えると、どんどん人からAIに置き換えていくことは容易に想像できます。

マルチモーダル機能？

と、投げ出させずに何ができるのか調べてみました。

画像から文字起こしさせる

これが一番やってみたかったことの一つです。

本を撮影してgemini advanceに読み込ませ文字起こししてもらう。その文章を音声の読み上げ機能使って音読してもらえば、音声学習にも役立つ。と、思っていたのですが、、、

残念ながら今の段階では、画像の認識の精度があまり良くありませんでした。認識できないときはAIが勝手に解釈を入れてきたり要約してきたりするので、最後にその情報が正しいのかファクトチェックしなければいけません。今このやり方は少し効率が悪いですね。

しかし、これが撮影されたものではなくて、PDFファイルスクリーンショットしたものであれば、一字一句間違うことなく文字起こしすることができるようです。

数か月後にはAIの進化で数十ページもある参考書をカメラで撮影し、そこからさまざまな問題を出してきたりすることができるようになるでしょう。

これ使えば、参考書の内容を音声学習できるんじゃないか？昼休憩の余った時間で勉強してるんだよ。

文字起こしの精度がまだ悪いので、それはもう少し後でしょうね。文字起こしの精度が高くなった後は、声でできるショートカット機能をもっと充実させて欲しいです。

精度が高くないですが画像を読み込ませて、その場所を答えることができるようです。

ただこれがくせ者で堂々と答えてくるわりには、結構間違います。

実際に試してみた際の動画がこちら

今の段階では仕事に活用するのはまだちょっと早いかなという感じです。ただ今後いろいろな使い道ができそうです。例えば、

Googleはストリートビューを活用することができるので、実現は早いかもしれませんね。

凄いんだけど、怖い機能でもあるな。何気にSNSに出した写真から場所が特定され、家まで特定されなんてことが起こるかもしれないな。

家までとなるとgoogleはさすが規制してくると思います。ただ、店を構えてる人などは、この機能で様々な恩恵を受けることができます。

人物の画像をアップロードし、その人物の名前を教えてくださいと、質問してみたところ、今の段階ではできないと回答されました。しかし同じ質問を繰り返してみたところ、人物は間違っているのですが回答してきました。

ここら辺がまだAIの曖昧な部分でもあります。ただ回答はしているので、今後画像から人物を特定することは不可能ではないということがわかります。

自分で言っていてちょっと怖いんですが、例えば画像を読み込ませることで過去の犯罪歴が分かったり、どのような資格を取得しているのかわかるようになる時代も来るかもしれません。

今のところ画像生成に関しては、gemini advanceよりもmid journyの方が性能は上という話も結構出回っています。しかし、実際にやってみるとかなり凄いです。

プロンプトに「猫と龍を合成した画像を作ってください」と、英文でお願いしてみました。（日本語では対応しないようです）できあがった画像が以下です。

AIが文章の解釈から数パターン用意してくれているのが分かります。

これを生成するのに、1分かからないくらい。凄いのは間違いないですが、この生成された画像を見てユーザーが果たしてどう思うのか？感動や笑いを生み出すことができるのか？ここら辺はまだまだ向上の余地ありという感じです。

結論から言うとgemini advanceのマルチモーダル機能は、今の段階では精度が高くない、正確性に欠けるといえると思います。 しかしこれは2024年3月時点の話です。半年も経てば、予想をはるかに上回る機能になっていることでしょう。

前のバージョンでは、 画像から場所を特定したり、人物を特定したりすることはできませんでした。それが、今はできるようになっているわけですから。

さてこのマルチモーダル機能は、僕のような凡人には思いつかないスピードで、すでに企業では続々と活用しているところも多いようです。

介護、そして医療にまで。

AIが介護時の話し相手になってくれたり、AIがオペをする。

このマルチモーダル機能が仕事に対する考え方を根本からひっくり返していきそうです。