便利に活用することができるAIですが、さまざまな種類が登場してきています。
そんな中、あのGoogleが新しいAIモデルである「Gemini」を発表しました。
GPT-4の性能を越えると言われている「Gemini」とはどのようなものなのか、特徴や使い方などを紹介したいと思います。
Google「Gemini」とは?
アメリカ時間2023年12月6日に、Googleが新しいAIモデル「Gemini」を発表しました。英語での発音は「ジェミナイ」または「ジェミニー」となります。
Geminiは、Google DeepMindによって開発され、LaMDAやPaLM 2の後継モデルとして位置づけられています。このモデルは、NASAのプロジェクトジェミニにちなんで名付けられました。
「Gemini」は、初めからマルチモーダルに対応するように設計されているため、より高度に処理する能力を高めています。
※マルチモーダルとは、複数種類のデータを入力とし、統合的に処理する深層学習の手法のこと。
Google「Gemini」の特徴
マルチモーダルAI「Gemini」の持つ特徴について紹介していきます。
GPT-4を越える性能
まずはなんといってもこちらです。
OpenAI社のchatGPT、GPT-4よりも32のベンチマークのうち30で性能を上回ったということ。
さらに、MMLU(大規模マルチタスク言語理解)にて、人間の専門家を90.00%のスコアで上回るパフォーマンスを示しました。
※MMLUとは、数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせ知識と問題解決能力をテストするもの
マルチモーダルAI
先ほど説明したように、マルチモーダルAIとは、いろいろな種類の情報を一緒に考えることができる賢いコンピューターのことです。
例えば、写真や音、文章など、さまざまなものを同時に理解することができます。これによって、コンピューターは私たちの話や写真について、もっとよく理解することができるようになります。それによって、複雑な内容であっても瞬時に読み取り、適切な対応を返してくれます。
「Gemini」の凄さがわかる動画がYouTubeに公開されていますので紹介します。
3つのプラン
「Gemini」には、3つのプランがあります。
- ultra(ウルトラ)
- Pro(プロ)
- Nano((ナノ)
Nanoは、Pixel 8 Proに搭載され利用できるようになるとのこと。
真ん中でバランスの良いProは、Googleの生成AIであるBardに組み込まれます。
ultraは、非常に複雑なタスクに対応し、「Gemini Pro」は幅広いタスクにスケーリングするための最適なプランです。来年初めに開発者や企業に向けてリリースされるようです。
日本語版Bardには未対応
Google bardに組み込まれているGemini。
早速使ってみたいと考えるかと思いますが、現時点では日本語版Bardには対応していないようです。
日本語版のBardは、対応が遅れる傾向がありますので、日本語版Bardで利用するのはもう少し先になりそうです。
英語版でも使ってみたいという方は、Google Chromeのブラウザから、言語設定を英語に変更することで利用することが可能になります。
ぜひ試してみてください。
まとめ
Geminiは、テキストと画像の両方を処理できる、言語のニュアンスを理解できる、創造的なコンテンツを生成できるという特徴を備えた、次世代AIモデルです。
翻訳、チャットボット、コンテンツ生成など、幅広い分野で活用が期待されており、今後の技術の発展にも注目が集まっています。
まだ日本語版の展開はありませんが、待ちきれないという方は、ぜひ英語版のBardでGeminiを体験してみてください。