2023年12月08日

堀川茉莉絵

ついに発表！「 Gemini 」登場で、Google のAI 技術はどう変わる？

米Google（グーグル）は米国時間2023年12月6日、Google I/O で予告した次世代AI（人工知能）モデル「 Gemini 」（ジェミニ）を発表しました。
※執筆段階2023年12月の情報です。
※ジェミナイではなく、ジェミニが正式な読み方のようです。

Gemini （ジェミニ）とは？

Gemini は、最先端のマルチモーダル生成 AI モデルで、テキスト、画像、音声、動画、コードなど、複数のデータタイプを理解し、それらを組み合わせて操作できる能力を持っています。
従来の生成 AI モデルは、テキストや画像などの単一のデータタイプを扱うのが一般的でした。そのため、複数のデータタイプを組み合わせて処理する必要がある複雑なタスクには対応できませんでした。
Gemini は、これらの課題を克服するために、最初からマルチモーダルに対応するように設計されています。また、膨大な量のマルチモーダルデータを学習することで、複数のデータタイプを組み合わせて処理する能力を高めています。
Gemini の登場により、生成 AI はこれまで以上に幅広い用途で活用できるようになると期待されています。例えば、

テキストと画像を組み合わせて、映画やアニメのストーリーボードを作成したり、
音声とテキストを組み合わせて、会話型 AI の回答を生成したり、
画像とコードを組み合わせて、新しいソフトウェアのデザインをしたり、

といったことが可能になります。

Gemini の3つのモデル

Gemini 1.0は「 Ultra 」「 Pro 」「 Nano 」の3つのサイズで提供されます。
「 Pro 」は、同日から生成AIボット「 Bard 」の英語版に搭載されます。
「 Nano 」は、同社のハイエンドAndroidスマートフォン「Pixel 8 Pro」に搭載されます。
Pixel 8 Proでは、「レコーダー」アプリの要約強化や、「 Gboard 」のスマートリプライに展開される予定です。ただし、日本語対応は未定です。

ついに発表！「 Gemini 」登場で、Google のAI 技術はどう変わる？

「 Ultra 」は、最大サイズで高度なAIです。現在はさらなる改良を進めており、2024年に開発者や企業向けに公開する予定です。また、2024年には Gemini Ultra で稼働する「 Bard Advanced 」もリリースする予定です。

Google DeepMind のデミス・ハサビスCEOは、公式ブログで、Gemini を「マルチモーダルとしてゼロから構築」し、「テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができる」と語りました。

また、 Gemini Ultra は、32のベンチマークのうち30で、競合する米OpenAIのGPT-4よりも性能で上回ったと発表しました。

さらに、数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせて知識と問題解決能力をテストするMMLU（大規模マルチタスク言語理解）では、90.00％のスコアで、人間の専門家を上回るパフォーマンスを示した初のモデルになったと主張しています。

ついに発表！「 Gemini 」登場で、Google のAI 技術はどう変わる？

Gemini の特徴

Gemini （ジェミニ）の特徴は、以下の3つです。

洗練された推論能力

Gemini は、大量のデータの中で判別が難しい情報を抜き取るなど、複雑なテキストや視覚情報を理解することができます。この能力は、科学や金融などのデジタルデータが使用される業界において、特に大きなインパクトを与えるだろうと期待されています。

マルチモーダル性

Gemini は、テキスト、画像、音声などを同時に理解できます。そのため、数学や物理学などの複雑な内容であっても細かいニュアンスを読み取り、難しい問題や質問にも対応することができます。

コーディング能力

Gemini は、Python、Java、C++、Goなどのプログラミング言語でコードの説明や理解、生成することができます。また、 Gemini Ultra は、HumanEvalを含む多くのコーディングベンチマークで高い性能を示しています。

Gemini のパフォーマンス

Google は、Gemini モデルを厳密にテストし、さまざまなタスクにおけるそのパフォーマンスを評価しました。自然な画像、音声、動画の理解から数学的推論まで、Gemini Ultra は、大規模言語モデル (LLM) の研究開発で使用される 32 の広く使用されている学術ベンチマークのうち 30 において、現在の最先端の結果を上回っています。

Gemini Ultra は、90.0% のスコアを獲得し、数学、物理学、歴史、法律、医学、倫理など、57 の科目の組み合わせを使用して両方の知識と問題解決能力をテストする MMLU (大規模マルチタスク言語理解) で、人間の専門家を上回るパフォーマンスを示した最初のモデルです。

MMLU に対する新しいベンチマークアプローチにより、Gemini は、推論機能を使用して、難しい質問に答える前により慎重に考えることができるようになりました。これにより、第一印象のみを使用する場合よりも大幅な改善が実現されています。

ついに発表！「 Gemini 」登場で、Google のAI 技術はどう変わる？

Gemini Ultra は、意図的な推論が必要な様々な領域をカバーするマルチモーダルタスクの新たなMMMUベンチマークでも、最高のスコアである59.4％を達成しました。

Gemini Ultra は、画像からテキストを抽出して処理するためのオブジェクト文字認識（OCR）システムの支援を必要とせず、以前の最先端モデルを上回りました。
これらのベンチマークは、Gemini の多面性を強調し、Gemini の複雑な推論能力の初期の兆候を示しています。
詳細については、Gemini 技術レポートをご覧ください。

ついに発表！「 Gemini 」登場で、Google のAI 技術はどう変わる？

Gemini の安全性と倫理への取り組み

Gemini （ジェミニ）の安全性の取り組み：https://deepmind.google/technologies/gemini/#safety

Gemini の安全性については、以下の3つのポイントが挙げられます。

開発段階での安全性対策

Gemini の開発では、AIの安全性と倫理への取り組みを重視し、以下の対策が講じられています。

開発の各段階で潜在的なリスクを検討し、テストおよび軽減する
Gemini の多様なマルチモーダル能力を考慮した新たな保護措置を追加する

包括的な安全評価

Gemini は、Google のAIモデルの中でも最も包括的な安全評価を受けています。具体的には、以下の評価が行われています。

偏見や毒性に関する評価
サイバーオフェンス、説得、自律性などの潜在的なリスク領域に関する研究
Google Research の最先端の敵対的テスト技術によるテスト

レッドチームテストなど

Gemini Ultra は、信頼できる外部機関によるレッドチームテスト（敵対的環境でのテスト）を含む広範な信頼性と安全性のチェックを完了しています。また、ユーザーからのフィードバックに基づいた微調整と強化学習（RLHF）を使用して、モデルをさらに洗練させる作業が進行中です。

これらの対策により、Gemini の安全性は、Google のAIモデルの中で最も高い水準にあると評価されています。

Gemini を使うには？

Google Bard で利用する

Gemini （ジェミニ）は、 Google の Bard に搭載されています。そのため、 Google Bard を使ってGemini を利用することができます。

Pixel 8 Proで利用する

Gemini のモバイルデバイス向けバージョンである Gemini Nano は、Android端末上でネイティブかつオフラインで実行可能です。
Pixel 8 Proでは、以下の機能で Gemini Nano を利用することができます。

レコーダーアプリにおける自動要約機能
Gboard キーボードのスマートリプライ機能

Android AICore で開発する

ndroid 開発者は、Gemini Nano を、Android 14 に新しく追加されるシステム機能であるAICore を介して利用できるようになります。
Android AICoreについて：https://developer.android.com/ml/aicore

その他の Google 製品で利用する

Gemini は、検索や Google 広告、 Bard 、 Chrome 、 Duet AI など、その他の Google 製品にも搭載される予定です。
具体的な利用方法はまだ発表されていませんが、 Gemini の能力を活かした新たな機能やサービスが提供されると考えられます。

現在は、 Google Bard で英語のみで利用可能となっていますが、今後はマルチモーダルや多言語に対応していく予定です。

Gemini が切り開く未来

Gemini （ジェミニ）は、AI技術の未来に大きな影響を与えると期待されています。その多様な応用能力と先進的なマルチモーダル機能により、 Gemini は科学、テクノロジー、ビジネス、社会の多くの面で新たな可能性を開きます。

科学

Gemini は、自然科学、工学、医学などの分野で、研究や開発を加速させる可能性があります。例えば、Gemini は、大量のデータを分析して新たなパターンや規則性を発見したり、複雑な問題を解いて新しい発見をしたりすることができます。また、Gemini は、医療画像の解析や新薬の開発など、医療分野での応用も期待されています。

テクノロジー

Gemini は、AI技術の進化を加速させ、よりスマートな製品やサービスの開発を可能にします。例えば、Gemini は、自然言語処理や画像認識などの技術を向上させ、より自然で直感的なユーザーインターフェースを実現したり、より精度の高い画像認識や翻訳を可能にしたりすることができます。また、Gemini は、ロボットや自動運転車などの開発にも応用される可能性があります。

ビジネス

Gemini は、ビジネスの効率化や新たなビジネスモデルの創出を支援します。例えば、Gemini は、顧客のニーズをより深く理解したり、マーケティングやセールスの効率を向上させたりすることができます。また、Gemini は、カスタマーサービスやコールセンターなどの業務の自動化にも応用される可能性があります。