「Gemini」ってもう使える?何がすごいの?

「Gemini」ってもう使える?何がすごいの?

  • AOAI
  • ChatGPT
  • Gemini
  • google
  • 全業種
  • 生成AI

今回はGoogleの最新AIモデルである「Gemini」について紹介します。

(前の記事:何が違う?話題の「Microsoft Copilot Studio」と「GPTs」を比較してみた

Geminiの概要

「Gemini」は2023年5月に開発者会議「Google I/O」で発表されたGoogleの 大規模言語モデル「PaLM2」の後継モデルです。

2023年12月に改めて「Gemini」を発表した際には、ChatGPTでお馴染みのGPT-4モデルより高性能であると後述のベンチマークテスト結果を含めて公表しております。

2023年12月13日よりGoogle AI StudioまたはVertex AIのAPIを介して「Gemini Pro」にアクセスできるようになりました。

Geminiのイメージ画像

Geminiのモデル

Geminiは3種類のモデルが公開されています。

Gemini Nano

Pixel 8 Proで利用可能なスマホデバイス向けAIです。

主な特徴

  • 要約機能:会話やプレゼンの内容を要約する機能で、ネットワークに接続しなくても利用できます(英語のみ)
  • スマート返信:GBoard(キーボードアプリ)で素早く返事ができる機能です(英語かつWhatsAppアプリのみ)
  • Assistant with Bard:Googleアシスタントに生成AIサービスBardを統合した新機能を搭載する予定です(英語のみ)

Gemini Pro

いわゆるGeminiの標準的なモデルです。

主な特徴

  • 幅広いタスクに対応できる最適なモデルで、12月6日(米国時間)に「Google Bard」にGemini Proが搭載されました(英語のみ)
  • 言語理解、コンテンツ生成能力などで、ChatGPT 3.5を超えるテスト結果が出ているとのことです
  • 企業向けとしては「Vertex AI」、開発者向けとしては「AI Studio」を通じて提供しています

Gemini Ultra

Geminiのハイスペックモデルですが詳細は未発表です。

主な特徴

  • 非常に複雑なタスクに対応するGoogle社の最大かつ有能なモデルとされています
  • テキスト、画像を始めとするマルチモーダルテストではGPT-4を超えると発表しています
  • 本サービスは2024年中に「Bard Advanced」で利用できると予告していますが詳細はこれからです

※2024年1月時点

Geminiの特徴

次のGeminiに強み弱みについて触れます。

強み

① マルチモーダル対応
・テキスト、画像、音声、動画、コードなどをAIが理解し、生成もしくは操作できる
・Googleはマルチモーダルのために「ゼロから構築したモデル」と表現している

② オンデバイス対応
・スマートフォンに搭載してネットワーク環境がなくても利用ができる

③ 高いコーディング能力
・Python、Java、C++、Goなどのプログラミング言語でコードの説明や理解、生成することができる
・Gemini Ultraでコーディングのベンチマークでも高い評価を受けている
(問題解決率75%、人間のチェックおよび回答の訂正が入った場合は90%までアップ)

弱み

①学習データが最新ではない →2023年初までとなっている

②GPTモデルと同様にハルシネーションの問題は付いて回る

ベンチマークテスト

以下はGoogleが公表しているベンチマークテストの結果です。

ベンチマークテストの結果(一般的な推論と理解)
ベンチマークテストの結果(数学的推論)
ベンチマークテストの結果(コード生成)
ベンチマークテストの結果(画像の理解)
ベンチマークテストの結果(ビデオの理解)
ベンチマークテストの結果(オーディオの処理)

Googleからの発表ですが「Gemini UItra」は高いベンチマークを誇っています。

出典:Gemini vs GPT-4: Is Gemini better than GPT-4? – Bito
   Gemini vs PaLM 2: Which is Better? – Bito

Gemini Pro APIの料金

2024年1月現在は無料です。(1分あたり60リクエストまで)

有料版は下記の料金テーブルになります。
テキスト1k入力あたり:0.00025$
イメージ1画像入力あたり:0.0025$
テキスト1k出力あたり:0.00005$

無料で利用する際はGoogleの学習データに利用されますが、有料版は学習の対象外です。

Geminiの料金テーブル

Geminiを使ってみた

最後にマルチモーダルの検証としてイメージをインプットしてみました。

クオッカの画像

イメージをプロンプトにして入力した結果、きちんとイメージを認識して映っているクオッカに関する情報をアウトプットしてくれました。

Geminiのイメージ読み取り機能

英語の回答を翻訳した結果は以下の通りです。

クオッカは、西オーストラリア原産の小型の夜行性有袋類です。
小さな猫ほどの大きさで、長くてふさふさした尾と短くて密な被毛を持っています。
クオッカはフレンドリーで好奇心旺盛な性質で知られており、茂みやビーチで飛び跳ねている姿がよく見られます。
フォトジェニックでもあり、人気の観光スポットとなっています。

クオッカに関する興味深い事実をいくつかご紹介します。

  • クオッカは、島で見られる世界で唯一の有袋類です。
  • 彼らは西オーストラリアに生息する唯一の有袋類でもあります。
  • クオッカは草食動物で、主に葉や果実、花などを食べます。
  • 彼らは夜行性の動物であり、日中は空洞の丸太や茂みの下で寝て過ごします。
  • クオッカは非常に社交的な動物で、最大 100 匹の群れで生活します。
  • 好奇心旺盛な動物でもあり、人間に近づいてくる姿もよく見かけられます。
  • クオッカは絶滅危惧種ではありませんが、危急種とされています。

まとめ

今回はGoogleの技術的を駆使した最新鋭のAI「Gemini」について解説しました。

「Gemini」は先行するOpenAI並びにMicrosoftを追随するようにGoogleから発表されました。

軽く使ってみた所感としては ”使いやすい””ただしGPT最新モデルとの違いは差ほど感じない”という感覚なので、Google Workspaceをメインで活用している場合はシームレスに利用できるかと思います。

そして何といってもその 安さです。クラウドサービスとしてはあまりにも破格です。
ChatGPT Plusもそうですが、クラウドベンダーとしてはとにかく利用者を増やしたいという意図があるのかと思います。

2024年1月現在はAPIが無料で開放されているので、実際に使ってみて今のうちに慣れておくのが良いかもしれません。

次回は「Copilot」の有料版である「Copilot Pro」について紹介します。
無料版とは何が違うの?個人向けサポートAI「Copilot Pro」とは

今回のコラムに関連のある資料

SIer様・ベンダー様向けAzure OpenAI Service開発支援サービス

SIer様・ベンダー様向けAzure OpenAI Service開発支援サービス

Azure OpenAI Service開発支援サービスの紹介資料です。 AI業界の市場動向や主な課題、船井総研デジタルのAI開発の特徴や事例などがご確認いただけます。

CONTACT お問い合わせ

クラウドとAIのことなら船井総研デジタルまで
まずはお気軽にご相談ください