ChatGPTって何ができるの?3モデル?4モデル?何が違うの?(後編)

ChatGPTって何ができるの?3モデル?4モデル?何が違うの?(後編)

  • AI活用
  • ChatGPT
  • OpenAI
  • 全業種

後編は具体的にGPT-4の最新モデルになってできるようになったことをご紹介します。

前編はこちら:https://cloud-expert.fsdg.co.jp/column/146/

主な性能向上の一覧

マルチモーダル機能

②精度の向上

③不適切コンテンツへの対応

④操作性の向上

⑤回答の正確さ

①マルチモーダル機能

画像など文字以外の複数のデータ形式に対応(デモ版のみ対応 2023年3月29日現在)

画像入力の例

玉子と小麦粉と牛乳の画像

Q:この材料で何を作ることができますか?

A:これらの材料で作れるものには、たくさんの選択肢があります! 次のような可能性があります。

– パンケーキかワッフル

– クレープス

– フレンチトースト

– オムレツまたはフリッタ

– キッシュ

– カスタードまたはプリン

– ケーキまたはカップケーキ

– マフィンまたはパン、クッキーまたはビスケット

このように画像の内容を読み取りその内容に準じて質問に回答をする機能です。
精度を極めればウォーリーを探せも一瞬で見つけてしまうのかもしれません。

②精度の向上

各GPTモデルに様々なテストを受けたさせた結果、下記のような得点となっております。

能力テストの結果の画像

上の表からわかるように、GPT-3モデルよりGPT-4モデルの方が全体的に点数が高い結果となっております。

英語で司法試験の模擬問題では上位の成績を出すと話題になりました。
日本語の司法試験の模擬においても遅かれ早かれ合格点に届く日がくるのではないでしょうか。

次はGPT-3モデルとGPT-4モデルのベンチマーク数値です。

ベンチマークの結果の画像

GPT-4の英語での数値は85.5%とGPT-3.5の70.1%よりも15%以上向上しています。

また、日本語でもGPT-4は79.9%と、GPT3.5の英語版よりも上回っています。

※MMLUは「Massive Multitask Language Understanding」の4文字の頭文字で言語モデルのマルチタスク性能を測定するために作られたベンチマークです。

不適切コンテンツへの対応

公序良俗などの規約(※)に反するコンテンツに対する対応が、前バージョンより約82%低下したとされております。

こちらはサービスレベルとして非常に重要で、以前Microsoft社が開発していたAIチャットボット「Tay」は上記に問題があったため公開を停止した背景があります。
※違法、暴力的、性的、差別的、詐欺的なコンテンツなど

④操作性の向上

  • Steerability (AIの振る舞いを指定する精度)が向上されました
  • 饒舌さ、口調、スタイルなど自由に設定した性格をリクエストして演じてもらうことができるようになりました。
  • 公開されたAPIを利用することで大幅にカスタマイズが可能になりました

上記の機能の応用してChatGPTを搭載した『AI Vtuver』が誕生したと昨今話題になっております。

回答の正確さ

最後は回答の正確さです。

社内の評価基準ではあるものの、最新のGPT-4は従来モデルより約40%高いスコアを獲得しているとのこで、回答の正確さが上がってきております。

回答の正確さをグラフにした画像

まとめ

今回は前編・後編に分割してChatGPTのバックグラウンドから最新モデル性能についてご紹介しました。

まだまだ改善の余地があるものの、凄まじい技術の進化だと思っております。

ChatGPTを活用したソリューションが日に日に増えていますので、日常的に目に触れる機会が多くなってくると思います。

次回はOpenAIのAIサービスとMicrosoftのAIサービスの違いについてご紹介します。
Azure OpenAI Serviceってなに?OpenAI社の生成AIとは何が違うの?

今回のコラムに関連のある資料

クラウドエキスパートサービス総合資料

クラウドエキスパートサービス総合資料

クラウドエキスパートサービスの総合資料です。 船井総研デジタルのクラウド開発の特徴やAIソリューション、そしてAzure OpenAI Serviceを用いた最新の開発事例をご確認いただけます。

CONTACT お問い合わせ

クラウドとAIのことなら船井総研デジタルまで
まずはお気軽にご相談ください