HEROZ Tech Blog

日本将棋連盟公認「将棋ウォーズ」や、AIを活用したシステム企画・開発を行う、AI企業HEROZの公式テックブログです。

HEROZ ASKのGPT-4o対応について

はじめに

当社では、ChatGPTのAPIを活用した「HEROZ ASK」というサービスを提供しています。この度、リリースされたばかりのGPT-4oに対応したことで、RAG(Retrieval-Augmented Generation)機能を大幅に強化しました。本記事では、GPT-4oの特徴や「HEROZ ASK」における具体的な活用方法、そして新しい機能がどのようにお客様の業務効率化に寄与するかについて解説します。

GPT-4oとは

GPT-4oは、OpenAIが開発した最新の言語モデルであり、従来のGPT-4に比べて以下の点で改良されています。

  • マルチモーダル: テキスト、音声、画像、動画の入力を受け付け、テキスト、音声、画像の出力を生成できる。
  • 高速: 音声入力に対して平均320ミリ秒で応答可能(テキストに対しても高速)。
  • コスト: GPT-4 Turboと同等の性能だが、APIでは50%安価で提供。
  • 多言語: 英語以外のテキスト処理能力が大幅に向上。新しいトークナイザーにより言語ファミリー間でトークン数を大幅に削減。
  • 視覚・聴覚理解の強化: 既存モデルと比べ、視覚と聴覚の理解力が特に優れている。
  • 安全性: トレーニングデータのフィルタリングやポストトレーニングにより、モダリティ間でセーフティが設計段階から組み込まれている。

HEROZ ASKでは、主にテキストを対象としてRAGの用途で使う場合が多いため、テキストの性能に焦点を当てて解説します。

テキストの性能

下記のグラフは、GPT-4oのテキストの性能を様々なベンチマークスコアで比較したものです。 GPT-4oが多くの評価項目において他のモデルよりも高いパフォーマンスを示しています。

https://openai.com/index/hello-gpt-4o/

日本語のRAGの性能

GPT-4oを日本語の文章に対してRAG用途で使用した場合に性能が向上するかを、具体的な例で確認してみます。 検証には、GPT-4oに対応したHEROZ ASKを使用します。

RAG(Retrieval-Augmented Generation)とは

RAGは、情報検索と生成モデルを組み合わせたアプローチです。 具体的には、

  1. 情報検索: 知識ベース(ベクトルデータベースなど)から関連情報を検索
  2. 生成: 検索された情報を基にテキストを生成

を組み合わせます。 これにより、言語モデルが学習していない最新の情報や企業の固有の情報を活用した応答生成が可能となります。

データソース

青空文庫から「走れメロス」をテキストとして保存して、HEROZ ASKのデータソースにアップロードを行います。 アップロードしたファイルは、設定に従ってチャンクに分割され、ベクトルデータベースに格納されます。

  • デフォルトのチャンク分割設定

  • アップロードされた状態

AIアシスタント作成

作成したデータソースを使用して、質問に回答するAIアシスタントを作成します。 AIアシスタントの作成は、プロジェクト作成から行います。 HEROZ ASKでは、チェインタイプを選択することで、AIアシスタントの振る舞いを変えることができます。 今回は、ドキュメント検索を選択します。 ドキュメント検索は、RAGの機能を実現します。 なお、独自のチェインを構築してAIアシスタントの振る舞いをカスタマイズすることも可能です。

  • プロジェクトの詳細

プロンプトはデフォルトで用意しているプロンプトを使用します。 Few-shot Learningで、ユーザの質問に対して、回答と、回答に使用したドキュメントを答えるようになっています。 プロンプトをカスタマイズすることも可能です。

モデルごとのRAGの性能確認

作成したAIアシスタントを使って、モデルを切り替えながら、質問に正確に答えられるか確認します。

質問文と想定回答文は、以下の通りです。

  • 質問文

「メロスは王に対して何を約束しましたか?」

  • 想定回答文

「メロスは王に対して、妹の結婚式を行うために三日間の猶予をもらい、その間に市に戻ってくることを約束しました。もし約束を破って戻ってこなかった場合、身代わりとして友人のセリヌンティウスを処刑しても構わないと誓いました。」

GPT-3.5

GPT-3.5の回答は以下の通りです。 間違った内容を回答しています。

GPT-4

GPT 4も同じように間違った回答をしています。

GPT-4o

GPT-4oの回答は以下の通りです。 想定通り回答できています。

まとめ

HEROZ ASKを使って、日本語の文章で、モデルごとのRAGの精度を比較しました。 この記事で記載したのは1つの例だけですが、GPT-3.5やGPT-4で間違って回答していた質問にも、GPT-4oを使うことで正しく回答できることが確認できました。 OpenAIの公表通り「英語以外のテキスト処理能力が大幅に向上」が確認できる結果となりました。

また、回答の生成の速度もGPT-4と比べて体感できるほど速くなっています。

GPT-4oの導入により、「HEROZ ASK」は日本語のRAG性能を大幅に向上させました。 これにより、お客様はより正確な情報検索と生成が可能となります。 今後も更なる改善を続け、皆様のビジネスに貢献できるよう努めてまいります。 ぜひ、新しいGPT-4oを使用して「HEROZ ASK」を活用してください。

herozask.ai