HEROZ Tech Blog

日本将棋連盟公認「将棋ウォーズ」や、AIを活用したシステム企画・開発を行う、AI企業HEROZの公式テックブログです。

Agentic RAGは本当に必要なのか? 〜RAGの社内実験と最新研究から考える

はじめに

2025年頃から「AIエージェント」というキーワードが急速に広まり、2026年に入ってからはその応用の一つである Agentic RAG も注目を集めています。

RAG (Retrieval-Augmented Generation) は、検索によって取得した文書を元にLLMが回答を生成するアーキテクチャで、エンタープライズ検索や社内ナレッジ検索などで広く利用されています。近年は、単純な検索+生成の構成から、ReRankingやSelf-RAGなど様々な改良手法が提案されており、RAGの設計も進化を続けています。

その延長線上にあるのが、LLMが検索やツール利用を動的に制御する Agentic RAG です。

従来のRAGは検索→回答生成という比較的シンプルなパイプラインですが、Agentic RAGではLLMが状況に応じて検索や推論を繰り返しながら回答を構築します。

RAGの種類

このような構造により、より複雑な問題に対応できる可能性がある一方で、

  • 本当に精度は向上するのか
  • 追加されるコストや複雑さに見合うのか

といった疑問もあります。

そこで今回は、社内でいくつかのRAG手法を比較する簡単な実験を行いました。また、2026年に発表された最新の研究論文も合わせて紹介し、Agentic RAGの現状を整理してみたいと思います。

Agentic RAGを試してみた

実験設定

まず、複数のRAGアーキテクチャを比較する簡単な実験を行いました。

実験は社内の実験プラットフォーム上に構築したRAG環境を用いて実施しました。評価には 弊社製品の関連文書から構成されたQA評価セット を使用しています。内容としては、製品ドキュメントを対象とした典型的なエンタープライズ検索に近いタスクです。

評価方法は LLM-as-judge による自動評価を採用しました。回答生成および評価には Claude 4.5 Sonnet を使用しています。

今回比較した手法は以下の5種類です。

Naive RAG

最もシンプルなRAGです。

検索で取得したチャンクをそのままコンテキストとしてLLMに渡し、回答を生成します。今回は検索結果の上位4チャンクを使用しました。

RAGのベースラインとして広く使われている構成です。

RAG + ReRanking

検索で取得したチャンクを 再ランキング (ReRanking) によって選別する構成です。

今回は

  1. 検索で10チャンク取得
  2. ReRankerで重要度を評価
  3. 上位4チャンクをLLMへ入力

という手順を採用しました。

RAGの精度改善手法として比較的よく使われる構成です。

ReAct

ReAct (Reasoning and Acting) は、LLMが推論とツール利用を交互に行うエージェント型のアプローチです。

RAGをツールとしてLLMに与え、必要に応じて検索を行いながら回答を生成します。

論文 https://arxiv.org/abs/2210.03629

Adaptive RAG

Adaptive RAGは、回答の信頼性を高めるために 複数段階の検索や検証を行うRAG構成です。

検索結果の確認や再検索を行いながら回答を生成するため、より複雑なワークフローになります。Agentic RAGの代表的な構成の一つとして研究されています。

論文 https://arxiv.org/abs/2403.14403

LangGraphの実装例 https://docs.langchain.com/oss/python/langgraph/agentic-rag

Deep Agent

LangChainで公開されている Deep Agent も比較対象として評価しました。ツールを利用しながら複数ステップの推論を行う、より汎用的なエージェント型アーキテクチャです。

https://github.com/langchain-ai/deepagents

実験結果

各手法の評価結果をまとめたものが次の表です。

Agentic RAGの実験結果

結果を見ると、評価スコアには大きな差は見られませんでした

一方で、Agentic RAGに分類される手法では

  • LLM呼び出し回数
  • トークン消費量
  • レイテンシ

が増加する傾向が見られました。

今回の設定では、Naive RAGやReRanking付きRAGでも十分に高い性能が得られるという結果になりました。

もちろんこの結果だけで一般的な結論を出すことはできませんが、少なくとも今回のようなエンタープライズ検索に近いタスクでは、Agentic RAGの明確な優位性は確認できませんでした。

論文紹介①

Is Agentic RAG worth it?

ちょうど実験を行っていたタイミングで、興味深い論文が公開されました。

Is Agentic RAG worth it? https://arxiv.org/abs/2601.07711

この論文では、従来のRAGとAgentic RAGを複数のタスクで比較し、その費用対効果を分析しています。

論文の主な結論は次の通りです。

  • Agentic RAGは推論能力自体は高い
  • しかし精度改善は限定的
  • 一方で 計算コストとレイテンシは増加する

その結果、実運用の観点では Enhanced RAG(ReRankingなどを組み合わせたRAG)でも十分な場合が多いと述べられています。

今回の社内実験の結果も、少なくとも方向性としてはこの論文の結果と一致するものでした。

論文紹介②

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

一方で、Agentic RAGの可能性を示す研究も発表されています。

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces https://arxiv.org/abs/2602.03442

この研究では、Agentic RAGが十分に性能を発揮できない原因の一つとして、検索インターフェースの設計を指摘しています。

従来のRAGでは、

  • 一度の検索で固定数のチャンクを取得する
  • その結果をそのままLLMに渡す

という比較的単純な構造になっています。

A-RAGではこれを拡張し、

  • キーワード検索
  • セマンティック検索
  • 文書単位の取得
  • チャンク単位の取得

といった複数の検索インターフェースをLLMに提供します。

これにより、LLMが状況に応じて検索戦略を選択できるようになり、より複雑な情報探索や multi-hop reasoning が可能になるとしています。

つまり、

  • 現在のAgentic RAGがうまく機能しないのは
  • アーキテクチャがまだ発展途上である可能性がある

という立場の研究と言えます。

おわりに

今回は、社内で行った簡単な比較実験と、2026年に公開された2本の論文を紹介しました。

今回の実験では、少なくともエンタープライズ検索に近いタスクにおいては、Agentic RAGの明確な優位性は確認できませんでした。一方で、研究コミュニティではAgentic RAGの改良に関する研究も活発に進んでいます。

Agentic RAGについては、研究や実装の方向性によって評価が変わる可能性もあり、まだ議論の続いているテーマと言えそうです。

今後の研究や実装の動向も追いながら、引き続き最良のサービスを提供できるよう、今後の研究や実装の動向も追っていきます。