HEROZ Tech Blog

日本将棋連盟公認「将棋ウォーズ」や、AIを活用したシステム企画・開発を行う、AI企業HEROZの公式テックブログです。

Vertex AIのEmbedding TuningはRAGを改善するのか?検索精度・汎用性・運用コストで検証してみた

Vertex AIのTune text embeddingsを使い、Kubernetesドキュメントと某損害保険会社の約款でEmbedding tuningがRAGの検索精度・最終回答品質に与える影響を検証しました。base比では改善する一方、Gemini Embeddings 2や推論リソース運用コストとの比較から、…

Multi Query Retrieverから2年後:テキストRAG改善のフェーズは変わったのか

2024年に効果が見られたMulti Query Retrieverから2年後、Enhanced RAGとAgentic RAGを日本語RAG評価データセットで再検証しました。関連研究も踏まえ、テキストRAG改善が「手法追加」から「失敗モード別対応」へ移っている可能性を考察します。

IoTゲートウェイの「設定リモート注入」で難航した記録

ハードウェア制約のあるIoTゲートウェイで「設定リモート注入」をどう設計したか — Greengrass を見送り、S3 + MQTT に着地するまでの判断軸 想定読者: AWS IoT を使ってエッジゲートウェイを組もうとしている開発者の方、特にベンダー提供の制約が強いハー…

S2S APIでどこまで作れるのか? 〜gpt-realtime 1.5 と System Prompt / Tool Callingだけで試した3つの音声アプリ

はじめに 前回の記事では、S2S(Speech-to-Speech)APIを比較し、体験品質・知能性能・レイテンシといった観点から各モデルの違いを整理しました。 またRAG編では、Tool Callingを含めた実務的な観点での選び方を扱いました。 今回は少し方向を変えて、実際…

S2S API比較:RAG編 〜Speech-to-SpeechでRAGを使うなら、何を選ぶべきか

S2S(Speech-to-Speech)APIにRAGを組み込んだ場合、モデル選定はどう変わるのか?本記事では5モデルを対象に、検索性能・会話型RAG・レイテンシ・Tool Calling実装まで含めて比較。Gemini 2.5 Flash Live、GPT Realtime 1.5、Nova 2 Sonicの実務での使い分…

S2S APIを比較して分かった実務的な選び方

S2S(Speech-to-Speech)APIは、音声→音声のリアルタイム対話を実現する新しいアーキテクチャです。本記事では主要モデル(GPT・Gemini・Nova)を同一条件で比較し、体験品質・知能性能・レイテンシに加え、実装時のターン制御やAPI設計の違いから、実務的な…

Agentic RAGの前に整えるべきもの:実務RAGの入口を設計する Router RAG

Agentic RAGの検証から見えてきたのは、後段の高度化よりも前段の問い合わせ処理の重要性でした。本記事では、実務で起きていた問題をもとに、質問を適切に振り分ける「Router RAG」という設計と、その実装の考え方を紹介します。

PDFの図表はRAGで扱えるのか?6つの方法で検証して分かった“現実的な最適解”

PDFに含まれる図表をRAGで扱うことはできるのか?本記事では、テキスト抽出・LLMによるOCR・マルチモーダルEmbeddingなど6つの手法を比較し、精度・コスト・処理時間の観点から検証を行いました。最新の研究動向とも照らし合わせながら、実務で使える現実的…

Agentic RAGは本当に必要なのか? 〜RAGの社内実験と最新研究から考える

2026年に注目されているAgentic RAGについて、社内実験による比較結果と最新研究を紹介します。エンタープライズ検索に近いタスクでの検証結果と、Agentic RAGをめぐる研究の議論を整理します。

クロスプラットフォーム開発の現在地:なぜ私はReact NativeからFlutterへ移行するのか (2025年版)

はじめに こんにちは。クロスプラットフォーム開発の選定に頭を悩ませているエンジニアです。 「一度書けばどこでも動く(Write Once, Run Anywhere)」——これは我々エンジニアにとって永遠の夢ですが、現実はそれほど甘くありません。 今回、「Webアプリの…

Google Workspaceのセキュリティ管理を効率化!情報漏洩リスクを未然に防ぐチェックソリューションを開発

昨今、クラウドサービスの普及に伴い、情報漏洩のリスクは高まっています。特にGoogle Workspaceを利用する企業において、アクセス権の設定ミスやGoogleグループの意図しない公開設定による機密情報漏洩の事故が後を絶ちません。 この記事では、情報システム…

n8nを使って業務自動化してみた

はじめに n8nについて n8nの使い方 n8nを採用した理由 n8nの構築について 問い合わせ集計自動化 処理の流れ 結果 プログラムを作ってみた所感 おわりに はじめに 本記事では、n8nの実際の活用例を紹介したいと思います。 筆者は、情シス部門に所属しており、…

n8nを使ってみた

はじめに n8nについて できること 導入方法 使い方 n8nを使ってみた n8nを使ってみた感想 長所 短所 おわりに はじめに n8nというオープンソースのワークフロー自動型のAIツールを使ってみました。 筆者は、情シス部門で働いているのですが、社内の業務効率…

Claude Code:ターミナルベースAIエージェントの実践活用

Claude Codeとは Claude CodeはAnthropic社が開発したターミナルベースのAIコーディングエージェントです。従来のChatGPTやCopilotとは異なり、コマンドラインから直接利用でき、プロジェクト全体のコンテキストを理解してコード生成、リファクタリング、バ…

HEROZ ASKへのo1の導入

はじめに o1-preview時代からの共通項目 o1での変更点 組み込み結果 おわりに はじめに 昨年末の12/5に12 Days of OpenAIでついにo1が発表となりました。 また、Azure OpenAI Serviceでも、このo1が使用できるようになりましたので、HEROZ ASKへと組み込みま…

MCP(Model Context Protocol)をLangChainのエージェント機能で動かしてみた

はじめに MCPとは 概要 認証の不在 Auth 2つのトランスポート SDKとリファレンスサーバー群 LangChainへの実装 システム構成 Claude Desktopでのシステム構成 SaaSシステムでの目指したいシステム構成 現状のシステム構成 SaaSシステムでの問題点 LangChain…

社内向けHEROZ ASKにSLMのPhi-3.5を入れてみた

はじめに モデルのデプロイ 1. ワークスペースの作成 2. サーバーレスエンドポイントの作成 3. エンドポイントの詳細 Azure AI Foundryで作成したエンドポイントとの比較 langchainからの呼び出しコード 実行結果 モデルの精度と推論速度 ストリーミング 使…

NoSQL(mongoDB) 導入ガイド

はじめに NoSQL の利用を促進したいという意識のもとこの記事を作成しました。 今迄、数多くの案件に関わってきましたが、DB といえば大体 RDB でした。NoSQL を扱っている案件もあるのですが数少ないです。 NoSQL にしておけばこんなに苦労することはなかっ…

GraphRAGを試してみた

はじめに インストール 実行結果 気づいたこと 思考言語 既存システムへの組み込み おわりに はじめに GraphRAGはLLMによってナレッジ(知識)グラフを生成することで、複雑な情報のドキュメントから質疑応答を行う際の精度を向上させることができる手法ならび…

HEROZ ASK を支えるインフラ技術(第2回)

はじめに 前回の記事 『BRIDGE』掲載記事 『Microsoft Azure』の情報収集 『Microsoft Build』 『Microsoft Build Japan』 『Microsoft Ignite』 『Microsoft Ignite Japan』 『Microsoft (有志)』の記事 『Azureの新機能』 『Microsoft Learn』 『Azure コ…

HEROZ ASK プロトタイプでマルチモーダルRAGを動かしてみた

HEROZ ASKのプロトタイプに今年(2024年)に来ると言われているマルチモーダル(Multi modal) RAGを組み込みましたので、その結果について書いていきたいと思います。

HEROZ ASKのGPT-4o対応について

はじめに GPT-4oとは テキストの性能 日本語のRAGの性能 RAG(Retrieval-Augmented Generation)とは データソース AIアシスタント作成 モデルごとのRAGの性能確認 GPT-3.5 GPT-4 GPT-4o まとめ はじめに 当社では、ChatGPTのAPIを活用した「HEROZ ASK」とい…

RAGとMulti Query Retriever: 社内ナレッジ検索結果の精度向上の鍵

※ 2026年追記 本記事では、Multi Query RetrieverによるRAG改善が大きく効いた事例を紹介しました。 その後、Query Rewrite / HyDE / ReRank / Agentic RAG などを含めて複数手法を再検証した結果を、以下の記事にまとめています。 techblog.heroz.jp 最近の…

HEROZ ASK を支えるインフラ技術

はじめに 『Azure OpenAI Service リファレンスアーキテクチャ』の賛同パートナーについて 『Azure AI Hub』について 『HEROZ ASK』アーリーアクセス版について 正式サービス開始に向けて 最後に はじめに こんにちは、HEROZ ASK の開発チームです。 herozas…

HEROZ ASK: なぜHEROZが今、新しいSaaS型プロダクト開発に挑戦しているのか

はじめに HEROZ ASKについて そもそもHEROZはどのようなBtoB事業をやってきたのか 生成AIの登場と、Solutionとの両立 HEROZ ASKが目指す開発の方向性 最後に はじめに こんにちは、HEROZ ASKの開発チームです。先日、私たちが新しく開発しているSaaS型プロダ…

日本語LLMの評価についてプロンプトバージョンによる得意不得意を調べてみた

はじめに 評価対象 評価方法 プロンプトの中身 0.2: FintanPrompt 0.3: AlpacaPrompt 0.4: RinnaInstructionSFT 0.5: RinnaBilingualInstructionSFT 0.6: Llama2 評価結果 おわりに はじめに LLMの日本語に関する評価にはJGLUEデータセットを使用するlm-eval…

Geminiの性能を宅建試験でGPT-4やClaude2と比較してみた

Geminiの性能を宅建試験でGPT-4やClaude2と比較してみました。その結果は...

HEROZ Tech Blogをはじめました

はじめに HEROZについて なぜTech Blogを立ち上げるのか? Tech Blogについて はじめに こんにちは、HEROZです。今日は皆様に大切なお知らせをお届けしたいと思います。それは…HEROZのテックブログが新たに開設されました! 私たちが日々取り組んでいる技術の…