大学時代に作った「Naive RAG」と、今学ぶ「Advanced RAG」の差分メモ | cloud.config Tech Blog

はじめに

この記事は、「ローカル環境でRAG（Retrieval-Augmented Generation）をやってみたい人」に向けた技術メモです。

大学時代、私はローカルLLMを使って「ドキュメントを検索して答えてもらうシステム」を作っていました。
「動けばOK」の精神で構築していましたが、最近あらためて調べ直すと、私が作っていたシンプルな構成は 「Naive RAG」、そこに工夫を加えたものは 「Advanced RAG」 と呼ばれていることを知りました。

本記事では、過去に実装した「Naive RAGの構成と課題」、そして今ならこうする「Advanced RAGの改善アイデア」をざっくり紹介します。

かつて作った「Naive RAG」の構成

私が実装していたのは、最もシンプルな構成です。

分割：ドキュメントを一定の文字数（固定長）で機械的にチャンク分割
保存：チャンクをベクトル化してDBへ保存
検索：ユーザーの質問をベクトル化し、類似度の高いチャンクをTop-N件取得
生成：取得したテキストをそのままプロンプトに埋め込み、LLMに回答させる

とりあえず動くものの、運用してみるといくつかの「惜しい点」が見えてきました。

実際に運用して感じた「3つの壁」

チャンク長のさじ加減が難しい：短すぎると文脈が切れ、長すぎるとノイズが増える
型番・数値の「完全一致」に弱い ：「503」を探したいのに、意味が近いだけの「500」や一般論がヒットしてしまう
図表・レイアウト情報の欠落：標準的なテキスト抽出だけでは、図の中の文字や表構造が無視されてしまう（OCR等の前処理不足）

Advanced RAGで解決するテクニック集

最近のトレンド（Advanced RAG）を調べると、抱えていたモヤモヤを解消する具体的なアプローチが体系化されていました。

1. チャンク分割の工夫（Chunking Strategy）

ただの固定長ではなく、オーバーラップ（重複部分）を持たせたり、意味のまとまりを意識します。

オーバーラップ（Sliding Window）：チャンクのつなぎ目で文脈が失われないよう、前後を少し重複させて分割する
セマンティックチャンク：文脈や意味の変わり目で区切る
Parent-Child（階層チャンク）：検索は「細かいチャンク」で行ってヒット率を上げ、LLMにはその親にあたる「大きなチャンク」を渡して文脈を確保する手法

2. ハイブリッド検索（Hybrid Search）

「ベクトルの意味検索」と「キーワードの一致検索」を組み合わせます。

ベクトル検索：表記ゆれや意味的な検索に強い
キーワード検索（BM25等）：型番、専門用語、固有名詞に強い
ランキング統合（RRF等）：性質の違う2つの検索結果を、順位をもとに公平に混ぜ合わせる手法

両者を組み合わせることで、「用語」と「文脈」の両方をカバーします。

3. 再ランキング（Reranking）

検索精度を上げるための「二段構え」構成です。

Retrieve: ベクトル検索などで広め・高速に候補を集める（例：Top 50）
Rerank: 重い計算モデル（Cross-Encoder等）で精密に並び替え、本当に重要なTop 5に絞る
※精度と引き換えにレイテンシ（応答時間）が増えるため、Retrieve件数を調整して精度とレスポンス速度のバランスを取る