2025年11月24日 (月)

Microsoft 365 Copilot のセマンティックインデックスとは?

Adobestock_1564169999

検索というとこれまでの「キーワード検索」を思い浮かべる人も多いでしょう。ファイル名や文章内に合致するキーワードがあるかどうかで検索する方法です。一方、Microsoft 365 Copilot は単なるキーワード検索ではなく、意味や文脈を理解して情報を探し出せます。

これを支えているのがセマンティック インデックスという技術です。マンティック インデックスはMicrosoft 365 専用の技術ではなく、自然言語処理(NLP)や検索エンジンの分野で広く使われている一般的な概念です。

キーワード検索とベクトル検索

Microsoft 365 の検索では従来はキーワード検索を行ってきました。検索キーワードに合致するコンテンツを探してくるという検索方法です。

キーワード検索といえば、SharePoint はオンプレミス時代から長年、独自の検索エンジンを持っています。また Outlook は Outlookで独自の検索の仕組みを持っていたりします。各サービスで検索機能がバラバラであるため、2019年に Microsoft 365 の共通検索基盤として Microsoft Search が登場しました。Microsoft Search では SharePoint 検索を内包しています。この検索では SharePoint だけでなく、自身のメールボックスや Teams 内の会話なども幅広く検索できるようになっています。Microsoft 365 Copilot の検索 (https://m365.cloud.microsoft/search) や SharePoint スタートページ(https://<テナント名>/_layouts/15/sharepoint.aspx)からの検索は Microsoft Search によるコンテンツの横断的な検索ができます。SharePoint サイト上ではサイト内に閉じた検索、ライブラリやリストではライブラリ内またはリスト内に閉じた検索になります。検索範囲に関しては下記の記事も参照してください。

SharePoint Technical Notes : SharePointの検索は検索を開始する場所によって検索範囲が異なる

Microsoft 365 Copilot が行う検索

一方でMicrosoft 365 Copilot が応答に必要な情報取得するために使う検索はベクトル検索がベースとなっています。ドキュメント、文章、単語などすべてをその意味や特徴でそろえた数値の並び(ベクトル)に変換します。これによって意味的に似たデータとして例えば、犬、猫、ペットなどはベクトル空間内で近い位置に配置されます。Copilot への質問もベクトルに変換されます。

Microsoft 365 Copilot のライセンスを持っているテナントでは、メールやチャット、SharePoint のファイルなどMicrosoft 365 に蓄積されているコンテンツに対して、セマンティック インデックスといわれる膨大なベクトルが生成されています。ここから質問のベクトルに最も距離が近い(類似する)データを高速で見つけられるようになっています。

つまり従来の検索では不可能だった「文脈の理解」をしたうえでの情報の収集が可能になっているのです。

ちなみに、Microsoft 365 Copilot Chat のみ(いわゆる有償版ライセンスを持っていない場合)では、組織内のデータを探しに行くことはできず、あくまで参照するのは Web上のオープンな情報のみです。 

インデックスの種類

そもそもインデックスとは、検索を素早く正確に検索できるようにするための「情報の索引」のようなものです。Microsoft 365 では検索エンジンのクローラーが定期的に実行され、インデックスが作成・更新されています。

Microsoft 365 には次の2種類のインデックスが存在します。

  • キーワードインデックス
  • セマンティックインデックス

キーワード インデックスは、従来から SharePoint などで作成されてきているものであり、ファイルの内容などをもとにインデックスを作成します。検索エンジンは定期的に Microsoft 365 内のコンテンツをダウンロードして解析して、言語判定、単語分割、アクセス権限情報の抽出、情報同士の関連性など踏まえてインデックスに登録していきます。この情報をもとに検索する際に用いられるキーワードと照合して合致する情報のうち、サインインしているユーザーが閲覧権限を持っているコンテンツを結果として表示するわけです。ただし、この単語の分割が、半角スペースによる分かち書きをしない言語の場合は文脈で分割する必要があるのですがこれがうまくいかないケースも多い。また、キーワードが一致するかどうかのみを見るので、同じ意味の違う言葉などのいわゆる "ゆらぎ" をうまくとらえることができないという問題を抱えています。

一方のセマンティックインデックスでは単語だけでなく意味や文脈も理解できるようにベクトル変換によりインデックスが作られるようになっており、例えば先ほどと同様に「議事録」と検索すると、今度は「ミーティングメモ」「会議記録」など、意味が近いファイルも見つかります。

このようにセマンティックインデックスとは、Microsoft 365内のファイルやメール、チャットなどの情報を、AIが「意味のつながり」で整理・分類できるようにベクトルを使ったインデックスが生成されます。ですから自然言語での検索も可能になっており、たとえば「先月の売上データを見せて」と言われたとき、Copilotは「売上」「先月」「データ」という言葉の意味を理解し、関連するExcelファイルやレポートを探します。

ちなみに、セマンティック インデックスはユーザーレベルのインデックスとテナント レベルのインデックスの2種類があります。自分のOneDriveに作成したドキュメントや編集したもの、自身のメール、チャットなど個人に紐づくコンテンツはユーザーレベルのインデックスとして即座に作成されます。一方のテナントレベルのインデックスとは SharePoint サイトに格納されているファイルが対象であり、そのファイルに対して2人以上と共有されている場合にインデックスが作成されます。このことについては下記リンク先にインデックスの更新という情報があり詳しくかかれています。

Microsoft 365 Copilotのセマンティック インデックス作成 | Microsoft Learn

ここに記載されている内容を確認すべく試すと確かにサイトレクションの管理者として自分だけしかアクセスできない1人ぼっちファイルを作成しても、意味的な検索はできませんでした。共有リンクも含めて二人以上と共有するとインデックスが作られるようです。ただし、原文では英語の方も同様に「サイトに追加された新しいドキュメントは毎日インデックスが作成されます」と書かれているのですが、こう書かれていると即時ではなく一日一回インデックス生成がされているイメージです。そんなにタイムラグがあるって本当かな? と試したのですが、2人以上で共有されていれば即座にインデックスは作られているようです。すでに共有されているサイトに新規に追加しても、1人ボッチファイルから共有変更した場合も即時でした。この辺りはドキュメントが古いままアップデートされていないのかもしれません。このブログを書いている時点の上記記事の最終更新日は 2025年3月8日で、すでに半年以上は経過しています。

Copilot 検索

20254月より Microsoft 365 Copilot 検索が正式に導入されました。このCopilot 検索は従来のキーワード検索に加えてAIによる「意味の理解=セマンティック検索」を組み合わせたユニバーサル検索体験を提供するものです。

💡Point: Copilot検索は、Microsoft 365 Copilotのライセンスを持つユーザーであれば追加費用なしで利用できます。Microsoft 365 Copilot Chat のみで有償ライセンスがない場合はオンにできません。

Copilot 検索はトグルメニューでオン/オフに切り替えが可能です。オフにすると従来通りのキーワード検索となります。人物の詳細検索などはキーワード検索の方が優れている場合もあるため必要に応じて切り替えて利用します。

Copilot 検索では自然言語での検索が可能になっています。

20251124_112438

20251124_112551


 

Microsoft 365 Copilot システムの検索

ここまでを簡単にまとめておきましょう。Microsoft 365 Copilot のシステムでは従来のキーワード検索とセマンティックインデックスを用いたベクトル検索の両方のハイブリッドな検索の仕組みを利用できるようになっています。セマンティック インデックスを持てるというのが、Microsoft 365 Copilot の有償版ライセンスの有意な点の一つです。

検索方式

特徴

使用例

キーワード検索

正確な単語に一致する情報を探す

SharePointの検索、Outlookの検索など

セマンティック検索

意味や文脈に基づいて関連情報を探す

Copilotによる自然言語検索および

Copilot 検索での検索

参考情報

コメント