2008年2月14日 (木)

クロールできるファイルの最大サイズ

クロールログに「このファイルはダウンロードの制限に達しました。ドキュメントのテキスト全体を有効にクロールできるかどうか確認してください」という警告メッセージが記録されることがあります。

Crawllimit

これは、クロール対象となるファイルに16MBを超えるサイズのものがある場合に記録されます(なお、この制限はSharePoint Portal Server 2003 の頃から変わっていないようです)。SharePoint の検索サービスでは16MBを超えるファイルの場合、ファイルの先頭の16MB分までしかクロールしません。

16MBまでの制限値を大きくしたい場合は、レジストリを編集して "MaxDownloadSize" というエントリを追加する必要があります。

  1. [スタート]メニューから[ファイル名を指定して実行]を開き、Regedit.exe (レジストリエディタ)と入力し[OK]をクリックします。
  2. 次のキーに移動します。
    HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\12.0\Search\Global\Gathering Manager
  3. [編集]-[新規]-[DWORD値]をクリックします。
  4. 名前を "MaxDownloadSize" とします。
  5. MaxDownloadSizeキーをダブルクリックします。
  6. 値を10進数に変更し、ファイルの最大値をMB単位で指定します。
  7. レジストリエディタを終了します。
  8. サーバーを再起動します。
  9. フルクロールを実行します。

なお、ファイルサイズの上限値を増やすことで、クロールおよびインデックス作成に時間がかかるようになるためタイムアウトが起こる可能性があるようです。タイムアウトの値の変更は次の手順で行います。

  1. [サーバーの全体管理] - [アプリケーション構成の管理] - [検索]セクションにある[Search サービスの管理]をクリックします。
  2. [ファームレベル検索の設定]セクションの[ファームレベル検索の設定]をクリックします。
  3. [タイムアウト設定]セクションの[接続時間]と[要求確認にかかった時間]をそれぞれ調整します。

[参考]

トラックバック

このページのトラックバックURL: http://bb.lekumo.jp/t/trackback/718613/34255767

クロールできるファイルの最大サイズを参照しているブログ:

コメント

お待ちしておりました。happy01
情報ありがとうございます。
MOSSの検索機能に期待をよせるのはまだ早いかもしれませんし、クロールとインデックス作成時間とのバランスを見極めるのも難しいですが、ユーザから生み出される貴重な情報を最大限活用するためにも実装しておきたいと思っています。

西村様

すみません、途中で割り込み投稿なども挟んでしまい、大変長らくお待たせしてしまいました。この情報がお役に立てますと嬉しいです。今後とも引き続きよろしくお願いいたします。

今週はハンズオンセミナーに参加させていただきました田中です。
セミナーでは大変お世話になりました。
お蔭様でSharePointServerの全体の概要、及び基礎操作を理解する事ができました。
やはり独学よりもしっかりとした知識を持っている人に教えてもらった方がより効率的に習得できますね。

まずはテスト環境を整備するためにメモリを発注しました。
MOSSはマイクロソフトのテクノロジーがフル動員されていて、覚える事が山ほどありますが、まずは山崎さんにサインしてもらった「一目でわかる~」を読み進めながら、学習していこうと思います。
まずはお礼までに書き込みさせてもらいました。
ありがとうございました。

田中様、

先週はご受講をありがとうございました。このようにお礼のコメントを頂けるなんて恐縮です。ですが、嬉しいですhappy01 月末の実施セミナーにもご参加くださるそうですが、今後とも引き続きよろしくお願いいたします。

16MBまでだったんですね!
知りませんでした…
越えてしまうファイルは沢山ありますので、制限容量を増やしたいところですが、クロールへの影響が怖くてなかなか挑戦できません(苦笑)
どの辺りまでなら大丈夫なんでしょうね~

saruhikoさん、
そうなんです。私のセミナー用の検証環境ではあまりにも小規模なため試せないのですが、運用環境によって、どのくらいでどの程度クロールに影響がでるかは気になるところです。

クロールでエラーや警告がありますが、結局エラーや警告が起きるとユーザーにどのような影響があるのでしょうか。
例えばドキュメントについてエラーが出ている場合は検索対象とならないと理解しています。
クロール結果を見ると、フォルダやドキュメントごとに結果が出ていますよね。
フォルダやサイトでエラーや警告が出ているとどのような状態になるのでしょうか。

ポッキーさん
クロール作業は検索できるよう様々な索引(インデックス)を作成しています。エラーが出るということは索引が作れないところがあったということを示しています。

つまり、検索クロールでの警告やエラーは、当然検索結果に影響します。クロールのエラーが出れば、検索結果として表示されないでしょうし、警告の場合はメッセージによってまちまちですが、上記の場合はメッセージ通り(ブログ記事内にも書いていますが)ファイルの16MB分までしか全文検索できないということです。TechNetサイトなどにもSharePoint検索に関する情報は公開されているので、ご自身でもいろいろと調べてみてくださいね。