クローリングについて

公開日 2021年05月12日

更新日 2021年08月18日

XMLサイトマップをベースにクローリング

Joruri Searchでは効率的にクローリングを行うためXMLサイトマップを参照しています。
XMLサイトマップのlastmodタグを参照して変更を検知しておりますのでlastmodタグを適切に設定・更新していただく必要があります。
changefreqタグとpriorityタグは参照していません。

下記のようなケースについては未対応のためJoruri Searchがご利用いただけません。

  • lastmodタグが存在しない、もしくはlastmodタグの日付が正確でない
  • 記事ページへのリンクがlocタグに記述されていない
  • 圧縮形式のXMLサイトマップ

新着一覧ページをベースにクローリング

Joruri Searchでは下記のような新着一覧ページ(各記事ページのタイトルおよびリンクが日付の新しい順序で並んでいるようなページ)をクロールすることも可能です。

新着一覧ページ

新着一覧ページをクロールする場合は、検索対象は一覧ページに掲載されている記事ページのみに限定されます。

下記のようなケースについては未対応のためJoruri Searchがご利用いただけません。

  • 記事ページへのリンクが存在しない
  • 記事ページへのリンクがサイトのドメインとは異なるドメインになっている
  • 動的表示(JavaScriptやiframeなど)になっている
  • 並び順が日付の新しい順になっていない、もしくは日付が存在しない
    全ての記事ページが検索対象とならない場合があります。

検索対象となる記事ページについて

記事ページのタイトルと本文の箇所には適切にクラスやIDを振っていただく必要があります。

記事ページ

公式サイト内では、基本的に記事ページのタイトルと本文に振るクラス名やIDは統一していただく必要があります。
記事ページごとに異なるクラス名やIDを振られると適切に処理できない場合があります。

下記のようなケースについては未対応のためJoruri Searchの検索対象からは除外されます。

  • タイトルと本文にあたる内容が存在しない
  • 本文や日付が動的表示(JavaScriptやiframeなど)になっている
  • 日付が存在しない
    ただし、XMLサイトマップまたは新着一覧ページに日付が存在する場合、記事ページに日付が存在しなくても検索対象になります。

Joruri CMS以外で構築されたサイトについて

上述した要件を満たすサイトであればJoruri CMS以外で構築されたサイトでもJoruri Searchをご利用いただけます。

Topへ