公開日 2024年03月07日
類似記事の表示
検索結果の類似記事リンクをクリックすると、類似した記事のリンクを表示します。
デフォルトでは10ページまで表示します。
類似記事は検索対象となっている記事から機械学習により自動で判定されます。
記事の左サイドバーに表示することもできます。
類似記事の判定
類似記事リンクをクリックした時、検索結果の記事とそれ以外の記事との類似度(類似している度合い)を計算します。類似度の計算に機械学習を利用しています。基本的に、タイトルと本文に同じ単語が含まれる場合、より高い類似度となります。
類似度の計算後、類似度が一定の閾値(デフォルトでは0.6)以上となった記事を類似記事として表示します。表示順序は類似度の高い順です。
類似記事の変更
クローリングによって検索対象となる記事が変更(作成・更新・削除)されると、類似記事も変更されます。
類似記事に関する処理のまとめ
類似記事に関する処理について、バックグラウンドでの処理をまとめます。
大きく、1.記事ベクトルの作成、2.記事ベクトル間の類似度計算で構成されます。
記事ベクトルの作成
- 検索対象の記事のタイトルと本文のテキストデータについて、形態素解析を適用する。
- 学習済みの機械学習モデルに形態素解析結果を入力し、ベクトルに変換する。
- ベクトルを検索エンジン(Elasticsearch)に保存する。
記事ベクトル間の類似度計算
- 検索結果の記事のベクトルとそれ以外の記事のベクトルとの類似度(コサイン類似度)を計算する。
- 類似度が閾値以上となったベクトルに該当する記事を類似記事として表示する。