公開日 2024年03月07日
関連キーワードの表示
検索時に検索キーワードに関連したキーワードを表示します。
デフォルトでは30件まで表示します。
サイト内に存在する単語のみが関連キーワードの候補となります。
関連キーワードの判定には機械学習を利用しています。
表示されるキーワードは、事前に機械学習が学習したキーワードに限られます。
関連キーワードの判定
検索時、検索キーワードと事前に登録されている単語との類似度( 類似している度合い )を計算します。 類似度の計算に機械学習を利用しています。基本的に、検索キーワードに似た意味の単語はより高い類似度となります。
類似度の計算後、上位30件の単語を関連キーワードとして表示します。表示順序は類似度の高い順です。
関連キーワードの変更
クローリングによって検索対象となる記事が変更(作成・更新・削除)されると、関連キーワードも変更されます。
関連キーワードに関する処理のまとめ
関連キーワードに関する処理について、バックグラウンドでの処理をまとめます。
大きく、1.単語ベクトルの作成、2.単語ベクトル間の類似度計算で構成されます。
単語ベクトルの作成
- 検索対象の記事のタイトルと本文のテキストデータについて、形態素解析を適用する。
- 学習済みの機械学習モデルに形態素解析結果(名詞のみ)を入力し、ベクトルに変換する (ただし、機械学習モデルの学習データに含まれない単語は対象外です)。
- ベクトルを検索エンジン(Elasticsearch)に保存する。
単語ベクトル間の類似度計算
- 入力された検索キーワードのベクトルとそれ以外の単語のベクトルとの類似度(コサイン類似度)を計算する。
- 類似度が閾値以上となったベクトルに該当する単語を関連キーワードとして表示する。