|
検索エンジンの基本的な検索モデル 検索エンジンは一般的に、オンラインとオフラインの2つの部分で構成されています。オフライン部分では、主に検索エンジンがウェブページの生データをクロールし、抽出、拡充、分析、インデックス作成を行います。 このセクションで注目すべき点の一つは、タイムリーインデックスデータに関するセクションが含まれていることです。これは主にニュースインデックスデータで構成されており、検索エンジンはタイムリーなニュース記事をより迅速にインデックス化し、ランク付けする傾向があるためです。 ただし、有効期限を過ぎるとランキングは低下し、ウェブサイトがインデックスから削除される可能性もあります。有効期限後のこの時間的制約のあるインデックスデータのステータスは、主にウェブサイトの構造とオーソリティに関係します。 検索エンジン最適化を行うときは、主にオフラインコンテンツに重点を置く必要があります。 ユーザーが検索語を入力すると、検索システムはクエリの理解を実行し、さまざまなリコール戦略を採用します。 「塑聊」を検索すると、検索エンジンは辞書を使ってそれを判別し、「塑塑」に修正します。また、「su料」を検索すると、やはり「塑塑」に修正されます。 「BTC」を検索すると、「Bitcoin」を含むように検索結果が拡張されます。「potato」を検索すると、「potato」が表示されます。これらはすべて、同義語を含むように検索結果が拡張される例です。 「検索エンジン マーケティング」を検索すると、これらの単語は「search/engine/marketing」や「search/engine/marketing/」などのより細かい用語に分割されます。 想起フェーズの後、システムはデータを直接ユーザーに提示しません。代わりに、様々な想起戦略によって取得されたインデックス付きデータを用いて、数千から数万に及ぶ候補セットを作成します。その後、より高度な計算モデルが候補セット内のコンテンツをスコアリングし、初期ランキングを取得します。 リコールフェーズの後、プロセスはランキングフェーズに移行します。ランキングフェーズは、粗いランキング、細かいランキング、そして再ランキングの3段階に分かれています。粗いランキングでは、検索語と文書間の関連性を評価するBM25アルゴリズムに類似したアルゴリズムを用いて、大まかなランキングを取得します。このランキングは通常、数百から数千の用語で構成され、Baidu検索エンジンでは最大760語です。 最初のランキングの後、検索エンジンはより多くの機能とより複雑なモデルを読み込み、コンテンツを並べ替え、最初のランキングで提供された候補プールからユーザーがクリックする可能性が最も高いコンテンツを選択します。この数は通常100未満です。 初期のランキングプロセスの後、コンテンツはユーザーに提示されます。ただし、この提示の前に、ルールベースの介入段階があり、通常は特定の製品目的のために行われます。例えば、Baiduの公式サイト検証サービスでは、企業が公式サイトの検証を完了すると、ユーザーがその企業名を検索した際に、その企業のコンテンツが検索結果の最初に表示されます。これがリランキングプロセスです。 さらに、ランキングは静的ではありません。コンテンツがユーザーに表示された後、ユーザーのクリックフィードバックがランキングモデルに影響を与えます。ユーザーがクリックするURLが多いほど、その後の検索結果でのランキングは高くなります。これがクリックベースの重み付けのプロセスであり、再ランキングのプロセスでもあります。 検索エンジンの4つの基本アルゴリズム TF-IDF用語頻度逆テキストレートアルゴリズム TF = 記事内での単語の出現回数 = 記事内での単語の出現回数 / 記事内の単語総数 IDF = log(コーパス内の文書の総数 / (この単語を含む文書の数 + 1)) TF-IDF = 用語頻度 (TF) * 逆文書頻度 (IFD)
このアルゴリズムは主に、文書セット内の文書に対する単語の重要度を評価するために設計されています。 単語の重要度は、文書内でのその単語の出現頻度に比例して増加します。 ただし、コーパス内での出現頻度は逆に減少します。 この文をどう理解すればいいのでしょうか?簡単な例を見てみましょう。 ある図書館に1万冊の本があります。ある本では、「ginger duck」というフレーズが66回出現し、「method」というフレーズが1,000回出現します。「method」のTF(True Value)は「ginger duck」よりも高いです。しかし、図書館の1万冊の本全体を比較すると、「ginger duck」は他の本では非常にまれにしか出現しないのに対し、「method」は非常に頻繁に出現することがわかります。そのため、「ginger duck」というキーワードを決定するために、「method」の重み付けを下げます。 TF-IDFアルゴリズムは、一般的な単語(前述の「method」など)を除外しながら、重要な単語(前述の「ginger duck」など)を保持することで、文書の重要なポイントを明らかにします。このアルゴリズムは検索エンジンの基本的なアルゴリズムと見なすことができます。簡単に言えば、キーワード密度です。 ヒットリンク分析アルゴリズム SEO では、 「コンテンツが王様で、バックリンクが女王だ」という格言がよくありますが (これは現在では当てはまりません)、これは SEO の初期の頃は、バックリンク アルゴリズムが Web サイトのランキングに大きな影響を与えていたためです。 たとえば、ロビン・リーは「ハイパーリンク分析アルゴリズム」に基づいて Baidu を設立しました。これは現在アンカー テキスト リンクとして知られているものです。 その後、Googleは「ハイパーリンク分析アルゴリズム」を最適化し、ウェブサイトごとに重みが異なるため、バックリンクによって伝達される重みも異なるという概念を提唱しました。これが後の「PageRankアルゴリズム」です。 現在、Baidu と Google はこれらのアルゴリズムを数え切れないほど繰り返し改良し、Hits アルゴリズムなどの新しいリンク分析アルゴリズムが登場しています。 ヒット アルゴリズムでは、「Authority」ページと「Hub」ページという2 つの新しい概念が導入されています。 「Authority」ページとは、高品質で権威のあるページを指します。 「ハブ」ページとは、多くの権威あるページにリンクしているハブ ページを指します。 優れた権威あるページは、多くのハブ ページから参照されます。 優れたハブ ページには、多くの権威あるページへのリンクがあります。 このアルゴリズムは、リンクを見ることでウェブサイトの品質を比較的簡単に判断できますが、不正行為をするのも比較的簡単です。 例えば、何でも操作できると主張するウェブサイトは、Tencent News、Sohu News、Phoenix News、Youran Buyiへのバックリンクをエクスポートしています。Tencent News、Sohu Newsなどはいずれも権威のあるページであるため、Youran Buyiも権威のあるページとみなされます。 TextRank アルゴリズムと LDA トピック モデル TF-IDF アルゴリズム以外にも、TextRank、LDA、LSA などのトピック モデリング アルゴリズムもキーワード抽出の分野で広く使用されています。 TextRankがTF-IDFよりも優れている点は、コーパスから独立して個々の文書を分析し、各文書からキーワードを抽出できることです。しかし、TextRankの欠点としては、単語のセグメンテーション、テキストクリーニング、高頻度語の影響を強く受けやすいことが挙げられます。 このアルゴリズムは、PageRankアルゴリズムの概念を取り入れ、テキストを単語に分解してネットワークモデルを形成します。単語の類似性の共起関係を投票関係または推薦関係として利用し、各単語の重要度を計算します。 例えば:(@Zhihu Huang Xin からの例) 次に、上記の文章を分割し、ストップワードを削除すると、次のようになります。プログラマー(英語):プログラム開発およびメンテナンスの専門家。プログラマーは、プログラム設計者とプログラムコーダーに分かれています。中国では、この区別は特に明確です。ソフトウェア担当者は、プログラマー、シニアプログラマー、システムアナリスト、プロジェクトマネージャーに分かれています。 次に、サイズ 9 のウィンドウを作成し、各単語が 5 の距離以内の単語に投票するようにします。 その後、反復投票が始まります。 このことから、「プログラマー」がこの文章で最も重みのある単語であるという結論が導き出されます。 LDAトピックモデル:多くのシナリオでは、文書からキーワードを抽出するだけでは不十分です。例えば、多くの古代中国の詩はこの手法を用いて作成されました。 「秋の葉を解き、春の花を咲かせる。川面に千尺の波を立て、万本の竹を曲げる。」李喬のこの詩「風」は風を描写しているが、題名以外、詩全体に「風」という言葉は使われていない。 朱熹の『秋月』には、「清流が緑の山の峰を流れ、空と水は澄み渡り、秋の色彩を帯びている。世俗の世界から30里離れ、白い雲と赤い葉がゆったりと漂っている。」という一節があります。これは月を描写していますが、詩全体に「月」という言葉は含まれていません。 キーワードと文書の間には直接的な関連性はありませんが、トピックという次元を介して相互に結び付けられる必要があります。各文書は1つ以上のトピックに対応し、各トピックには対応する語数分布があります。 LDA(Lesson on Derivative)意味トピックモデルは、同じ意味を持つ単語間の関係性を確立することができ、情報検索中にテキスト内の潜在的な意味情報をマイニングするための優れた検索モデルフレームワークを提供します。大規模な文書セットやコーパス内の潜在的なトピック情報を特定するために使用できます。 例えば、「ジンジャーダック」に関する記事であれば、「福建省南部」「厦門」「泉州」といった単語がより頻繁に出現します。一方、「干しネズミ」に関する記事であれば、「福建省西部」「客家」「寧華」といった単語が非常に頻繁に出現します。 検索エンジンは、形容詞属性を参考に、ユーザーのクエリに関連するトピックを分析します。例えば、「ジンジャーダック」が食べ物に関連する場合、その栄養価や冷却効果、濃厚で美味しい風味といった属性がすべて関連付けられます。 Baidu のドロップダウン候補と関連検索の検索用語は、TextRank、LD、DNN などのアルゴリズムに関連するようになりました。 Simhash重複排除アルゴリズム 文書間の類似度を計算するために、シムハッシュアルゴリズムを用いて各文書のシムハッシュ値を計算し、各文書の計算されたバイナリ値を用いて文書間のハミング距離を計算し、ハミング距離に基づいて文書間の類似度を比較します。(ハミング距離とは、同じ長さの2つの文字列において、同じ位置にある異なる文字の数を指します。) 例: 「元宵節に自宅のオーブンでおいしいローストチキンを作りました」と「元宵節に自宅のオーブンで超おいしいローストチキンを作りました」。 ストップワードを削除したら、次のようになりました... 「ランタンフェスティバル用の自家製ローストチキン」と「ランタンフェスティバル用の自家製オーブンローストチキン」 単語の頻度分析を実行し、同義語を正規化しました。Yuanxiao (元宵) = 旧暦1月の15日、oven = オーブン、delicious = とても美味しい。 最終的に、2つの文は同じ意味であると判断されました。 Baiduの初期バージョンでは、構造化されたウェブページデータに対してシムハッシュ認識が使用されていたと考えられますが、最新のオリジナルコンテンツ認識手法では、文レベルでシムハッシュ認識が使用されています。そのため、現状では、文の並べ替えやキーワードの置換といった単純な手法による擬似オリジナルコンテンツの作成は、検索エンジンによって検出されるため、検索エンジンへの影響は小さいと考えられます。 TF-IDF、TextRank、LDAトピック分析といったアルゴリズムは、検索エンジンマーケターだけでなく、ニューメディア運用に携わる人にとっても学ぶ価値があります。Baidu以外にも、Douyin、Xiaohongshu、WeChatといったプラットフォームの検索アルゴリズムもこれらのアルゴリズムに関連しています。 今日は、基本的な検索エンジンアルゴリズムについて簡単に説明します。これらのアルゴリズムを理解することは、検索最適化やコンテンツ配信の指針となるため、非常に役立ちます。ただし、私は技術的なバックグラウンドがないため、完全に理解しているわけではありません。ご興味があれば、ご自身でさらに詳しく調べて学んでください。 次の投稿では、よく使われるSEO不正行為(ブラックハットSEOとも呼ばれる)について、より詳しく解説します。さて、また別の機会に! |
検索エンジン最適化(SEO)はどのように実行すればよいでしょうか?検索モデルと4つの基本アルゴリズムについて学びましょう。
関連するおすすめ記事
-
パワーアップした「情報フロー実践合宿」がオンライン開催!講師陣が広告手法を一緒に考えます!
-
フレンドリーなアシスタントが質問に答えてくれるので、PPC/フィード広告の管理がこれまでになく簡単になります。
-
アカウント全体のパフォーマンスに影響を与えずに、平均クリック単価を下げるにはどうすればよいですか?
-
広告キャンペーンを開始する前にデータ統合を行うにはどうすればよいでしょうか? (技術記事)
-
検索エンジン マーケティングは、企業のオンライン マーケティングにとって強力なツールになりつつありますか?
-
サードパーティの運用を通じて毎月30,000人民元を稼ぐ:ゼロコストでバイラルビデオコンテンツを作成するには?