|
プロのSEO担当者を目指すなら、検索エンジンの単語セグメンテーションをマスターすることが不可欠です。単語セグメンテーションをマスターすることで初めて、検索エンジンとユーザーの両方が好むキーワードを特定し、SEOテクニックをより深く理解できるようになります。 中国語単語分割の理論は初心者にとって複雑に感じるかもしれませんが、他の理論ほど重要ではありません。計算方法と各ウェブページでの単語分割方法さえ知っていれば十分です。それでは、Baiduの中国語単語分割技術について詳しくご紹介します。 I. 中国語の単語分割とは何ですか?Baidu の単語分割テクノロジーは、ユーザーが送信したキーワード文字列を処理し、さまざまなマッチング方法を使用してユーザーのキーワード文字列を一致させるために Baidu が使用する手法です。 中国語の単語分割とは、一連の漢字を個々の単語に分割することを指します。単語分割とは、連続した文字列を一定の規則に従って単語の列に再結合するプロセスです。言い換えれば、単語分割とは、文字が繋がった中国語の文を、複数の独立した完全かつ正確な単語に分割するプロセスです。単語は、言語の最小かつ独立した意味のある構成要素です。 英語の文章では単語は自然にスペースで区切られますが、中国語では文字、文、段落のみが明確な区切り記号で区切られることは周知の事実です。しかし、単語には正式な区切り記号がありません。英語にも句読点の区切りという問題はありますが、単語レベルでは中国語は英語よりもはるかに複雑で難しいのです。 中国語の単語分割はテキストマイニングの基礎です。中国語の単語分割がうまくいけば、コンピュータは文章の意味を自動的に認識できるようになります。 中国語の単語分割技術は自然言語処理の範疇に属します。人間は文章において、どの部分が単語でどの部分がそうでないかを知識を用いて理解することができます。しかし、コンピューターはどのようにしてこれを理解できるのでしょうか?その処理方法は単語分割アルゴリズムです。 コンピュータの言語知識はすべて、機械辞書(単語に関する様々な情報を提供する)、統語規則(様々な品詞の組み合わせにおける単語の集合を記述する)、そして単語や文に関する意味論的、文脈的、および語用論的な知識ベースから得られます。中国語の情報処理システムは、統語論と意味論(検索、翻訳、要約、校正などのアプリケーション)に関わる限り、単語を基本単位とする必要があります。漢字を文から単語に変換して初めて、統語解析、文理解、自動要約、自動分類、機械翻訳といったテキスト処理が可能になります。単語分割は機械言語学の基礎と言えるでしょう。 II. 中国語の単語分割の考え方と原則まず、検索エンジンの仕組みを理解する必要があります。検索エンジンは、各ウェブページのコンテンツを単語単位でデータベースに入力します。例えば、記事のタイトルが「Ma Haixiang SEO Blog provides free SEO practical training tutorials」の場合、検索エンジンはこのタイトルを、辞書に既に登録されている単語とユーザーが頻繁に使用する単語に分割します。例えば、「Ma Haixiang」「SEO」「blog」「training」「provide」「free」「SEO tutorial」「SEO practical training」「free SEO tutorial」「free SEO training」「SEO training」などです。 重要なのは、誰もがこの考え方を理解することです。したがって、文章を単語または個々の文字に分割することは、検索エンジンが行うべき最初の、そして最も重要なステップです。なぜなら、単語が適切に分割されて初めて、価値ある情報をユーザーに正確にフィードバックできるからです。 プロのSEOスペシャリストにとって、中国語の単語セグメンテーションも非常に重要です。各単語を正確にセグメンテーションすることでのみ、各ウェブページを効果的に最適化し、ウェブサイトのメッセージを検索エンジンに明確に伝え、検索エンジンのランキングを向上させることができます。また、ウェブページがユーザーに提供しようとしているコンテンツも明確に伝わります。これは、馬海翔がSEOサービスを提供して以来、最も深い教訓です。多くの場合、単語セグメンテーションを1つ間違えると、他のすべての努力が無駄になります。SEO企業は効率を重視します。効率が低いということは、投資収益率が低いことを意味し、リソースを効果的に活用できない戦略に欠陥があることを意味します。 III. 中国語単語分割の応用自然言語処理(NLP)技術において、中国語の処理技術は西洋言語の処理技術に大きく遅れをとっています。中国語では単語分割が必要となるため、多くの西洋言語の処理手法を中国語にそのまま適用することはできません。中国語の単語分割は、他の中国語情報処理の基礎となっています。検索エンジンは、中国語の単語分割の応用例の一つに過ぎません。機械翻訳(MT)、音声合成、自動分類、自動要約、自動校正など、他のアプリケーションでも単語分割は必要です(詳細は、馬海翔のブログ「検索エンジンが記事キーワードを自動抽出する原理」の関連紹介記事をご覧ください)。 中国語は単語の分割を必要とするため、一部の研究に影響を与える可能性がありますが、一部の企業にとってはチャンスをもたらすこともあります。外国のコンピュータ処理技術は、中国市場に参入する前に、まず中国語の単語分割の問題を解決する必要があります。 検索エンジンにとって、正確な単語分割は不可欠ですが、分割が遅すぎると、たとえ高精度であっても意味がありません。検索エンジンは数億ものウェブページを処理する必要があり、分割時間が長すぎるとコンテンツの更新速度に深刻な影響を与えます。そのため、検索エンジンは単語分割において高い精度と高速性の両方を求めています。 IV. 中国語単語分割技術の特徴馬海翔氏によると、中国語の単語分割技術がコンピュータ ネットワーク上に存在する理由は、中国語の基本文法の特殊な特徴によるもので、具体的には次のような特徴が表れています。 1. 英語などのラテン語系言語と比較すると、英語は自然な区切りとしてスペースを使用しますが、中国語は古代中国の伝統を継承しているため、単語間に区切りがありません。 古典中国語では、複合語、人名、地名を除けば、単語は通常1文字の漢字で構成されていました。そのため、単語を個別に表記する必要はありませんでした。しかし、現代中国語では、2文字または複数文字の単語がほとんどであり、1文字が1単語に相当することはなくなりました。 2. 中国語では、「単語」と「句」の境界が曖昧です。現代中国語の表現の基本単位は「単語」であり、そのほとんどは2文字または複数文字の単語ですが、人々の理解度の違いにより、単語と句の境界を区別することが困難です。 例えば、「どこでも唾を吐く者を罰せよ」というフレーズにおいて、「どこでも唾を吐く」が単語なのか句なのかは、個人の判断に委ねられます。同様に、同じ人が「海で」と「ワイナリー」といった単語についても異なる判断を下す可能性があります。中国語を単語分割で表記すると、必然的に混乱を招き、大きな課題が生じるでしょう。 中国語の単語分割手法は中国語のアプリケーションに限定されず、単語間のスペースが明確に見える手書き認識などの英語処理にも適用されます。中国語の単語分割手法は、英語の単語の境界を特定するのに役立ちます。 V. 単語分割アルゴリズムの分類既存の単語分割アルゴリズムは、文字列マッチングに基づく単語分割法、理解に基づく単語分割法、統計に基づく単語分割法の3つの主要なカテゴリーに分けられます。また、品詞タグ付けとの組み合わせの有無によって、単純な単語分割法と、単語分割とタグ付けを組み合わせた統合型手法に分けられます。 1. 文字列マッチングに基づく単語分割法 この手法は機械的単語分割とも呼ばれます。分析対象となる中国語文字列を、特定の戦略に従って「十分に大きな」機械辞書のエントリと照合します。辞書に特定の文字列が見つかった場合、照合は成功(単語が識別された)とみなされます。 文字列マッチングによる単語分割方法は、スキャン方向に基づいて前方マッチングと後方マッチングに分けられます。また、異なる長さのマッチングの優先順位に基づいて、最大(最長)マッチングと最小(最短)マッチングに分けられます。一般的に使用されるいくつかの機械的な単語分割方法は次のとおりです。 (1)前方最大マッチング法(左から右へ) まず、テキストを大まかに文に分割します。次に、各文を個々の文字に分解します。辞書はツリー構造で保存されます。例えば、「Will spring be far behind?」という文の場合、検索はまず「spring」という文字で始まる単語を検索します。次に、辞書のツリー構造に従ってノードを1つ下に移動し、「spring」の次の文字が「sky」である単語を検索します。さらにノードを1つ下に移動し、「will」の次の文字が「will」である単語を検索します。そのような単語が見つからない場合、検索は終了します。 (2)逆最大マッチング法(右から左へ) 一致するテキストを逆方向に検索します。例えば、文字列が「オンラインショッピングモール」の場合、結果は左に広がり、「オンライン」の前に表示されます。結果は「上海」や「北京」といった地域を表す文字列になります。「ショッピングモール」の前には、「ラブホーム」や「女性」といった、より具体的な定義を示す文字列が表示されます。 (3)最小分割法 各文から抽出される単語数を最小限に抑えるためには、他のさまざまな言語情報を活用してセグメンテーションの精度をさらに向上させる必要があります。 (4)双方向最大マッチング法(左から右へのスキャンと右から左へのスキャンの2回実行) 前方最大マッチング法と後方最大マッチング法を組み合わせることで、左側と右側をさらに深く掘り下げてマッチング結果を比較する双方向マッチング法が形成されます。 上記の方法は組み合わせることもできます。例えば、前方最大一致法と後方最大一致法を組み合わせて双方向一致法を構成することができます。中国語の単語は単一の文字で構成されるという特性上、前方最小一致法と後方最小一致法はほとんど使用されません。 一般的に、逆マッチングは順マッチングよりもセグメンテーション精度がわずかに高く、曖昧性も少なくなります。統計結果によると、順方向最大マッチングのみを使用した場合のエラー率は1/169ですが、逆方向最大マッチングのみを使用した場合のエラー率は1/245です。しかし、この精度は実際のニーズを満たすには程遠いものです。実際に使用されている単語セグメンテーションシステムはすべて、予備的なセグメンテーション方法として機械的な単語セグメンテーションを採用しており、他の様々な言語情報を活用することでセグメンテーション精度をさらに向上させる必要があります。 一つのアプローチは、特徴スキャンまたはフラグセグメンテーションと呼ばれるスキャン手法の改良です。この手法は、分析対象の文字列から明確な特徴を持つ単語を優先的に識別し、分割します。これらの単語をブレークポイントとして、元の文字列をより小さな文字列に分割し、機械的な単語分割を行うことで、マッチングのエラー率を低減します。 もう 1 つのアプローチは、単語の分割と品詞のタグ付けを組み合わせ、豊富な品詞情報を使用して単語の分割の決定を支援し、タグ付けプロセスを使用して単語の分割結果を検証および調整することで、分割の精度を大幅に向上させることです。 機械的な単語分割方法については、一般的なモデルを確立することができ、このトピックに関する専門的な学術論文もありますが、ここでは詳細には説明しません。 2. 理解に基づく単語分割法 この単語分割手法は、コンピュータに人間の文章理解をシミュレートさせることで単語認識を実現します。基本的な考え方は、単語を分割する際に統語的・意味的解析を行い、それらの情報を用いて曖昧性を処理することです。通常、この手法は単語分割サブシステム、統語的・意味的サブシステム、そして制御部の3つの部分で構成されます。 単語分割サブシステムは、中央制御装置の協調のもと、単語や文の統語的・意味的情報を取得し、単語分割の曖昧性を判断することができます。つまり、人間の文章理解プロセスをシミュレートするのです。この単語分割手法には、膨大な言語知識と情報が必要です。中国語の知識は汎用性と複雑性が高いため、様々な言語情報を機械が直接読み取れる形式に整理することは困難です。そのため、理解に基づく単語分割システムはまだ実験段階にあります。 3. 統計に基づく単語分割法 形式的な観点から見ると、単語は安定した文字の組み合わせです。したがって、文脈内で隣接する文字が頻繁に出現するほど、単語を形成する可能性が高くなります。したがって、隣接する文字が共起する頻度または確率は、単語形成の信頼性をよりよく反映できます。コーパス内の隣接する文字の各組み合わせの頻度を統計的に分析し、それらの相互情報量を計算し、2つの文字の相互情報量を定義し、2つの漢字XとYの隣接共起確率を計算することができます。相互情報量は、漢字間の組み合わせ関係の緊密さを反映しています。この緊密さが一定の閾値を超える場合、この文字グループは単語を形成する可能性があると考えられます。 この手法は、コーパス内の単語群の頻度を統計的に分析するだけでよく、セグメンテーション辞書を必要としません。そのため、辞書不要の単語セグメンテーションや統計的単語抽出法とも呼ばれます。しかし、この手法にも一定の限界があります。「this」「one of」「some」「my」「many」など、共起頻度は高いものの単語ではない一般的な単語群が抽出されることがよくあります。また、一般的な単語の認識精度が低く、時間と空間のオーバーヘッドが大きいという問題もあります。 実用分野における統計的単語分割システムはすべて、文字列マッチングによる単語分割に基本単語分割辞書(よく使われる単語の辞書)を用いています。同時に、統計的手法を用いていくつかの新語を識別し、つまり文字列頻度統計と文字列マッチングを組み合わせています。これは、マッチングによる単語分割の高速性と効率性を活用するだけでなく、辞書不要の単語分割の利点と文脈を組み合わせることで、新語を識別し、曖昧さを自動的に排除します(原理に関する関連紹介については、馬海翔のブログ「単語頻度統計の原理を用いて論文抄録を自動的に抽出する方法」の関連紹介を参照してください)。 もう一つのタイプは統計的機械学習に基づいています。まず、大量の事前に分割されたテキストを与え、統計的機械学習モデルを用いて単語分割の規則を学習(トレーニング)することで、未知のテキストの分割を実現します。中国語の各文字が単独で単語として機能する能力はそれぞれ異なることが分かっています。さらに、一部の文字は接頭辞としてよく登場し、他の文字は接尾辞(「者」、「性」)としてよく登場します。2つの文字が結合して単語を形成できるかどうかの情報を組み合わせることで、単語分割に関する多くの知識が得られます。この手法は、中国語の単語形成規則を最大限に活用して単語を分割します。この手法の最大の欠点は、大量の事前に分割されたコーパスを補助として必要とし、トレーニング時の時間と空間のオーバーヘッドが非常に大きいことです。 どの単語分割アルゴリズムがより正確であるかについては、明確な結論は出ていません。成熟した単語分割システムでは、単一のアルゴリズムだけに頼ることは不可能であり、異なるアルゴリズムを組み合わせる必要があります。例えば、海良科技の単語分割アルゴリズムは「複合語分割法」を採用しています。いわゆる複合法は、中医学と西洋医学を組み合わせたようなもので、機械的手法と知識的手法を総合的に用います。成熟した中国語単語分割システムでは、複数のアルゴリズムを組み合わせて問題を処理する必要があります。 VI. 中国語単語分割の技術的課題成熟した単語分割アルゴリズムがあれば、中国語の単語分割の問題は簡単に解決できるのでしょうか?現実はそうではありません。中国語は非常に複雑な言語であり、コンピュータにとって理解するのはさらに困難です。中国語の単語分割のプロセスには、まだ完全には解決されていない2つの大きな問題があります。 1. 曖昧性の特定 曖昧性とは、同じ文が2つ以上の方法で分割できることを指します。曖昧性には、交差的曖昧性と組み合わせ的曖昧性の2つの主要な種類があります。例えば、「superficial」という語句は、「superficial」と「surface」がどちらも単語であるため、「superficial」と「superficial」に分割できます。これは交差的曖昧性(交差的曖昧性)と呼ばれます。 このような曖昧さの重複は非常に一般的です。先ほど挙げた「着物」の例は、実は曖昧さの重複によって生じたエラーです。「化粧と服装」は「化粧と服装」と「化粧と服装」に分けられますが、人間の知識が理解できないため、コンピュータがどちらの選択肢が正しいのかを判断するのは困難です。 交差する曖昧性は、文全体に基づいて判断しなければならない組み合わせ的な曖昧性よりも比較的扱いやすいです。例えば、「このドアノブは壊れています」という文では「ハンドル」は単語ですが、「手を離してください」という文では「ハンドル」は単語ではありません。「将軍は中将を任命しました」という文では「中将」は単語ですが、「生産量は3年で倍増します」という文では「中将」はもはや単語ではありません。コンピュータはどのようにしてこのような単語を認識できるのでしょうか? コンピュータが交差的・組み合わせ的曖昧性を解決できるとしても、曖昧性には依然として難しい問題が存在します。それは真の曖昧性です。真の曖昧性とは、ある文が与えられた場合、人間でさえどの部分が単語でどの部分がそうでないかを判断できないことを意味します。例えば、「The ping-pong ball auction is over(ピンポンボールのオークションは終わった)」は、「The ping-pong ball auction is over(ピンポンボールのオークションは終わった)」と「The ping-pong ball auction is over(ピンポンボールのオークションは終わった)」に分割できます。他の文の文脈がなければ、「auction(オークション)」がこの文脈において単語として扱われるかどうかは、おそらく誰にもわかりません。 2. 新しい単語の認識 名前付きエンティティ(人名、地名)、新語、または専門用語で言えば、語彙外語は、単語分割辞書には含まれていないが、実際に単語と呼ぶことができる単語です。 最も典型的な例は人名です。人間は容易に理解できます。「王俊湖は広州に行きました」という文では、「王俊湖」は人名なので単語です。しかし、コンピュータが認識するのは困難です。もし「王俊湖」を辞書に単語として収録するとしたら、世界には膨大な数の名前があり、常に新しい名前が追加されています。これらすべての名前を収録するのは非効率的で膨大な作業になります。たとえこの作業が完了したとしても、依然として問題は残ります。例えば、「王俊湖は虎のような性格です」という文では、「王俊湖」は単語として成立するのでしょうか? 人名以外にも、組織名、地名、製品名、商標名、略語、省略記号など、扱いが難しい単語が数多く存在します。しかも、これらは人々が頻繁に使用する単語です。そのため、単語分割システムにおける新語認識は、検索エンジンにとって非常に重要です。新語認識の精度は、単語分割システムの品質を評価する重要な指標の一つとなっています。 解説: 検索エンジンにとって、中国語の単語分割において最も重要なのは、すべての結果を見つけることではありません。何十億ものウェブページの中からすべての結果を見つけることは無意味であり、誰もすべてを読むことはできないからです。最も重要なのは、最も関連性の高い結果を最初にランク付けすることです。これは関連性ランキングとも呼ばれます。中国語の単語分割の精度は、検索結果の関連性ランキングに直接影響することがよくあります。定性的に言えば、検索エンジンの単語分割アルゴリズムやシソーラスの違いは、ページに返される結果に影響を与えます。 -終わり- |