WOPAN

Baidu によるウェブサイトの異常なクロールの原因は何ですか?その影響と解決策は何ですか?

概要は以下のとおりです。

1. クロール例外とは何ですか? Baidu のクロール例外とは何ですか?

2. Baidu による異常なクロールが発生する理由は何ですか?

3. ウェブサイトのクロール異常の原因は何ですか?

4. Baidu のクロール異常はウェブサイトにどのような影響を与えますか?

5. ウェブサイトのクロールエラーのトラブルシューティング

I. クロール例外とは何ですか? Baidu のクロール例外とは何ですか?

クロールエラーとは、検索エンジンのスパイダーがウェブサイトのページをクロールできない状況を指します。具体的な原因については、以下で説明します。

Baiduのクロールエラーとは何でしょうか?簡単に言うと、Baiduのウェブクローラー(baiduspider)が正常にクロールできないことを意味します。これがBaiduのクロールエラーです。上の画像(出典:オンライン)に示すように、9月3日にBaiduクローラーがクロールを試みたとき、接続が2回タイムアウトしました。

II. Baidu による異常なクロールが発生する理由は何ですか?

Baiduのクロール異常の主な原因は、ウェブサイトの異常とリンクの異常の2つに分類されます。下の画像をご覧ください。

ウェブサイトのエラー理由

1. DNSエラー

Baiduのウェブクローラー(Baiduspider)がウェブサイトのIPアドレスを解決できない場合、DNSエラーが発生します。これは、ウェブサイトのIPアドレスが正しくないか、ドメイン登録業者がBaiduのクローラーをブロックしていることが原因である可能性があります。

WHOISまたはhostsを使用して、ウェブサイトのIPアドレスが正しく、解決可能かどうかを確認できます。IPアドレスが間違っている場合、または解決できない場合は、ドメインレジストラに連絡してウェブサイトのIPアドレスを更新してください。

2. 接続タイムアウト

フェッチ要求接続がタイムアウトしました。サーバーの過負荷またはネットワークの不安定さが原因である可能性があります。

3. データキャプチャタイムアウト

フェッチリクエスト接続が確立された後、ページのダウンロード速度が遅すぎるため、タイムアウトが発生しました。サーバーの過負荷や帯域幅不足などが原因として考えられます。

4. 接続エラー

接続できないか、接続が確立された後に他のサーバーによって接続が拒否されました。

リンクエラーの理由

1. アクセスが拒否されました

Web クローラーがクロールを開始し、HTTP コードが 403 エラーを返しました。

2. ページが見つかりません

Web クローラーがクロールを開始し、HTTP コードが 404 エラーを返しました。

3. サーバーエラー

Web クローラーがクロールを開始すると、返される HTTP コードは 5XX です。

4. その他のエラー

Web クローラーがクロールを開始すると、返される HTTP コードは 403 と 404 を除く 4XX になります。

上記の 403、404、4XX、および 5XX コードはすべて、Web サイトの HTTP ステータス コードです。

III. ウェブサイトのクロール異常の原因は何ですか?

ウェブサイトのクロール異常の主な理由は次のとおりです。

1. サーバーエラー

サーバー接続の問題の最も可能性の高い原因は、ウェブサイトのサーバーが大きすぎて、その処理能力を超えて動作していることです。ブラウザにドメイン名を入力して、ウェブサイトにアクセスできるかどうかを確認してください。サーバーの問題により、ウェブクローラーがウェブサイトのサーバーに接続できなくなり、クロールに失敗する可能性があります。

2. ドメイン名の有効期限が切れている

ドメイン名の有効期限が切れると、ウェブサイトは確実にアクセスできなくなり、ドメイン名の解決も失敗します。このような場合は、ドメインレジストラに連絡して問題を解決し、他の誰かが登録していないか、あるいは更新できるかどうかを確認してください。

3. ネットワークオペレータの異常

China Telecom と China Unicom はどちらもネットワーク オペレータであり、これらは Web クローラーがアクセスできない Web サイトです。

問題の原因がネットワーク オペレータ (China Telecom または China Unicom) である場合は、ネットワーク サービス プロバイダに連絡するか、CDN サービスを購入してください。

3. robots.txtファイルの設定の問題

robots.txtの主な目的は、重要でないファイルをブロックし、検索エンジンにそれらのページをクロールしないように指示することです。ただし、重要なページもブロックしてしまう可能性があります。robots.txtの設定を確認してください。

4. デッドリンク要因

当初は機能していたものの、後に無効になったリンクはデッドリンクと呼ばれます。デッドリンクにリクエストが送信されると、サーバーは404エラーページを返します。デッドリンクは、Baiduウェブマスターツールプラットフォームからデッドリンクファイルを送信することで解決できます。


5. マルウェアに感染したウェブサイト

ウェブサイトが侵害された場合は、悪意のあるファイルを特定して削除してください。ウェブサイトを復元し、ユーザー名とパスワードを変更し、セキュリティ設定をリセットして、今後の侵害を防止してください。ファイルが見つからない場合は、ウェブサイト構築ソフトウェア全体を別のものに置き換えることをお勧めします。

IV. Baidu のクロール異常はウェブサイトにどのような影響を与えますか?

ウェブサイトに検索エンジンのスパイダーが正常にクロールできない大量のコンテンツが含まれている場合、Baidu の検索エンジンは、そのウェブサイトのユーザー エクスペリエンスに欠陥がある (ウェブサイトを訪れたユーザーが望むものを入手できず、エクスペリエンスが低下する) と判断し、ウェブサイトの評価を下げます。

さらに、ウェブサイトのクロール、インデックス、そして権威性にもある程度の悪影響が及ぶ可能性があり、さらに深刻な場合には、Baiduからウェブサイトが受け取るトラフィックに直接的な影響を与える可能性があります。したがって、Baiduによる異常なクロールは非常に深刻な問題であり、発見された場合は速やかに解決する必要があります。

これをどうやって解決するのでしょうか?詳しくは続きをお読みください。

ウェブサイトのクロール エラーのトラブルシューティング:

1. エラータイプ5XXが発生する

このような状況が発生する場合、ウェブサイト自体が検索エンジンに5XXエラーを報告しているわけではなく、正常に開く場合もあります。では、なぜウェブマスターのバックエンドはこのエラーを表示するのでしょうか?

このような問題がウェブサイトのサーバーに原因がある場合、503などの特定のステータスコードの意味を技術チームに直接伝え、解決を依頼してください。それでも問題が解決しない場合は、別のサーバーに切り替えることをお勧めします。

2. データクロール中に DNS エラーが発生します。

SEO初心者の多くは、ウェブサイトにアクセスできないことに気づくと、すぐにウェブホスティングプロバイダーに連絡します。しかし、ドメインDNSサーバーにも問題がある場合があります。ウェブサイトにアクセスできないなどの問題が発生した場合は、まず問題の正確な原因を特定する必要があります。

ドメインのDNSに問題がある場合、Baiyang SEOはDNSプロバイダーの変更を推奨します。一部のDNSプロバイダーでこの問題が発生しており、将来的に再発する可能性があるためです。

乗り換えるなら、より大規模なDNSサービスプロバイダーに乗り換えるべきです。例えば、Alibaba Cloudに買収されたWanwangは良い選択肢です。何と言っても大企業であり、安定性も非常に優れています。

3. データ取得中にタイムアウトが発生しました。

今日のSEOランキングの世界では、ユーザーが王様です。ユーザーがウェブサイトのページにすぐにアクセスできない場合、他のサイトへ行ってしまうでしょう。これは検索エンジンのスパイダーにも当てはまります。スパイダーがサイトをすぐにクロールできない場合、クロールタイムアウトが発生します。

前述の通り、このクロールタイムアウトは主に帯域幅不足、またはウェブサイトのページサイズが大きすぎることが原因で発生します。そのため、以下の解決策をお勧めします。

(1)画質に影響を与えずに大きな画像を圧縮する

(2)ウェブサイト上のJSスクリプトファイルタイプの使用を減らすか、一部のJSファイルを結合し、技術スタッフに明確に説明します。

(3) ウェブサイト全体のページの長さ、特にホームページの長さを調整しましょう。多くのウェブサイトでは、ホームページが10画面以上の長さになっていますが、ほとんどのユーザーはせいぜい3~5画面程度しかスクロールしません。ホームページが長ければ長いほど、読み込みに時間がかかります。

(4) ウェブページ内の内部リンクの数。一般的に、ページ間の内部リンクの数は500を超えないことが推奨されています。実際、リンクの数が多いほど、スパイダーがページをクロールする回数が増えます。小規模なウェブサイトでは、一般的にこの問題は発生しません。

まとめると、Baiduによる異常なウェブサイトクロールの問題に関しては、成熟したウェブサイト構築プログラムとAlibaba Cloudのような大規模なサービスプロバイダーの利用が推奨されます。Taobaoで数百元でウェブサイトを構築し、無名のサービスプロバイダーに依頼してコストを節約しようとするのはやめましょう。これは最終的に損失につながります。

この記事は比較的シンプルです。実際、SEO対策には、公式ウェブサイト管理者アカウントの機能を使いこなす必要があります。技術的な知識は必要ありませんが、基本的な原理を理解しておく必要があります。そうでなければ、問題が発生した場合に誰に連絡すればよいか分からなくなってしまいます。

-終わり-