|
@Balangkanをフォローするには、上記の青いテキストをクリックしてください。 これはバロンズマガジンの第63回記事です。 著者 |バラン編集者 |バラン 出典 |バランカン (ID:balangk) 転載許可については、当社までご連絡ください(WeChat ID: g0013g)。 序文 小型ロボットですが、大きなパワーを持っています。 01 はじめまして 皆さん、こんにちは!ロボットです!今日のSEOチュートリアル交流会に参加できて本当に嬉しいです!ついに私の出番です!初心者の皆さん、初めまして!どうか優しくしてくださいね。それでは、自己紹介をさせていただきます。 —01— あなたの姓と名は何ですか? 英語名は「 robots」 中国語の発音: Ruo Bots SEO用語: Webクローラープロトコル 公式の説明: robots.txtファイルは、ウェブサイトとウェブクローラー間のプロトコルです。クローラーに許可されている権限を伝えるだけでなく、検索エンジンのスパイダーがウェブサイトにアクセスする際に最初にチェックするファイルでもあります。 この合意は絶対的なルールではなく、一般的に受け入れられているルールです。したがって、これに従うかどうかは任意です。 —02— 私に何ができる? ウェブクローラー 私の役割を紹介する前に、まずWeb クローラーとは何かを説明させてください。 Web クローラーは、情報をクロールしてデータを取得するために大手検索エンジンが独自に開発した一連のテクノロジです。 これらの情報とデータはクロールされた後、検索エンジンのサーバーに取り戻され、保存されます。これがウェブクローラーの機能です。 私の義務 ウェブサイトが公開されると、検索エンジンのクローラーがすぐに動き出します。彼らの目的は、ウェブサイトからコンテンツを収集し、パッケージ化してサーバーに保存することです。 私たちのウェブサイトには大量のクモが這い寄ってくるので、誰かがこれらの小さなクモたちを楽しませなければなりません。私の役割は、クモたちを迎え入れ、這い回る行動を規制することです。いわばツアーガイドのような存在です。 キャプチャプロトコル この小さなクモたちはとても活発でエネルギッシュです。ウェブサイトにやって来てデータをクロールするには、誘導する人が必要です。そこで、クロールプロトコルを作成しました。このプロトコルファイルはrobots.txtです。 この契約では、どのデータをクロールできるか、どのデータをクロールすべきでないかについて、Web クローラーと合意しました。 これらの小さなロボットは、プロトコルを確認した後、効率的にデータをスクレイピングできます。同時に、このプロトコルは受付スタッフの作業負荷を大幅に軽減します。それが私の仕事です。 理論上は、すべてのウェブサイトが私が作成したクロールプロトコルを備えているはずです。しかし、標準化されていないウェブサイトもあり、robots.txtファイルさえ作成していません。これは許容できません。 したがって、robots.txt プロトコルの標準化は、SEO 最適化に影響するため、大部分のサービス指向の Web サイトにとって不可欠です。これについては後で説明します。 したがって、この契約書の書き方を理解することは特に重要です。私の責任については上記で説明しました。次に、robots.txtプロトコルの記述形式について詳しく説明いたします。 robots.txt プロトコルはプレーンテキストファイルです。このファイルはウェブサイトのルートディレクトリに配置され、 www.yourdomain.com/robots.txt からアクセスできます。 ウェブクローラーが当社のウェブサイトにアクセスすると、まずここに来て私を見つけ、挨拶をしてから、ウェブサイトの閲覧を開始します。Zhihuの公式サイトを例に挙げてみましょう。 Zhihuの公式サイト robots.txt Zhihuの公式サイトにあるrobots.txtファイルを例に挙げましょう。(画像を参照) 最初の例を詳細に示します。 a. フォーマットと接尾辞 robots.txt ファイルは、Web サイトのルート ディレクトリに配置する必要があり、ファイル名はすべて小文字にする必要があります (robots.txt; 拡張子は「.txt」)。 b. 文法の説明 ユーザーエージェント 検索エンジンスパイダーの種類を定義する 許可しない 検索エンジンのスパイダーによるクロールが禁止されるオブジェクトを定義します。 許可する 検索エンジンのスパイダーがクロールできるオブジェクトを定義します。 *番号 アスタリスク (*) もワイルドカード文字であり、「任意の」または「何でも」を意味し、ここではあらゆる種類のクモを指します。 $記号 「$」記号もワイルドカードであり、特定のリンクを指定することを示します。 ?番号 疑問符 (?) もワイルドカード文字であり、疑問符 (?) を含む動的なアドレスを表します。 c. 文法例 例 1 - Baidu のクロールは許可しますが、Google のクロールはブロックします。 ユーザーエージェント: Baiduspider 許可する: / ユーザーエージェント: Googlebot 許可しない: / 例 2 - .asp で終わる URL を傍受する ユーザーエージェント: * 許可しない: /*.asp$ これは、すべての検索エンジンスパイダーが「asp」という文字を含む URL をクロールできないことを意味します。 例 3 - 「?」を含むすべての URL のクロールを禁止する ユーザーエージェント: * 許可しない: /*?* これは通常、動的リンクを含むウェブサイトで使用されます。動的リンクはスパイダークローリングやSEOランキングに悪影響を与えるため、ブロックする必要があります。 例4 - アスタリスク(*)を使用して文字を一致させる構文 ユーザーエージェント: * 禁止: /a*/ これは、すべての検索エンジンスパイダーが文字「a」で始まるファイルをクロールできないことを意味します。 例5 - ファイル「a」(1)の下にあるページを除くすべてのページのクロールを防止します。 ユーザーエージェント: * 許可しない:/a/ 許可:/a/1.html 必ず最初に Disallow を記述し、次に Allow を記述してください。 Disallow が最も優先度が高く、Allow が2 番目に優先度が高いため、Disallow が不要な場合は Allow を直接記述できます。 クモの種類は数万種に及びます。国内外で命名可能なクモの種類をいくつかご紹介します。 Baidu Spider: Baiduspider (これは一般的な用語です) Baidu Spiderには実際には多くの種類があり、「Baiduspider」は単なる総称です。他にも、Baiduspider-image(画像クロール専用)、Baiduspider-video(動画クロール専用)、Baiduspider-news(ニュースクロール専用)などがあります。 360スパイダー: 360spider 360 の Web クローラーは非常に攻撃的であり、一度クロールを開始すると、robots.txt ファイルを使ってもそれを止めることはできません。 ユーダオボット:ユーダオボット NetEase が所有する製品。 蘇狗蜘蛛:ソゴウニューススパイダー 現在はテンセントによって戦略的にコントロールされています。テンセントは元々Sosoという独自の検索エンジンを持っていましたが、惨敗し、Sogouと合併しました。現在WeChatで使用されている検索機能はSogouが提供しています。 テンセントはモバイル検索で素晴らしい成果を上げており、検索市場への参入は当然のことと言えるでしょう。 さらに、Sogouには様々な種類のスパイダーが存在します。どんなスパイダーなのか知りたい方は、BaiduのSogou検索結果を見てください。BaiduとSogouは熾烈な競争を繰り広げています。 中国検索:チャイナソスパイダー China Searchの親会社は非常に強力で、7つの主要な中央報道機関によって支配されています。セルフメディアを運営している場合、公式の情報やニュースを見つけるのに最適な場所であり、新しいメディア編集者にとっても良い選択肢です。 中国検索 クモを探す:イソウスパイダー YiSou はご存知ないかもしれませんが、Shenma Search はご存知でしょう。YiSou Spider は、Shenma 検索エンジンのスパイダーです。 神馬検索は、モバイルインターネットに特化した検索エンジンです。ユーザーにとって便利で高速、そしてオープンなモバイル検索体験を提供することに尽力しています。Microsoft、Google、Baidu、360といった国内外のIT企業のベテラン社員で構成されています。 あなたの製品の視聴者層が広い場合、Shenma Search は SEO 戦略を実装する必要があり、時間をかけて調査する価値があります。 イースースパイダー 深セン市易想天下科技有限公司はモバイル検索に特化した小規模な検索エンジンを立ち上げましたが、百度や360と比べると本当に弱すぎます。ブロックした方がいいでしょう。 インスタントスパイダー:ジケスパイダー 「Jike Search」は、People's Search Network株式会社が2011年6月20日に立ち上げた総合検索エンジンプラットフォームであり、ブロックすることも推奨されています。 Etao.com スパイダー:エタオスパイダー Etao.comはAlibaba傘下のeコマースサイトです。中古品マーケットプレイス「Xianyu」で商品を売買して副収入を得るのが好きな友人にとって最適なプラットフォームです。2つ目は、1688のワンクリックドロップシッピングサービスです。 海外にはクモが多すぎるので、この記事ではよく知られているクモをいくつか紹介します。 Googlebot (Googleスパイダー) Baidu のランキング メカニズムの多くは Google から借用されているため、対外貿易の SEO を行う人や、海外で独立した Web サイトを構築する人は、Baidu のランキング メカニズムをよく理解し、徹底的に研究する必要があります。 MSNスパイダー: MSNbot Microsoftのウェブクローラー ロシア語版Yandex: YandexBot ロシアのLinkpadBot:リンクパッドボット スウェーデン:スピーディー・スパイダー 英国: MJ12bot Yahoo 検索は歴史の中に追いやられ、ここでこれ以上議論されることはないでしょう。 以上、いろいろ紹介しましたが、ここからはSEOと私の遠い関係についてお話します。 ウェブサイトには、重要でない画像が多数含まれているほか、動的リンクや冗長なファイルも多数存在します。これらのリンクは検索エンジンのスパイダーにとってクロールが困難であり、スパイダーエクスペリエンスを低下させています。 画像が大きすぎると、スパイダーはそれを完全にクロールできず、スパイダーのクロール リソースがある程度無駄になります。 こうした未知の要素を把握できないため、検索エンジンに持ち帰ることになります。 検索エンジンがこれらのページや画像を完全に認識できない場合、当社の Web サイトは信頼されなくなります。 不信感は、Web ページを評価する際に非常に低いスコアにつながり、その結果、基本スコアが低下し、インデックスから除外され、最終的にはランキングに悪影響を及ぼします。 これが、画像を圧縮し、モックアップに JavaScript を使用しないようにし、コードを簡素化し、動的リンクに疑似静的プロパティを適用する根本的な理由です。 Web クローラーとユーザーはどちらも、Web サイトにアクセスするときに、具体的には帯域幅の形で Web サイト サーバーのリソースを消費します。 ウェブサイトに多数のページがある場合、それらをクロールするにはより多くのウェブ クローラーが必要となり、ウェブ クローラーが増えるとより多くの帯域幅が消費されます。 ウェブサイトの帯域幅が固定されている場合、ウェブクローラーがより多くの帯域幅を使用すると、ユーザーが使用する帯域幅は少なくなります。 これは必然的にユーザーのウェブ閲覧体験に影響を与えるため、ウェブサイトの運用にロボット プロトコルを活用することの重要性は明らかです。 初心者の方は、上記の2点に留意してください。ウェブサイトを公開する前に、ホームページ、カテゴリページ、そしてURL書き換え(擬似静的URLを使用)を計画する必要があります。そして、適切なrobots.txtファイルを作成してください。 robots.txt プロトコルはウェブサイトの運用に非常に重要なので、記述する際には慎重に確認する必要があり、Disallow の使用は慎重に行う必要があります。 間違った方法を使用すると、ウェブサイトのセクションやページが長期間インデックスされない状態になる可能性があります。ランキングはインデックスに基づいており、インデックスがなければランキングは存在しません。 robots.txtプロトコルは「紳士協定」のようなものです。robots.txtを記述すれば、スパイダーがサイトをクロールしなくなるわけではありません。一部のスパイダーは強制的にクロールするため、記述しても効果はありません。 これは単なる慣習であり、絶対的なルールではありません。ウェブサイトのログ分析で見慣れないウェブクローラーの痕跡が見つかった場合は、ウェブサイトのリソースを節約するために、それらのスパイダーをブロックすることを選択できます。 ウェブサイトを公開する前に、ローカルテストを実施し、robots.txt ファイルを作成し、最後にパッケージ化してサーバーにアップロードしてから公開します。 ローカルテストなしでデプロイする場合、まずrobots.txtですべてのウェブクローラーをブロックします。次に、301リダイレクトを実装します。 最後に ロボットについてはこれまでたくさん書いてきましたが、ほとんどの点を詳細に取り上げたので、またお別れする時が来ました。 今回のSEOチュートリアル「Ruobotsです。初めまして」はこれで終了です。次回は「robots.txtの正しい書き方」について解説します。それではまた次回! 面白い人になってください、バランさん、さようなら! 著者: バラン 初出:バラン駅 バラン駅: http://www.8alang.com/ -終わり- 著者について バラン: 90年代生まれの興味深い若者です。従来型の営業職に就いた後、SEOに携わり、インターネット業界に転身しました。現在はフリーランスとして活動し、のんびりとした若者です。 書くのは簡単ではありませんが、良いと思います! 「いいね!」をクリックして友達とシェアしましょう! フォローしていただきありがとうございます! 下の画像を長押ししてQRコードをスキャンし、フォローしてください。 興味深い人になりましょう |