|
はじめに:これはA/Bテストシリーズの第2回です。A/Bテストの実践的な応用のための指標を理解したい場合は、この記事のこの部分だけをお読みください。理論的な基礎を理解したい場合は、まず第1回の記事をお読みください。 V. 信頼区間と信頼水準
確率論と数理統計学は、サンプリングと分析を用いてデータ全体を予測する科学を説明しています。実験は本質的に、サンプリングされたデータを用いて全体的な効果を予測することを目的としています。 高校で学んだように、あらゆる測定と評価には誤差が伴います。観測値または計算値と真の値との差、特に統計誤差とは、測定、計算、または観察中に特定の条件や制御できない要因によって、ある量が標準値または規定値からどれだけ逸脱するかを指します。重要なのは、誤差は避けられないということです。 したがって、推定戦略には点推定と区間推定という2つの方法があります。神の視点から見れば、真理は一つしかありません。例えば、神は14億人の中国人の身長をスキャンするだけで平均身長を知ることができます。しかし、人間にはそれができないため、標本を用いて推定する必要があります。例えば、平均身長を170cmと推定するのは点推定です。一方、範囲推定では、平均身長は170cmと推定されますが、誤差は±3cmです。範囲[167, 170]の推定値は区間推定です。 統計学において、区間推定とは、点推定に基づいて推定された母集団パラメータの範囲です。この範囲は通常、標本統計量に推定誤差を加算または減算することで得られます。 明らかに、区間予測は点予測よりも厳密です。誤差に基づいて得られる数値区間は、統計的確率における信頼区間と呼ばれます。簡単に言えば、信頼区間は誤差の範囲です。理論的には、誤差範囲が小さいほど良いです。例えば、中国人の身長を予測する場合、0~10メートルの範囲を与えることは必ずしも間違いではありませんが、誤差範囲が大きすぎると信頼できません。前述の中心極限定理から、標本平均値は母平均の周りで変動し、正規分布に従うことが分かっています。したがって、この範囲に母平均が含まれる確率を明確に把握しながら、十分に小さい誤差範囲を与える必要があります。 したがって、信頼水準、あるいは信頼スコアとは、ある区間に母平均が一定の誤差範囲内で含まれる確率を評価する値です。例えば、95%の信頼水準が必要だとします。これは、100回のサンプリングを行った場合、母平均を含む信頼区間が95個あることを意味します。これが信頼水準の最も直接的な理解です。母平均が一定の誤差範囲内に含まれる確率を計算する値が「信頼水準」または「信頼スコア」です。 ここで、2つの概念を改めて確認することが重要です。まず、誤差の範囲は信頼区間を表します。この範囲に母平均が含まれる確率は、信頼水準または信頼度と呼ばれます。言い換えれば、信頼区間は絶対的な信頼度ではなく、単なる評価区間であり、その信頼水準を評価するための評価指標が必要です。 上記の結論は、信頼度が高く、区間が広いほど、信頼区間に母集団の平均統計が含まれる可能性が高くなることを示しています。 私たちが日常的に使う信頼度は、ほとんどの場合95%です。なぜ95%なのでしょうか?それには2つの理由があると思います。 1) 正規分布における95%信頼水準の誤差範囲は、正確に2標準偏差σ(標準偏差または実験標準偏差とも呼ばれ、確率論や統計学において統計的分布の度合いを示す指標として最も一般的に用いられる)です。この範囲は広くなく、信頼水準は比較的高いです。下の図をご覧ください。 2) 95% という信頼度は与えられたものではなく、人為的に設定された数値です。 一部の実験では、小文字の誤差範囲が求められます。例えば、上図の1標準偏差σの範囲は、信頼度68%に相当します。しかし、誤差範囲が小さすぎると信頼度が非常に低くなり、実験結果の評価が困難になります。そのため、より近似した数値が使用されるようになりました。現在では、95%信頼区間がデフォルトの標準となっています。主な理由は、第一に、誤差範囲が2標準偏差とそれほど大きくないこと、第二に、95%信頼度が比較的高いことです。 データの信頼性が低い場合はどうでしょうか?実験のデータが限られている場合、信頼区間にすぐに収束しない可能性があります。この場合、実験期間を延長するか、スループットを向上させる必要があります。現在の製品では、週末と平日の影響が顕著に現れることが多く、多くの実験では分析のために7日間以上のデータを蓄積することが推奨されています。 要約すると、95%信頼区間とは、私たちが求めている平均値予測の範囲です。100回のサンプリングを行うと、母平均を含む信頼区間は95個になります。これは、信頼水準を最も直接的に理解する方法でもあります。 VI. 意義 有意性は実験の重要な特性であり、A/B実験において実験群と対照群の間に有意差があるかどうかを判断するための中核的な指標です。実用上、実験で指標が決定された後、最も頻繁に使用される指標は信頼区間と実験効果が有意であるかどうかです。したがって、実験の有意性を解釈することが最も重要になります。 有意性とは、簡単に言えば、実験指標が対照群と「十分な」数値的差異を持っているかどうかです。 実験が重要であるかどうかをどのように判断するのでしょうか? 有意性の判定は実際のアプリケーションでは非常に一般的であり、最も頻繁に使用される実験特性の 1 つです。 理解しにくい概念は、一般化が難しく、記憶に残りにくい傾向があります。そのため、顕著性を理解するために、まずはシンプルで使いやすい知識ポイントから始めましょう。 重要性を簡単に記憶し理解するには、次の 2 つのポイントを覚えておくだけです。 1. 両方の指標がプラスの場合、大幅な改善:目標指標の改善の信頼区間(通常は 95% の信頼水準)の上限と下限が両方ともプラスで、実験指標とコントロール指標の両方の改善もプラスの場合、実験指標の改善は有意であると見なすことができます(下の表を参照)。信頼区間の上限と下限で 1 つの指標がプラスで、もう 1 つがマイナスの場合(図 2 を参照)、指標の改善が 5.26% と比較的大きな改善であっても、信頼区間が [-3%, 8] であるため、実際の全体的な指標は -3% から 8% の範囲になる可能性があります。5.26% の改善ポイントはこの信頼区間内であるため、実験を拡大した後に改善が確実に得られるとは限りません。
2. 同じ方向の負の値は有意な影響を示します。対象指標の減少量の信頼区間(通常は95%信頼水準)の上限と下限が両方とも負であり、実験指標と対照指標の両方の減少量も負である場合、実験指標は有意に減少したとみなすことができます。以下の表を参照してください。
3. 信頼区間が1つ正で1つ負の場合、効果は有意ではありません。信頼区間は、実際の全体指標がこの範囲内に収まる可能性があることを示しているため、取引量急増後の有意な減少は保証されません。ただし、両方の信頼区間が負で、実験指標も負の場合、実験指標が有意に減少したとより確実に結論付けることができます。
簡単に言えば、実験指標の範囲の上限と下限が両方とも正であり、実験指標の増加も正である場合、実験指標は大幅に改善され、実験指標の範囲の上限と下限が両方とも負であり、指標も負である場合、実験指標は大幅に減少したことになります。
現在の統計学では、発生確率が5%未満の事象は一般的に「あり得ない事象」と呼ばれます。統計分析では、 α < 0.05の確率は慣習的に「有意」とみなされます。一般的に用いられる検定法には、Z検定とT検定があります。 実際の理論は複雑なため、紙面の都合上、ここでは割愛させていただきます。私の理解については、後ほど別途共有するかどうかを決めたいと思います。ご興味のある方は、盛周編著、上海交通大学出版局発行の『確率論と数理統計』第4版第8章「仮説検定」をご参照ください。計算と有意性の証明について詳細な説明が記載されています。 VII. 実験的なトラフィック分割とユーザー階層化
私たちの実験はすべてサンプリングによって行われます。実験結果が実際の効果をより正確に反映するように、全体のユーザー分布に可能な限り近いユーザー分布をサンプリングすることが目標です。そのため、トラフィックの迂回にはいくつかの原則があります。
1.均一性:両方の実験におけるユーザーのサンプリングは、可能な限り均等に分布し、一貫した属性を持つ必要があります。これには、地域、都市、年齢、男女比、オペレーティングシステムなどの要素が含まれます。不均等な分布は、シンプソンのパラドックスに容易につながります。
2.ランダム性:均一性を確保し、実験要件を満たす一方で、ユーザーサンプリングは可能な限りランダムに行う必要があります。現在、インターネットではハッシュアルゴリズムを用いてユーザーID (通常はデバイスIDまたはユーザーID )を法として、サンプリング対象とするサブセットを選択する方法が一般的です。
3.適切なサンプルサイズは非常に重要です。サンプルサイズが不十分だと、実験データの変動が大きくなり、結果の信頼性が低下したり、実験期間が長くなりすぎたりして、最終的には分析効率が低下する可能性があります。しかし、大手インターネット企業は通常、数千万人のデイリーアクティブユーザー(DAU)を抱えているため、 2%または5%のサンプリングで十分であり、通常は問題ありません。必要に応じて、適切な最小サンプルサイズについては、こちらのウェブサイト(https://www.evanmiller.org/ab-testing/sample-size.html)をご参照ください。
サンプル分割後、実験ユーザーが1層しかない場合、同時に実行できる実験数は非常に限られます。広告を例に挙げると、スタイルやフォーマットをターゲットとする実験、広告配置戦略をターゲットとする実験、予測モデルをターゲットとする実験などがあります。実験トラフィックが1層しかない場合、実験ボリュームが10%増加したとしても、その層では同時に10件の実験しか実行できません。この実験効率は極めて低いため、ユーザーセグメンテーションのロジックが必要になります。
1.直交階層化: 同じトラフィックを複数の実験階層に分割できます。主な目的は、各階層の実験ユーザーが他の実験階層に均等に分散されるようにし、「直交」ユーザーの効果を実現することです。
いわゆる直交階層化は、実際には互いに影響を及ぼさないトラフィック階層化として理解することができ、それによってトラフィック再利用の効果を実験することができます。 「直交」とは、文字通り垂直で干渉しないという意味ですが、実際には上位層の各実験の影響が下位層に均等に分散され、それらの効果が打ち消し合い、下位層の実験の評価に影響を与えないことを指します。これが重要なポイントです。実際には各層の影響は互いに影響を及ぼしますが、ユーザーをセグメント化することで、その影響は下位層のトラフィックに均等に分散され、最終的に打ち消し合います。図で表すと、下の図に示すように、UI層と戦略層の2つの実験層があります。UI層では、青と白の2つのUIスタイルを最適化する実験が開始されます。2つのUI層の実験が戦略層の下の実験の50%に均等に分散されると、 UI層の実験の影響は打ち消し合います。したがって、戦略層で実験を行う際には、戦略層の要因の影響を個別に考慮することができます。
実験的なトラフィックは、ビジネスニーズに応じて様々な方法でセグメント化できます。理論的には、1つのトラフィックセグメントをN層に分割できます。下の図は、トラフィックセグメントの構造を示しています。1つの層は「スルー層」で、春節紅包キャンペーンなど、すべての機能に影響を与える運用アクティビティや機能に使用されます。キャンペーンは包括的なものであるため、 UI、戦略、コンテンツ、その他のモジュールに変更を加える必要があります。そのため、スルー層は春節紅包キャンペーンの評価に使用されます。残りのトラフィックは、 UI層、レコメンデーション戦略層、コンテンツモジュール層など、複数の層に分割されます。
2.異なる実験レイヤーは相互に排他的なロジックを持つ必要があります。 簡単に言えば、異なるビジネスロジックは異なるレイヤーに配置する必要があり、同じビジネスロジックは同じレイヤーでしか実行できません。例えば、広告のスタイルやコピーを調整するといった実験は、同じレイヤーでしか実行できません。スタイルやコピーを調整するために2つのレイヤーを使用すると、これらの2つのレイヤーは互いに影響を及ぼしてしまいます。 もっと端的に言えば、ユーザーIDのリクエストが複数の実験IDに同時にヒットする可能性があります。異なるレイヤーに同一のロジックが2つ存在すると、論理的な混乱が生じます。開発者がロジックを処理する際に、 2つの実験IDのロジックが広告スタイルを調整するものであり、1つは動的広告に、もう1つは静的広告に調整するものであることに気付くと、最終的に1つしか効果を発揮できず、論理的な混乱が生じます。
VIII. 単一要素原則 「最後だが最も重要なこと」とは、実験を行う際に、各実験で単一の要因のみを評価する必要があることを意味します。つまり、複数の影響要因を組み合わせてはいけません。そうしないと、どの要因が実験結果に寄与したかを識別することが困難になります。 |
A/Bテストを深く理解するのに役立つ2つの記事(パート2)
関連するおすすめ記事
-
Baiyang SEO: データマイニングと情報収集 – 人間と機械のどちらの方が信頼性が高いのでしょうか?
-
クリック課金広告に直面した上司は、「効果がない」と言います。クリック課金広告チームは、「あなたたちは理解していない!」と答えます。
-
消費者に早く注文してもらうには?「Super Conversion Rate」のChen Yong氏へのインタビュー
-
広告のコンバージョン率が低いですか?広告クリエイティブが間違っている可能性があります。
-
SEM 競合他社がトラフィックを盗む方法:
-
万科の崔小凡氏から明島クラウドのオフラインストアまで、B2Bマーケティングにはさまざまなアプローチがあります。