WOPAN

A/Bテストを深く理解するのに役立つ2つの記事(パート1)

はじめに:A/Bテストの実践的な応用のための指標を理解したい場合は、この記事のパート2に進んでください。理論的な基礎を理解したい場合は、この記事から読み始めてください。

I. A/Bテストを実施する理由:

AB実験の前身はランダム化比較試験-二重盲検試験であり、研究対象者をランダムにグループに分け、異なるグループに異なる介入を実施し、その効果を分析する医学/生物学実験です。

A/B テストはコストが安いため、インターネット企業ではより一般的に行われています。

インターネット企業は、UI上のボタンの変更や新しいアルゴリズムの導入など、様々な実験を頻繁に実施しています。これらの最適化や戦略がユーザーに与える影響を、比較指標を用いて測定することで、ユーザーエクスペリエンスの向上と企業の収益向上を図っています。

A/B実験には次のような利点がある

1. 少量のトラフィックをサンプリングして全体的な影響を評価する。インターネット製品は通常非常に大規模であるため、各戦略の導入には細心の注意が必要です。さもなければ、大量のトラフィックに影響を与える可能性があります。そのため、A/Bテストは少量のトラフィックで効果を評価することを可能にします。

2. 実験による意思決定の誘導:かつては、意思決定は過去の経験や上司の承認に頼ることが多かった。A/Bテストでは、ロバや馬が良いか悪いかを知るには、散歩に連れて行ってみるしかない。

3. A/B テストにより低コストでイノベーションを検証可能: トラフィック層別化と A/B テスト プラットフォームの普及により、多くのアイデアを迅速に検証できるようになり、より革新的なアイデアを低コストで検証できるようになりました。

II. A/B テストでできることとできないことは何ですか?

A/Bテストは、提案された業務改善仮説の妥当性を測定するために使用される手法であり、統計的に言えば仮説検定手法です。A/Bテストは主に製品の現状に焦点を当て、どのソリューションが優れているかを検証します。つまり、A/Bテストは製品を1から10に改善することはできますが、0から1を生み出すことはできません。スティーブ・ジョブズは、「消費者は、私たちが製品を見せて初めて『これが欲しい』と気づくまで、何が必要かを知りません」と述べています。この意味で、A/Bテストは発明に用いるのが難しく(発明コストが高いことが主な理由)、主に反復と改善に用いられます。例えば、A/Bテストではどの山を登るべきかを予測することはできませんが、どの道が山頂に早く到達できるかをテストすることはできます。

III. 全確率の法則:

標準定義:全確率の法則は、確率論における重要な公式です。複雑な事象Aの確率を求める問題を、異なる条件下で発生する単純な事象の確率を合計する問題に変換します。

内容: イベント B1、B2、B3…Bn が完全なイベント セットを形成する場合、つまり、イベントが 2 つずつ排他的であり、その合計が全体集合である場合、P(Bi) が 0 より大きい場合、任意のイベント A について、次のようになります…

P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bn)P(Bn)

これをどうしたら簡単に理解できるでしょうか?

1. 適用シナリオ:全確率の法則は、単一の人口グループまたは実験的なトラフィックが全体像に与える影響を効果的に評価します。例えば、男女比がそれぞれ55%と45%の地域で、マーケティング戦略(イベントA)によって男子学生への影響が30%、女子学生への影響が10%改善されるとします。全体的な影響を評価する式はP(A) = P(A|B1)*P(B1) + P(A|B2)*P(B2)です。ここで、男女比はそれぞれB1とB2です。したがって、この地域におけるこのマーケティング戦略の改善効果はP(A) = 30% * 55% + 10% * 45% = 21%となります。

全確率の法則により、ある戦略が異なる集団に異なる影響を与える場合、その戦略が全体に与える影響を比較的容易に予測できます。また、ある戦略が全体としては有意な影響を与えないとしても、詳細に分析してみると特定の集団にとっては有意であることがわかる場合もあります。この法則は、特定の集団の割合に基づいて、戦略が全体に与える影響を予測するためにも利用できます。

IV. 大数の法則と中心極限定理:

1. 大数の法則:

より複雑な言葉で言えば、大数の法則とは、統計から真実を推論するための理論的根拠です。統計データが十分に大きい場合、ある事象の頻度は期待値に限りなく近づくとされています。(確率論と統計学において、数学的期待値(平均)とは、実験における各可能な結果の確率の合計に結果を乗じたものであり、最も基本的な数学的特性の一つです。これは、確率変数の平均値を反映しています。)

繰り返し回数が無限に近づくにつれて、値の算術平均はほぼ確実に期待値に収束します。これが大数の法則です。

簡単に言えば、サンプルサイズと反復回数が増えるにつれて、検証すべき指標の平均値は徐々に真の値に近づくということです。この定理は、私たちの実験の妥当性の理論的根拠であり、また、一定のサンプルサイズと複数日間の実験期間が必要であることの理論的根拠でもあります。

よくある例としては、サイコロを振ることがあります。サイコロには6つの目の目があり、それぞれの目の確率は1/6です。前述の定義によれば、サイコロを複数回振った場合の「期待値」は、1/6*1 + 1/6*2 + 1/6*3 + 1/6*4 + 1/6*5 + 1/6*6 = 3.5 となります。この3.5は、各回で出る目の算術平均を表しています。大数の法則によれば、サイコロを十分な回数振れば、最終的な目の数は平均3.5に近くなります。

2. 中心極限定理:

中心極限定理は、確率論における最も重要な定理の一つです。信頼区間に関連するT検定や仮説検定の計算式や関連理論の基礎を成しています。この定理がなければ、信頼区間や有意差などに関する多くの公式の導出は無効となります。つまり、中心極限定理は、私たちのA/Bテスト理論の最も重要な基礎と言えるでしょう。

それは 2 つの重要な知識ポイントを明らかにします。

1. 標本平均値は母集団平均値とほぼ等しい。つまり、各標本抽出から得られる平均値は母集団平均値の周辺で変動する。

2. 母集団全体の分布に関わらず、あらゆる母集団の標本平均は母集団全体の平均を中心に回帰し、正規分布に従います。次に、ここで非常に重要な点が2つあります。1つ目は、母集団データの分布に関わらず、また母集団データが正規分布しているかどうかにも関わらず、分布が一定であるということです。下の図は、典型的な正規分布のグラフを示しています。非正規分布の例にはどのようなものがあるでしょうか?例えば、三角形分布、長方形分布、台形分布などは非正規分布です。

全体的な分布に関係なく、任意の分布からの任意のサンプルの平均は、それ自身の全体的な平均の周りで変動し、正規分布に従います。

簡単に言えば、各サンプリング実験から得られる指標の平均は実際の全体平均の近似値であり、実験の数が増えるにつれて、これらのポイントの値を曲線としてプロットすると、正規分布曲線が得られます。

中心極限定理の用途は何ですか?

すべての母集団データにアクセスできない場合、サンプルを用いて全体的な影響を推定することができます。これは特にインターネット製品に当てはまります。インターネット製品では、機能のリリースが数億人のユーザーに影響を与える可能性があり、段階的な展開と実験が厳密に必要になります。私たちの実験では、この基本原則を活用しています。つまり、特定の割合のユーザーを対象に実験を実施することで、制御された分析を作成し、戦略がユーザーベースに及ぼす全体的な影響を推測します。例えば、ある推奨戦略の特定のバージョン向けに推奨アルゴリズムを最適化し、10%のユーザーサンプルから得られた実験データで、コントロールグループと比較してクリックスルー率が10%有意に増加したことが示された場合、この戦略は母集団全体でも10%の改善をもたらすと信じる理由があります。これは、サンプル平均値が母集団平均値とほぼ等しいためです(もちろん、信頼水準の検証が必要です)。世論調査や国民消費水準調査などの他の分野も、このサンプルベースのロジックと基本的な理論的根拠に依存しています。

つづく...