我开发了tea-tasting,一个用于 A/B 测试统计分析的 Python 包,具有:
在这篇博文中,我探讨了在实验分析中使用品茶的每一个优点。
如果你想尝试一下,请查看文档。
品茶包括统计方法和技术,涵盖了您在实验分析中可能需要的大部分内容。
使用学生 t 检验和 Z 检验分析指标平均值和比例。或者使用 Bootstrap 来分析您选择的任何其他统计数据。并且有一种使用 Bootstrap 分析分位数的预定义方法。品茶还可以检测 A/B 测试不同变体的样本比例不匹配。
品茶采用Delta方法来分析平均值的比率。例如,每平均会话数的平均订单数,假设会话不是随机化单位。
使用实验前数据、指标预测或其他协变量来减少方差并提高实验的灵敏度。这种方法也称为 CUPED 或 CUPAC。
学生 t 检验和 Z 检验中百分比变化的置信区间的计算可能很棘手。只需取绝对变化的置信区间并将其除以控制平均值就会产生有偏差的结果。品茶采用Delta法计算正确的间隔时间
分析学生 t 检验和 Z 检验的统计功效。有以下三种可能的选择:
在详细的用户指南中了解更多信息。
路线图包括:
您可以使用您选择的统计测试来定义自定义指标。
有许多不同的数据库和引擎用于存储和处理实验数据。而且在大多数情况下,将详细的实验数据拉入 Python 环境的效率并不高。许多统计检验,例如学生 t 检验或 Z 检验,仅需要汇总数据进行分析。
例如,如果原始实验数据存储在 ClickHouse 中,那么直接在 ClickHouse 中计算计数、平均值、方差和协方差比在 Python 环境中获取细粒度数据并执行聚合更快、更高效。
手动查询所有必需的统计信息可能是一项艰巨且容易出错的任务。例如,使用 CUPED 分析比率指标和方差减少不仅需要行数和方差,还需要协方差。不过别担心——品茶这一切对你有用吗。
品茶接受 Pandas DataFrame 或 Ibis Table 形式的数据。 Ibis 是一个 Python 包,用作各种数据后端的 DataFrame API。它支持 20 多个后端,包括 BigQuery、ClickHouse、PostgreSQL/GreenPlum、Snowflake 和 Spark。您可以编写 SQL 查询,将其包装为 Ibis 表,然后将其传递给茶品鉴.
请记住,品茶假设:
tea-tastingは詳細なデータも取得します。
データ バックエンドに関するガイドで詳細をご覧ください。 便利なAPI NumPy、SciPy、Ibis だけを使用して、上記のすべてのタスクを実行できます。実際、tea-tastingは内部でこれらのパッケージを使用しています。tea-tastingが提供するのは、便利な高レベル API です。
説明するよりも見せる方が簡単です。基本的な例は次のとおりです:
リーリー
tea-tastingは、トリッキーでエラーが発生しやすい計算を実行します:
tea-tastingは、結果のきれいなフォーマットやメトリクスパラメータのコンテキストマネージャーなど、いくつかの便利なメソッドと関数を提供します。
ドキュメント 最後に重要なこと: ドキュメント。私は、ツールの導入には適切なドキュメントが不可欠であると信じています。そのため、私はいくつかのユーザーガイドと API リファレンスを作成しました。 ユーザーガイドの基本的な使用例から始めることをお勧めします。その後、同じガイドで分散削減や検出力分析などの特定のトピックを検討できます。 お茶の試飲で選択したデータ バックエンドを使用する方法については、データ バックエンドに関するガイドを参照してください。お茶の試飲に含まれていない統計テストを実行したい場合は、カスタム指標に関するガイドを参照してください。
API リファレンスを使用して、tea-tastingで使用できるすべてのパラメーターと関数、クラス、メソッドに関する詳細情報を調べます。結論
実験の分析にはさまざまな統計手法を適用できます。しかし、ほとんどの場合、実際に使用されるのはほんの一握りです。一方で、SciPyのような汎用統計パッケージには含まれていない、A/Bテストの分析に特化した手法もあります。
ティーテイスティング機能には、最も重要な統計テストと、A/B テストの分析に固有のメソッドが含まれています。
tea-tasting
は、分析にかかる時間を短縮し、エラーの可能性を最小限に抑えるのに役立つ便利な API を提供します。さらに、ティーテイスティング
は、データが保存されている選択したデータバックエンドで統計を計算することにより、計算効率を最適化します。詳細なドキュメントにより、実験の分析にティーテイスティング
を使用する方法をすぐに学ぶことができます。追伸パッケージ名パッケージ名「tea-tasting」は、2 つの主題を指す言葉遊びです:
レディ・テイスティング・ティーは、ロナルド・フィッシャーが考案した有名な実験です。この実験で、フィッシャーは帰無仮説有意性検定フレームワークを開発し、紅茶とミルクのどちらを先にカップに入れたかを見分けることができたという女性の主張を分析しました。
「ティーテイスティング」は、ウィリアム・ゴセットによって開発された統計テストである「t 検定」またはスチューデントの t 検定に音声的に似ています。以上是tea-tasting:用于 A/B 测试统计分析的 Python 包的详细内容。更多信息请关注PHP中文网其他相关文章!