别再只会用t检验了！用Python的statsmodels库做单因素方差分析，5分钟搞定A/B测试结果解读-平芜编程栈

用Python实现单因素方差分析：A/B测试中的多组比较实战指南

当产品经理同时测试三种新按钮颜色对转化率的影响时，连续做了三次t检验对比各组差异——这个在互联网公司会议室里反复上演的场景，实际上犯了一个统计学上的典型错误。就像用三把尺子测量同一张桌子的长度会得到三个不同结果一样，多重t检验会导致误差累积，让结论变得不可靠。而单因素方差分析（ANOVA）这把"多功能量角器"，能一次性解决多组比较问题。

1. 为什么A/B测试需要方差分析而非t检验

假设某电商App同时测试首页三种商品布局（瀑布流、网格、列表）的点击率，很多团队会本能地选择两两比较：

# 错误示范：多重t检验 from scipy.stats import ttest_ind t1, p1 = ttest_ind(waterfall_ctr, grid_ctr) # 瀑布流vs网格 t2, p2 = ttest_ind(waterfall_ctr, list_ctr) # 瀑布流vs列表 t3, p3 = ttest_ind(grid_ctr, list_ctr) # 网格vs列表

这种做法的核心问题在于α错误膨胀（Type I Error Inflation）。当进行k次检验时，总体错误概率变为：

P(至少一个错误) = 1 - (1 - α)^k

对于α=0.05和k=3的情况，实际错误率高达14.3%。方差分析通过以下方式解决这个问题：

方法	比较次数	总体α风险	适用场景
独立t检验	k(k-1)/2	快速膨胀	仅两组比较
单因素ANOVA	1次	保持α水平	三组及以上比较

提示：当ANOVA发现显著差异后，还需要Tukey HSD等事后检验确定具体差异组别

2. 数据准备与假设检验

使用Python进行方差分析前，需要确保数据满足三个基本假设：

正态性：各组数据近似服从正态分布（可用Shapiro-Wilk检验）
方差齐性：组间方差无显著差异（可用Levene检验）
独立性：观测值相互独立（通过实验设计保证）

以某在线教育平台测试三种学习路径（A/B/C）的完课率为例：

import pandas as pd from scipy import stats # 模拟数据集 data = pd.DataFrame({ 'group': ['A']*30 + ['B']*30 + ['C']*30, 'completion': list(np.random.normal(0.65, 0.1, 30)) + # 组A list(np.random.normal(0.72, 0.1, 30)) + # 组B list(np.random.normal(0.68, 0.1, 30)) # 组C }) # 正态性检验 for group in ['A', 'B', 'C']: _, p = stats.shapiro(data[data['group']==group]['completion']) print(f"组{group}正态性p值: {p:.4f}") # 方差齐性检验 stat, p = stats.levene( data[data['group']=='A']['completion'], data[data['group']=='B']['completion'], data[data['group']=='C']['completion'] ) print(f"\nLevene检验p值: {p:.4f}")

当假设不满足时，可考虑：

非参数替代方法（如Kruskal-Wallis检验）
数据转换（如对数变换）
增加样本量

3. 使用statsmodels执行方差分析

statsmodels提供了两种常用的ANOVA接口，适用于不同数据格式：

方法一：公式API（推荐）

import statsmodels.api as sm from statsmodels.formula.api import ols model = ols('completion ~ C(group)', data=data).fit() anova_table = sm.stats.anova_lm(model, typ=2) print(anova_table)

输出示例：

sum_sq df F PR(>F) C(group) 0.078643 2.0 4.102908 0.019024 Residual 0.835800 87.0 NaN NaN

关键指标解读：

F值：组间变异与组内变异的比值，越大越显著
P值：若小于显著性水平（通常0.05），拒绝原假设
自由度：组间(df1=k-1)、组内(df2=N-k)

方法二：数组接口

from statsmodels.stats.anova import AnovaRM # 适用于重复测量设计 anova_rm = AnovaRM(data, 'completion', 'user_id', within=['group']) res = anova_rm.fit() print(res.summary())

4. 事后检验与业务解读

当ANOVA结果显著时（如P=0.019），需要进一步分析哪些组别存在差异。常用方法包括：

Tukey HSD：控制整体错误率，适合所有两两比较
Bonferroni：保守调整，适合少量比较
Dunnett：专门用于与对照组的比较

以Tukey HSD为例：

from statsmodels.stats.multicomp import pairwise_tukeyhsd tukey = pairwise_tukeyhsd( endog=data['completion'], groups=data['group'], alpha=0.05 ) print(tukey.summary())

输出示例：

Multiple Comparison of Means - Tukey HSD, FWER=0.05 ================================================= group1 group2 meandiff p-adj lower upper reject ------------------------------------------------- A B 0.0702 0.0176 0.008 0.1324 True A C 0.0298 0.3274 -0.032 0.0916 False B C -0.0404 0.1886 -0.102 0.0212 False -------------------------------------------------

业务决策建议：

显著差异组：B组完课率显著高于A组（p=0.018）
边缘显著组：B与C差异接近显著（p=0.189），建议扩大样本再测
方案选择：若追求完课率优先选择B方案，若考虑成本可综合评估

5. 完整案例：广告素材效果测试

某市场团队测试五种广告素材的点击率（CTR），数据格式如下：

material, ctr A, 0.042 A, 0.039 ... E, 0.057

分析流程：

# 读取数据 ads = pd.read_csv('ad_test.csv') # 可视化组间差异 import seaborn as sns sns.boxplot(x='material', y='ctr', data=ads) plt.title('各广告素材CTR分布') # 方差分析 model = ols('ctr ~ C(material)', data=ads).fit() anova_results = sm.stats.anova_lm(model) print(anova_results) # 事后检验 tukey = pairwise_tukeyhsd(ads['ctr'], ads['material']) print(tukey.summary()) # 效应量计算 ss_between = anova_results['sum_sq'][0] ss_total = ss_between + anova_results['sum_sq'][1] eta_squared = ss_between / ss_total print(f"\n效应量η²: {eta_squared:.3f}")

关键产出物应包括：