实战复盘：用SARIMA模型预测下个月的电费账单（Python代码+数据）-平芜编程栈

从电费账单到智能预测：用SARIMA模型打造家庭能源管理方案

去年夏天，当我收到一张比预期高出40%的电费账单时，突然意识到——如果能提前预测用电高峰，就能合理调整空调使用计划。这个生活痛点促使我深入研究时间序列预测，而SARIMA模型以其对季节性的出色处理能力，成为了家庭用电预测的理想选择。本文将完整呈现如何用Python实现这一过程，从数据探索到最终预测，手把手带您掌握这项实用技能。

1. 数据准备与探索性分析

任何预测工作的起点都是理解数据。我从电力公司导出了过去36个月的月度用电数据，包含日期和总用电量两列。原始数据中隐藏着许多有价值的信息，需要我们用可视化工具将其揭示出来。

首先用pandas加载数据并检查基本情况：

import pandas as pd import matplotlib.pyplot as plt # 读取电费数据 df = pd.read_csv('electricity_bills.csv', parse_dates=['date'], index_col='date') print(df.describe()) # 绘制原始序列 plt.figure(figsize=(12,6)) df['kwh'].plot(title='月度用电量趋势') plt.ylabel('千瓦时(kWh)') plt.grid(True)

通过初步观察，数据展现出明显的季节性特征——每年7-8月和12-1月出现两个高峰，这与空调和取暖设备的使用周期完全吻合。为了更清晰地分解这些成分，我们使用statsmodels的季节性分解工具：

from statsmodels.tsa.seasonal import seasonal_decompose # 进行季节性分解 result = seasonal_decompose(df['kwh'], model='additive', period=12) result.plot() plt.tight_layout()

分解结果清晰显示了三个组成部分：

趋势成分：显示用电量整体呈缓慢上升趋势
季节成分：呈现稳定的年度周期性
残差成分：包含无法解释的随机波动

2. SARIMA模型原理与参数选择

SARIMA(Seasonal ARIMA)模型是ARIMA的扩展，专门设计用于处理具有季节性特征的时间序列。其完整表示形式为SARIMA(p,d,q)(P,D,Q)s，包含两组参数：

参数类型	符号	含义	确定方法
非季节性AR阶数	p	自回归项数	PACF截尾处
非季节性差分次数	d	使序列平稳所需差分次数	ADF检验
非季节性MA阶数	q	移动平均项数	ACF截尾处
季节性AR阶数	P	季节性自回归项数	季节性PACF
季节性差分次数	D	季节性差分次数	通常为0或1
季节性MA阶数	Q	季节性移动平均项数	季节性ACF
季节周期	s	季节长度	观察周期

对于月度数据，通常设置s=12。其他参数需要通过以下步骤确定：

平稳性检验：使用ADF检验判断是否需要差分
白噪声检验：确保序列包含可提取的信息
ACF/PACF分析：初步判断p,q,P,Q的可能取值
网格搜索：通过AIC/BIC准则选择最优参数组合

from statsmodels.tsa.stattools import adfuller # 定义ADF检验函数 def adf_test(series): result = adfuller(series.dropna()) print(f'ADF统计量: {result[0]}') print(f'p值: {result[1]}') print('临界值:') for k, v in result[4].items(): print(f' {k}: {v}') # 对原始数据进行检验 print("原始数据ADF检验:") adf_test(df['kwh']) # 进行一阶差分后再检验 print("\n一阶差分后ADF检验:") adf_test(df['kwh'].diff().dropna())

3. 模型训练与参数优化

确定基础参数后，我们使用网格搜索寻找最优参数组合。这是一个计算密集型过程，但能显著提升模型精度：

import itertools import warnings from statsmodels.tsa.statespace.sarimax import SARIMAX # 定义参数搜索空间 p = d = q = range(0, 2) pdq = list(itertools.product(p, d, q)) seasonal_pdq = [(x[0], x[1], x[2], 12) for x in pdq] warnings.filterwarnings("ignore") # 忽略警告信息 best_aic = float("inf") best_params = None # 网格搜索 for param in pdq: for param_seasonal in seasonal_pdq: try: mod = SARIMAX(df['kwh'], order=param, seasonal_order=param_seasonal, enforce_stationarity=False, enforce_invertibility=False) results = mod.fit() if results.aic < best_aic: best_aic = results.aic best_params = (param, param_seasonal) print(f'SARIMA{param}x{param_seasonal} - AIC:{results.aic:.2f}') except: continue print(f'\n最优参数: SARIMA{best_params[0]}x{best_params[1]} - AIC:{best_aic:.2f}')

在实际操作中，我发现SARIMA(1,1,1)(1,1,1,12)组合通常能提供不错的起点。但针对我的电费数据，经过优化后最终选择了SARIMA(1,1,1)(0,1,1,12)模型。

4. 模型评估与预测应用

训练完成后，我们需要验证模型的可靠性。残差分析是重要的一环——理想的残差应该近似白噪声：

# 使用最优参数训练最终模型 final_model = SARIMAX(df['kwh'], order=(1,1,1), seasonal_order=(0,1,1,12)) final_results = final_model.fit() # 残差诊断 final_results.plot_diagnostics(figsize=(12,8)) plt.tight_layout() # 残差的Ljung-Box检验 from statsmodels.stats.diagnostic import acorr_ljungbox lb_test = acorr_ljungbox(final_results.resid, lags=[10]) print(f'Ljung-Box检验p值: {lb_test[1][0]}')

确认模型有效后，就可以进行实际预测了。以下代码生成未来12个月的预测及其置信区间：

# 进行预测 forecast = final_results.get_forecast(steps=12) forecast_mean = forecast.predicted_mean conf_int = forecast.conf_int() # 可视化结果 plt.figure(figsize=(12,6)) df['kwh'].plot(label='历史数据') forecast_mean.plot(label='预测值') plt.fill_between(conf_int.index, conf_int.iloc[:,0], conf_int.iloc[:,1], color='gray', alpha=0.2, label='95%置信区间') plt.title('未来12个月用电量预测') plt.xlabel('日期') plt.ylabel('用电量(kWh)') plt.legend() plt.grid(True)

预测结果显示，下个月我的电费预计为652kWh，置信区间在[621,683]kWh之间。这意味着：

如果实际值低于下限，可能表明有异常节电行为
如果高于上限，可能需要检查是否有设备异常耗电
根据预测，可以提前调整高耗电设备的使用时间

实际应用中，建议每月更新数据并重新训练模型，以捕捉最新的用电模式变化。可以将此流程自动化，与智能电表数据对接，实现真正的智能能源管理。

5. 模型优化与生产部署

要让预测模型真正产生价值，还需要考虑以下优化方向：

特征工程扩展

引入温度数据作为外生变量
添加节假日标志
考虑电价变动因素

模型融合策略

将SARIMA与Prophet模型结合
对残差部分使用XGBoost建模
集成多个模型的预测结果

生产环境部署方案

# 自动化模型更新管道示例 def update_model(new_data): # 加载历史数据 full_data = pd.concat([load_historical_data(), new_data]) # 重新训练模型 model = SARIMAX(full_data, order=(1,1,1), seasonal_order=(0,1,1,12)) results = model.fit() # 保存新模型 results.save('latest_model.pkl') # 生成新预测 forecast = results.get_forecast(steps=12) return forecast # 每月自动执行 new_month_data = get_latest_month_data() latest_forecast = update_model(new_month_data)

将模型部署为API服务，可以方便地与家庭自动化系统集成：

from flask import Flask, request, jsonify import joblib app = Flask(__name__) model = joblib.load('latest_model.pkl') @app.route('/predict', methods=['GET']) def predict(): steps = request.args.get('steps', default=12, type=int) forecast = model.get_forecast(steps=steps) return jsonify({ 'prediction': forecast.predicted_mean.tolist(), 'confidence_interval': { 'lower': forecast.conf_int().iloc[:,0].tolist(), 'upper': forecast.conf_int().iloc[:,1].tolist() } }) if __name__ == '__main__': app.run(host='0.0.0.0', port=5000)

6. 业务应用与决策支持

预测结果的价值在于支持实际决策。根据我的实践经验，电费预测可以在以下场景发挥作用：

预算规划

建立更准确的月度支出预期
避免因账单波动造成的资金压力
识别异常消费及时调整

能源使用优化

在预测高峰前调整用电计划
对比实际与预测值发现设备异常
评估节能措施的实际效果

智能家居联动

预测高温天气提前开启空调
在电价低谷时段安排洗衣
根据预测自动调整恒温器设置

以下是一个简单的用电建议生成逻辑：

def generate_suggestion(prediction, actual=None): next_month = prediction.index[0] est = prediction.predicted_mean.iloc[0] lower = prediction.conf_int().iloc[0,0] if actual is None: if est > df['kwh'].mean() * 1.2: return f"{next_month.strftime('%Y年%m月')}预计为用电高峰({est:.0f}kWh)，建议检查空调设置" else: return f"{next_month.strftime('%Y年%m月')}用电量预计正常({est:.0f}kWh)" else: if actual > prediction.conf_int().iloc[0,1]: return f"警告：{next_month.strftime('%Y年%m月')}用电量异常偏高({actual:.0f}kWh vs 预测{est:.0f}kWh)，建议检查设备" elif actual < lower: return f"好消息：{next_month.strftime('%Y年%m月')}用电量低于预期({actual:.0f}kWh)，节能措施见效" else: return "用电情况符合预期"

在我的实际使用中，这个预测系统帮助我将夏季电费降低了约15%。最意外的一次是模型检测到异常高预测值，结果发现是冰箱密封条老化导致的持续高耗电。这种从数据到洞察再到行动的全流程，正是时间序列分析最有价值的应用场景。