天气数据可视化：从入门到工程落地的完整实践-平芜编程栈

1. 项目概述：用天气数据讲透数据可视化的核心逻辑

“Tutorial on Data Visualization: Weather Data”——这个标题看似平实，实则藏着一条极佳的入门路径。我带过几十期数据可视化工作坊，发现新手最常卡在两个地方：一是面对真实数据时无从下手，二是学了一堆图表类型却不知道“该用哪个、为什么用、怎么调才对”。而天气数据，恰恰是破解这双重困境的黄金样本。它天然具备时间序列性（每小时/每天的温度、湿度、气压）、空间维度（不同城市/站点的对比）、多变量耦合（风速+风向=风矢量，温度+湿度=体感温度），还自带业务语义（比如“连续3天最高温超35℃”就是热浪预警）。更重要的是，它的数据源公开、结构清晰、更新稳定——美国NOAA、中国气象数据网、OpenWeatherMap都提供免费API或CSV下载，你不用花半天时间清洗脏数据，就能直接聚焦在“如何让数据说话”这件事上。

我试过用股票数据教可视化，结果学员总被K线图的历史涨跌牵着走；也试过用电商销售数据，但新用户一看到“GMV”“UV价值”就本能退缩。而天气？谁没查过明天要不要带伞？这种天然共情力，让学习者能快速建立“我的图表是否传达了正确信息”的直觉判断。这篇教程不是教你点几下鼠标生成柱状图，而是带你亲手把一段原始气象观测记录，变成能支撑决策的可视化产品：比如社区防灾小组需要一眼看出未来一周降雨峰值何时到来，或者城市规划师想对比过去十年夏季平均气温变化趋势。我会从数据获取的实操细节开始，到坐标轴刻度为何要避开“0℃”这个陷阱，再到如何用颜色映射让湿度变化真正可感知——所有选择背后都有明确的视觉认知原理和实际业务约束。无论你是刚学完Python基础的转行者，还是想补足可视化短板的产品经理，只要愿意跟着敲几行代码、调几个参数，就能拿到一套可复用、可解释、可交付的天气可视化方案。

2. 数据获取与预处理：为什么90%的可视化失败始于第一步

2.1 天气数据源的选择逻辑与实操陷阱

选对数据源，等于完成了可视化任务的一半。新手常犯的错误是直接去爬网页，结果被反爬封IP，或者下载到Excel里全是合并单元格的“人肉报表”。真正的从业者会优先考虑三类来源：官方API、结构化CSV存档、标准化NetCDF文件。以中国为例，国家气象科学数据中心（http://data.cma.cn）提供逐小时地面观测数据，但需注册申请权限；更轻量级的选择是World Weather Online的免费层（每天1000次请求），返回JSON格式，字段清晰：tempC、windspeedKmph、humidity、weatherDesc。我实测过，用requests库调用其API，12行代码就能拿到北京朝阳站未来7天的完整预报：

import requests url = "https://api.worldweatheronline.com/premium/v1/weather.ashx" params = { "key": "YOUR_API_KEY", "q": "Beijing", "num_of_days": 7, "format": "json" } response = requests.get(url, params=params) data = response.json()

提示：API密钥务必存在环境变量中，切勿硬编码。我曾因在GitHub提交了密钥，导致账号被限流3天——这是血泪教训。

但API有局限：历史数据通常只保留30天。若要做“近五年北京冬季雾霾日数变化”，就得转向存档数据。这里推荐NOAA的Global Historical Climatology Network（GHCN），它提供全球站点的每日观测CSV，文件命名规则为USW00094728.csv（US代表美国，W00094728是站点ID）。下载后你会发现，第一行是元数据说明，第21行开始才是数据，且温度单位是十分之一摄氏度（即-123表示-12.3℃）。这种细节不处理，后续图表全错。我的做法是写个校验函数，自动检测字段分隔符（逗号还是分号）、跳过注释行、转换温度单位：

def load_ghcn_data(filepath): with open(filepath, 'r') as f: lines = f.readlines() # 跳过前20行元数据，取第21行起的数据 data_lines = lines[20:] # 用pandas读取，指定分隔符为逗号，跳过空行 df = pd.read_csv(StringIO(''.join(data_lines)), sep=',', skip_blank_lines=True) # 温度列名通常是'TAVG'，单位是0.1℃，需除以10 if 'TAVG' in df.columns: df['TAVG'] = df['TAVG'] / 10.0 return df

2.2 预处理中的关键决策点：缺失值、时间对齐与变量衍生

天气数据最棘手的不是格式，而是物理意义上的缺失。比如某站点某天风速传感器故障，数据记为-9999；或湿度传感器在低温下失效，所有值都是0。直接删除会导致时间序列断裂，影响趋势分析。我的处理策略分三层：

标记而非删除：用pandas.DataFrame.mask()将-9999替换为NaN，保留时间戳位置；
物理合理性校验：湿度不可能超过100%，若出现105，按气象规范视为无效，同样标为NaN；
智能填充：对温度这类强时间相关变量，用前后3天均值填充；对风向这种循环变量（0°和360°本质相同），必须用圆周均值（circular mean），否则算出的平均风向会是180°这种荒谬结果。

import numpy as np from scipy.stats import circmean # 风向填充示例：取前后2个有效值计算圆周均值 def fill_wind_direction(series): filled = series.copy() for i in range(2, len(series)-2): if np.isnan(series.iloc[i]): # 取前后2个非空值 neighbors = series.iloc[i-2:i+3].dropna() if len(neighbors) >= 2: # 转换为弧度计算圆周均值 rad_neighbors = np.deg2rad(neighbors) mean_rad = circmean(rad_neighbors) filled.iloc[i] = np.rad2deg(mean_rad) % 360 return filled

另一个致命细节是时间对齐。不同来源的数据时间戳精度不同：API返回的是2023-06-15T08:00:00（UTC），而本地CSV可能是2023-06-15 16:00:00（北京时间）。若不做时区转换，画出来的温度曲线会出现8小时偏移。我的强制规范是：所有数据入库前统一转为datetime64[ns, UTC]，绘图时再按需转换显示时区。用pandas.to_datetime()配合dt.tz_localize()和dt.tz_convert()两步完成：

# 假设原始时间为字符串"2023-06-15 16:00:00" df['time'] = pd.to_datetime(df['time']) # 先声明是北京时间（UTC+8） df['time'] = df['time'].dt.tz_localize('Asia/Shanghai') # 再转为UTC存储 df['time'] = df['time'].dt.tz_convert('UTC')

最后是变量衍生——这是让可视化产生业务价值的关键。原始数据只有“温度”和“湿度”，但公众真正关心的是“体感温度”。根据美国国家气象局公式，体感温度AT计算如下：

$$ AT = -2.7 + 1.04T + 2.0m - 0.65v - 0.005T^2 - 0.0023Tv + 0.00015v^2 $$

其中T为干球温度（℃），m为水汽压（hPa），v为风速（m/s）。水汽压m又由湿度RH和温度T推导：m = RH/100 * 6.105 * exp(17.27T/(T+237.3))。这段计算看似复杂，但封装成函数后，一行代码就能新增列：

def calculate_apparent_temp(temp_c, humidity, wind_kph): # 风速转m/s wind_ms = wind_kph / 3.6 # 水汽压计算 m = (humidity/100) * 6.105 * np.exp(17.27 * temp_c / (temp_c + 237.3)) # 体感温度公式 at = (-2.7 + 1.04*temp_c + 2.0*m - 0.65*wind_ms - 0.005*temp_c**2 - 0.0023*temp_c*wind_ms + 0.00015*wind_ms**2) return at df['apparent_temp'] = calculate_apparent_temp( df['tempC'], df['humidity'], df['windspeedKmph'] )

注意：公式中的指数运算np.exp()必须用NumPy版本，Python原生math.exp()不支持数组运算。我第一次用错，导致整列返回nan，调试了2小时才发现。

3. 核心图表设计与实现：从“能画出来”到“让人看懂”

3.1 时间序列图：为什么折线图的Y轴起点不能是0

天气数据最常用的是时间序列图，但新手常犯一个反直觉错误：把Y轴起点设为0。比如画北京7月每日最高温，数据范围是28℃~36℃，若Y轴从0℃开始，36℃和28℃在图上看起来只差一根头发丝的距离，完全掩盖了8℃的显著差异。这违背了视觉编码的保真原则——图表应放大有意义的变化，而非机械遵循“从零开始”的教条。

我的解决方案是：动态计算Y轴范围，留出10%缓冲，并强制标注实际数值区间。用Matplotlib实现：

import matplotlib.pyplot as plt fig, ax = plt.subplots(figsize=(10, 4)) ax.plot(df['date'], df['temp_max'], 'o-', linewidth=2, markersize=4) # 计算Y轴范围：取数据极值，各扩展10% y_min, y_max = df['temp_max'].min(), df['temp_max'].max() y_range = y_max - y_min ax.set_ylim(y_min - 0.1*y_range, y_max + 0.1*y_range) # 在图右上角标注实际范围 ax.text(0.95, 0.95, f'Range: {y_min:.1f}°C ~ {y_max:.1f}°C', transform=ax.transAxes, fontsize=10, verticalalignment='top', horizontalalignment='right', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.8))

更进一步，当需要对比多个城市时，分面（Facet）比堆叠更有效。比如画北京、上海、广州三地7月温度，若用三条折线堆叠在同一图上，颜色容易混淆；而用seaborn.FacetGrid分三行显示，每行独立Y轴，读者能瞬间抓住“广州比北京平均高2℃”这一核心信息。关键代码只有4行：

import seaborn as sns # 将数据转为长格式（Long Format） df_melted = df.melt(id_vars=['date'], value_vars=['beijing_temp', 'shanghai_temp', 'guangzhou_temp'], var_name='city', value_name='temp') g = sns.FacetGrid(df_melted, col='city', height=3, aspect=2) g.map(plt.plot, 'date', 'temp', marker='o', linewidth=1.5) g.set_titles('{col_name}') # 显示城市名 g.set_ylabels('Temperature (°C)')

3.2 空间分布图：用地理坐标激活数据的“位置感”

纯时间序列丢失了空间维度。当你要回答“长三角地区哪些城市高温日数最多？”时，必须上地图。但新手常陷入两个误区：一是用matplotlib.basemap（已弃用），二是盲目套用folium交互地图（增加部署复杂度）。我的务实方案是：静态地图用cartopy，交互需求用plotly.express。

cartopy的优势在于精准投影。天气数据用经纬度（WGS84），但直接画在平面图上会严重变形（格陵兰岛看起来比非洲还大）。cartopy.crs.PlateCarree()能正确处理球面到平面的映射。实操中，我先加载中国省级行政区划的GeoJSON（来自Natural Earth数据集），再用scatter绘制城市点，大小映射高温日数，颜色映射平均温度：

import cartopy.crs as ccrs import cartopy.feature as cfeature # 创建投影坐标系 ax = plt.axes(projection=ccrs.PlateCarree()) ax.set_extent([73, 135, 18, 54], crs=ccrs.PlateCarree()) # 中国范围 # 添加海岸线和国界 ax.add_feature(cfeature.COASTLINE, linewidth=0.5) ax.add_feature(cfeature.BORDERS, linewidth=0.5) # 绘制城市点：size映射高温日数，c映射平均温度 scatter = ax.scatter(df['lon'], df['lat'], s=df['hot_days']*20, # 放大20倍便于观察 c=df['avg_temp'], cmap='coolwarm', transform=ccrs.PlateCarree(), alpha=0.7) # 添加颜色条 plt.colorbar(scatter, ax=ax, label='Avg Temp (°C)', shrink=0.6)

实操心得：transform=ccrs.PlateCarree()这行必不可少。漏掉它，所有点都会挤在左下角——因为cartopy默认坐标系是墨卡托投影，而你的经纬度数据是球面坐标，必须显式声明转换关系。

若需交互（如点击城市显示详情），plotly.express一行代码搞定：

import plotly.express as px fig = px.scatter_geo(df, lat='lat', lon='lon', size='hot_days', color='avg_temp', hover_name='city', projection='natural earth', title='High-Temp Days by City (2023)') fig.show() # 自动弹出浏览器窗口

3.3 多变量耦合图：风玫瑰图与热力图的物理意义还原

天气数据的魅力在于变量间的物理关联。风速和风向组合成风矢量，温度和湿度组合成体感温度。若分开画两个图，读者无法建立关联。风玫瑰图（Wind Rose）是解决此问题的经典工具，但它常被误用为“好看装饰”。

真正的风玫瑰图必须满足三个物理约束：

方向轴必须是16方位（N/NNE/NE等），而非简单360°分割，因为气象业务中风向按16方位报告；
扇区宽度代表频率，半径长度代表平均风速，二者不可混淆；
必须标注主导风向（出现频率最高的方位）。

我用windrose库实现，但关键在数据预处理：先将风向360°映射到16方位索引（0=N, 1=NNE,...,15=NNW），再按方位分组计算风速均值和频次：

import numpy as np from windrose import WindroseAxes # 风向转16方位：每22.5°一个扇区 def wind_dir_to_16(dir_deg): return int((dir_deg + 11.25) % 360 // 22.5) df['dir_16'] = df['wind_direction'].apply(wind_dir_to_16) # 16方位名称映射 directions = ['N', 'NNE', 'NE', 'ENE', 'E', 'ESE', 'SE', 'SSE', 'S', 'SSW', 'SW', 'WSW', 'W', 'WNW', 'NW', 'NNW'] # 绘图 ax = WindroseAxes.from_ax() ax.bar(df['dir_16'], df['wind_speed'], normed=True, opening=0.8, edgecolor='white') ax.set_legend(title='Wind Speed (m/s)', loc='lower left') ax.set_xticklabels(directions) # 强制显示16方位名

对于温度-湿度耦合，热力图（Heatmap）比散点图更直观。因为体感温度是二者的非线性函数，散点图上点会呈带状分布，难以看出“高温高湿”区域的体感恶化程度。用seaborn.heatmap，行列分别设为温度（25℃~35℃，每1℃一格）和湿度（40%~100%，每5%一格），格子颜色填入对应体感温度：

# 构建温度-湿度网格 temp_grid = np.arange(25, 36, 1) rh_grid = np.arange(40, 101, 5) T, RH = np.meshgrid(temp_grid, rh_grid, indexing='ij') AT_grid = calculate_apparent_temp(T, RH, wind_kph=1.0) # 固定风速1m/s # 绘制热力图 plt.figure(figsize=(8, 6)) sns.heatmap(AT_grid, xticklabels=rh_grid, yticklabels=temp_grid, cmap='RdYlBu_r', cbar_kws={'label': 'Apparent Temp (°C)'}) plt.xlabel('Relative Humidity (%)') plt.ylabel('Air Temperature (°C)') plt.title('How Heat & Humidity Combine to Affect Comfort')

这张图能直接回答“当温度32℃、湿度80%时，体感温度是多少？”——查表得42.3℃，远高于单纯看温度的判断。这才是可视化驱动决策的价值。

4. 高级技巧与避坑指南：让图表经得起专业审视

4.1 颜色映射的陷阱：为什么Jet色图正在被科学界淘汰

几乎所有新手教程都用plt.cm.jet，因为它“五彩斑斓”。但气象学界早已弃用——Jet色图在青色和黄色区域存在亮度突变，人眼会误判为数据断层。比如温度图中，25℃（青）和26℃（黄）在Jet色图上亮度差极大，看起来像两个不同系统，而实际只是1℃差异。

我的替代方案是：温度用viridis（亮度均匀递增），风速用plasma（暗到亮），分类变量用tab10（10种高区分度色）。viridis的数学原理是：在CIELAB色彩空间中，沿亮度（L*）轴线性变化，确保每1℃对应相同的视觉强度变化。验证方法很简单：用灰度模式查看图表，若温度梯度呈现平滑灰度过渡，则颜色方案合格。

# 正确：viridis用于连续温度数据 plt.scatter(df['lon'], df['lat'], c=df['temp'], cmap='viridis') # 错误：jet可能造成误导 # plt.scatter(df['lon'], df['lat'], c=df['temp'], cmap='jet')

更隐蔽的陷阱是透明度（alpha）滥用。当绘制大量气象站点（如全国2000个站）时，新手常设alpha=0.3避免重叠。但过度透明会导致低密度区域（如西部）几乎看不见，高密度区域（如东部）一片漆黑。我的解法是：用numpy.histogram2d先做空间聚合，再画热力图。把经纬度网格化，每个格子统计平均温度，这样既保留空间分布，又消除点重叠：

# 将中国区域划分为0.5°×0.5°网格 lon_bins = np.arange(73, 135, 0.5) lat_bins = np.arange(18, 54, 0.5) H, _, _ = np.histogram2d(df['lon'], df['lat'], bins=[lon_bins, lat_bins], weights=df['temp']) # H是二维数组，每个元素是对应网格的加权平均温度 plt.imshow(H.T, extent=[73,135,18,54], origin='lower', cmap='viridis')

4.2 文字标注的工程实践：如何让坐标轴标签不打架

当X轴是日期时，2023-01-01、2023-01-02...密密麻麻挤在一起是常态。Matplotlib默认的plt.xticks()会自动抽稀，但抽稀逻辑常出错。我的经验是：手动控制刻度位置和标签格式，用matplotlib.dates模块。

import matplotlib.dates as mdates ax.xaxis.set_major_locator(mdates.WeekdayLocator(interval=2)) # 每2周一个主刻度 ax.xaxis.set_major_formatter(mdates.DateFormatter('%m/%d')) # 格式为01/01 ax.xaxis.set_minor_locator(mdates.DayLocator()) # 每天一个次刻度（不显示标签） # 旋转标签避免重叠 plt.setp(ax.xaxis.get_majorticklabels(), rotation=30, ha='right')

但更关键的是动态调整字体大小。当图表尺寸变化（如嵌入PPT时缩小），固定fontsize=10的标签会糊成一片。解决方案是：用figsize和dpi联合控制，标签字号设为figsize[0]*0.8：

fig, ax = plt.subplots(figsize=(10, 4), dpi=120) # 高DPI保证清晰 # 标签字号随图宽自适应 ax.tick_params(axis='both', which='major', labelsize=10) # 10是经验值

4.3 可复现性保障：配置化与版本锁定

可视化项目最怕“上次还能跑，这次报错”。根源常是库版本冲突。比如pandas 2.0废弃了pd.Panel，而旧教程代码还在用。我的强制规范是：所有项目配requirements.txt，并用pip install -r requirements.txt --force-reinstall重装。

# requirements.txt 示例 pandas==1.5.3 numpy==1.23.5 matplotlib==3.7.1 seaborn==0.12.2 cartopy==0.21.1

更进一步，用conda env export > environment.yml导出完整环境，包含编译器版本（gcc）、地理投影库（proj）等底层依赖。气象可视化对proj版本极其敏感——proj 8.2和9.0的坐标转换结果可能差几百米。

实操心得：在代码开头强制检查关键库版本：
import cartopy assert cartopy.__version__ == '0.21.1', f"Cartopy version mismatch: {cartopy.__version__}"

5. 常见问题与排查技巧实录：从报错信息直达根因

5.1 “ValueError: x and y must be the same size” —— 数据对齐的隐形杀手

这个报错90%源于时间序列缺失值处理不当。比如你用df.dropna()删除了所有含NaN的行，但温度列有缺失，湿度列有缺失，二者缺失位置不同，导致len(df['temp']) != len(df['humidity'])。表面看是绘图函数报错，根因是预处理逻辑缺陷。

排查三步法：

打印各列长度：print([len(df[col]) for col in ['temp','humidity','wind']])；
检查缺失值位置：print(df[['temp','humidity']].isna().sum())；
强制对齐：用df = df.dropna(subset=['temp','humidity','wind'])，指定必须同时非空的列。

5.2 地图上城市点全部挤在（0,0）——坐标系转换遗漏

cartopy报错常不提示具体原因，但点全在原点，99%是忘了transform参数。验证方法：打印前5个经纬度，确认是否在合理范围（北京经纬度约116°E, 39°N）。若数据本身是[116,39]却显示在原点，必然是transform缺失。

终极调试技巧：临时改用matplotlib画普通散点图，确认数据坐标正确：

plt.scatter(df['lon'], df['lat']) # 若此时点分布正常，则问题在cartopy转换

5.3 风玫瑰图扇区数量不对——风向映射算法偏差

若风玫瑰图显示12个扇区而非16个，问题出在wind_dir_to_16()函数。常见错误是用dir_deg//22.5整除，但0°和360°应同属N向。正确算法必须加+11.25再取模，确保359°（接近正北）映射到0，而非15。

快速验证：输入[0,22.5,45,359]，期望输出[0,1,2,0]。若359输出15，立即修正函数。

5.4 体感温度计算结果为负无穷——浮点数溢出

np.exp(17.27*T/(T+237.3))在T=-237.3时分母为0，导致inf。实际气象数据中不会出现此温度，但若数据清洗不严（如误将-9999当作温度），就会触发。我的防御式编程是：在计算前过滤异常值：

# 过滤物理不可能的温度 df = df[(df['temp'] > -100) & (df['temp'] < 70)] # 计算前再加一层保护 T_safe = np.clip(df['temp'], -90, 60) # 限定范围 m = (df['humidity']/100) * 6.105 * np.exp(17.27 * T_safe / (T_safe + 237.3))

5.5 图表保存后模糊——DPI与尺寸失配

用plt.savefig('fig.png')默认DPI=100，打印时模糊。正确做法是：

屏幕展示：plt.savefig('fig.png', dpi=120)；
论文投稿：plt.savefig('fig.pdf', dpi=300)（PDF矢量图无需DPI）；
PPT嵌入：plt.savefig('fig.png', dpi=150, bbox_inches='tight')（bbox_inches裁掉空白边）。

最后分享一个小技巧：在Jupyter中，用%config InlineBackend.figure_format = 'retina'开启高清显示，避免代码和屏幕显示效果不一致。

我在实际项目中发现，真正决定可视化成败的，从来不是炫酷的3D特效，而是这些藏在报错信息背后的毫米级细节。当你能快速定位transform参数缺失，或一眼看出jet色图的亮度陷阱，你就已经超越了90%的初学者。天气数据只是载体，这套“数据-物理约束-视觉编码-工程落地”的思维链，可以迁移到任何领域：物流时效分析、医疗设备监测、甚至咖啡机物联网数据。下次打开气象网站，别急着看预报，试着下载CSV，用今天的方法画一张属于你自己的风玫瑰图——那才是数据可视化的真正起点。