高光谱图像分类实战：从数据预处理到模型部署的完整流程（附Python代码）-平芜编程栈

高光谱图像分类实战：从数据预处理到模型部署的完整流程（附Python代码）

高光谱图像分析正在成为遥感领域的重要技术突破点。想象一下，你站在一片广阔的农田前，普通相机只能捕捉到绿色植被的概貌，而高光谱传感器却能揭示每株作物叶片中叶绿素的含量、水分胁迫程度甚至潜在的病虫害迹象——这就是数百个连续窄波段带来的信息革命。本文将带您从零开始构建一个完整的高光谱分类系统，特别针对农业监测场景，提供可直接复现的代码方案。

1. 环境配置与数据准备

1.1 工具链选择与安装

高光谱处理需要专业工具链支持，推荐以下组合：

pip install spectral scikit-learn matplotlib numpy torch torchvision

关键工具说明：

ENVI：商业级遥感图像处理软件（需单独安装）
Python生态：
- spectral：专业高光谱数据处理库
- scikit-learn：传统机器学习算法
- torch：深度学习框架

提示：建议使用conda创建独立环境以避免依赖冲突，特别是处理GDAL等地理空间库时

1.2 数据集获取与解析

以公开的Indian Pines数据集为例，加载数据时需特别注意三维数据立方体的结构：

import spectral as sp # 加载数据集 img = sp.open_image('92AV3C.lan') gt = sp.open_image('92AV3GT.GIS').read_band(0) # 查看数据结构 print(f"图像尺寸: {img.shape}") # (145, 145, 220) print(f"标注尺寸: {gt.shape}") # (145, 145)

典型高光谱数据集特征：

属性	Indian Pines	Pavia University	Salinas
空间分辨率	20m/pixel	1.3m/pixel	3.7m/pixel
波段数量	220	103	224
有效类别	16	9	16

2. 数据预处理关键技术

2.1 噪声去除与波段筛选

高光谱数据常见噪声源包括传感器暗电流和大气散射。使用SNR评估波段质量：

import numpy as np def calculate_snr(data_cube): mean = np.mean(data_cube, axis=(0,1)) std = np.std(data_cube, axis=(0,1)) return mean / std snr_values = calculate_snr(img.load()) valid_bands = np.where(snr_values > 5)[0] # 保留SNR>5的波段

2.2 光谱归一化与增强

应对光照变化影响的实用技巧：

from sklearn.preprocessing import StandardScaler # 像素级标准化 scaler = StandardScaler() h, w, c = img.shape pixels = img.load().reshape(-1, c) scaled_pixels = scaler.fit_transform(pixels) img_normalized = scaled_pixels.reshape(h, w, c) # 空间-光谱联合增强示例 def spatial_spectral_augment(image, kernel_size=3): from scipy.ndimage import uniform_filter spatial_feat = uniform_filter(image, size=(kernel_size,kernel_size,1)) return np.concatenate([image, spatial_feat], axis=-1)

3. 特征工程与降维

3.1 波段选择算法对比

常见特征选择方法性能对比：

方法	计算复杂度	保持物理意义	适用场景
方差阈值	O(n_samples)	否	快速初筛
PCA	O(n_features^3)	否	全局降维
递归特征消除	O(n_features^2)	是	精准分类
波段相关性	O(n_features^2)	是	去冗余

3.2 三维卷积特征提取

利用CNN处理空间-光谱特征：

import torch.nn as nn class HybridSN(nn.Module): def __init__(self, in_channels=30, num_classes=16): super().__init__() self.conv3d = nn.Sequential( nn.Conv3d(1, 8, kernel_size=(7,3,3)), nn.ReLU(), nn.Conv3d(8, 16, kernel_size=(5,3,3)), nn.ReLU(), nn.Conv3d(16, 32, kernel_size=(3,3,3)), nn.ReLU() ) self.conv2d = nn.Sequential( nn.Conv2d(576, 64, kernel_size=3), nn.ReLU(), nn.Flatten() ) def forward(self, x): x = self.conv3d(x) b, c, _, h, w = x.size() x = x.view(b, c*h, w) return self.conv2d(x)

4. 模型训练与优化

4.1 小样本训练策略

农业场景常面临标注数据稀缺问题，可采用以下方案：

迁移学习：在大型遥感数据集(如EuroSAT)上预训练

数据增强：

def spectral_augment(x, max_shift=0.1): shift = np.random.uniform(-max_shift, max_shift, size=x.shape[-1]) return x + shift

半监督学习：结合伪标签技术

4.2 混合精度训练加速

使用PyTorch的AMP模块提升训练效率：

from torch.cuda.amp import autocast, GradScaler scaler = GradScaler() for epoch in range(100): with autocast(): outputs = model(inputs) loss = criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()

5. 模型部署与性能调优

5.1 ONNX格式转换

实现跨平台部署的标准化方案：

torch.onnx.export( model, dummy_input, "hs_model.onnx", input_names=["input"], output_names=["output"], dynamic_axes={ 'input': {0: 'batch_size'}, 'output': {0: 'batch_size'} } )

5.2 边缘设备优化

针对Jetson等边缘设备的优化技巧：

使用TensorRT进行图优化
量化到INT8精度
波段选择前置处理降低输入维度

实际测试表明，经过优化的模型在Jetson Xavier上可实现50ms以内的推理速度，满足实时处理需求。

B站字幕下载终极指南：ccdown工具5分钟快速上手

B站字幕下载终极指南：ccdown工具5分钟快速上手【免费下载链接】BiliBiliCCSubtitle 一个用于下载B站(哔哩哔哩)CC字幕及转换的工具; 项目地址: https://gitcode.com/gh_mirrors/bi/BiliBiliCCSubtitle 还在为无法保存B站视频的字幕而烦恼吗？每次…