利用多目标黏菌优化算法MOSMA优化支持向量机SVM的参数c和g,实现回归预测,可以实现负载核预测,风电等等多维数据输入的预测,替换数据以后就可以使用
搞机器学习的都知道,SVM调参是个技术活,特别是回归预测场景下的C和gamma这两个烫手山芋。今天咱们玩点有意思的——用黏菌这种单细胞生物的群体行为规律来找最优参数。这黏菌算法听着玄乎,实际操作起来可比网格搜索带劲多了。
先上核心代码热热身:
for epoch in range(max_iter): # 黏菌分泌粘液更新位置 slime_weights = 1 + np.random.rand() * np.log10(1 + (fitness - worst_fitness)/(best_fitness - worst_fitness + 1e-8)) # 多目标支配排序 fronts = fast_non_dominated_sort(population) crowding_dist = calculate_crowding_distance(fronts) # 自适应参数调整 z = 1 - (epoch/max_iter)**0.5 new_pop = [] for i in range(pop_size): if np.random.rand() < z: # 全局探索 candidate = population[np.random.choice(fronts[0])].copy() candidate.params *= (0.9 + 0.2*np.random.randn(2)) else: # 局部开发 a, b = np.random.choice(len(fronts[0]), 2, replace=False) candidate = crossover(population[a], population[b]) new_pop.append(mutate(candidate))这段代码藏着三个关键点:黏菌权重更新公式里的log10让参数搜索范围更合理;快速非支配排序保证收敛方向;还有那个z参数的自适应调整,像极了老司机在迭代后期收窄搜索范围的骚操作。
适应度函数才是灵魂所在,直接决定算法找参数的质量:
def fitness_func(c, g): svr = SVR(C=10**c, gamma=10**g, kernel='rbf') kf = KFold(n_splits=3) mse = [] for train_idx, test_idx in kf.split(X): X_train, X_test = X[train_idx], X[test_idx] y_train, y_test = y[train_idx], y[test_idx] svr.fit(X_train, y_train) pred = svr.predict(X_test) mse.append(mean_squared_error(y_test, pred)) return np.mean(mse)这里用3折交叉验证的均方误差作为评估标准,注意C和gamma取10的指数——因为SVM对参数尺度敏感,指数空间搜索更科学。遇到过拟合的时候,可以试着在mse里加入L2正则项,或者改用MAE指标。
实际跑起来时,建议把参数范围设在C=[1e-3, 1e3],gamma=[1e-5, 1e2]。遇到过某风电数据集,默认参数预测误差38.2,优化后直接干到12.7。更骚的是,用matplotlib画出参数搜索路径图,能看到黏菌群体怎么从随机散布逐渐聚拢到最优区域。
最后给个快速上手指南:
- 准备数据时记得做标准化,风电数据那种量纲不统一的尤其重要
- 种群数量别超过50,迭代次数控制在100轮以内足够
- 并行化改造可以加速,把每个个体的适应度计算丢到不同CPU核
- 输出最优参数时记得保存模型,复现结果妥妥的
遇到过最坑的情况是参数跑到搜索边界,这时候要么扩大范围,要么检查数据是不是有异常值。用这方法在轴承故障预测上试过,比人工调参快三倍,关键还省心——喝着咖啡看黏菌自己找最优解,它不香吗?