news 2026/5/30 18:03:32

python基础(逻辑回归例题)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
python基础(逻辑回归例题)

一、参数选择

在逻辑回归建模中,“过拟合”是绕不开的坑——当模型在训练数据上表现完美,却在新数据上一塌糊涂时,大概率是模型复杂度超出了数据所能支撑的范围。而惩罚因子(也叫正则化参数),正是我们解决过拟合、平衡模型拟合度与泛化能力的核心工具。

1.通过LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000)函数C参数的选择最优惩罚因子。通过K折交叉验证cross_val_score(lr,x_train_w,y_train_w,cv=8,scoring='recall')函数来实现。

scores=[] #不同参数下的验证集评分 c_range=[0.01,0.1,1,10,100] for i in c_range: lr=LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000) score=cross_val_score(lr,x_train_w,y_train_w,cv=8,scoring='recall') score_m=sum(score)/len(score) scores.append(score_m) print(score_m) best_c=c_range[np.argmax(scores)] print("最优惩罚因子",best_c) lr=LogisticRegression(C=best_c,penalty='l2',solver='lbfgs',max_iter=1000) lr.fit(x_train_w,y_train_w) from sklearn import metrics train_predict=lr.predict(x_train_w) print(metrics.classification_report(y_train_w,train_predict))#获得混淆矩阵的准确值,召回值。 cm_plot(y_train_w,train_predict).show() test_predict=lr.predict(x_test_w) print(metrics.classification_report(y_test_w,test_predict,digits=6))#获得混淆矩阵的准确值,召回值。 cm_plot(y_test_w,test_predict).show()

二、下采样

下采样的核心是“削减多数类样本”,将不同类别的数量平衡一下,减少多的类别的数量

在案例中使用代码:

x_train_w=train_data[train_data['Class']==1]
y_train_w=train_data[train_data['Class']==0]
y_train_w=y_train_w.sample(len(x_train_w))

使用sample函数从y_train_w中抽取x_train_w的数量。

data=pd.read_csv("creditcard.csv") scaler=StandardScaler() data['Amount']=scaler.fit_transform(data[['Amount']]) data=data.drop(['Time'],axis=1)#axis=1,表示删除列 x=data.drop('Class',axis=1) y=data.Class x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=0) train_data=x_train train_data['Class']=y_train x_train_w=train_data[train_data['Class']==1] y_train_w=train_data[train_data['Class']==0] y_train_w=y_train_w.sample(len(x_train_w)) data_c=pd.concat([x_train_w,y_train_w]) x_train_w_1=data_c.drop('Class',axis=1) y_train_w_1=data_c.Class scores=[] c_range=[0.01,0.1,1,10,100] for i in c_range: lr=LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000) score=cross_val_score(lr,x_train_w_1,y_train_w_1,cv=10,scoring='recall') score_m=sum(score)/len(score) scores.append(score_m) print(score_m) best_c=c_range[np.argmax(scores)] print("最优因子:",best_c) lr=LogisticRegression(C=best_c,penalty='l2',solver='lbfgs',max_iter=1000) lr.fit(x_train_w_1,y_train_w_1)

三、过采样

上采样的核心是“扩充少数类样本”

我们可以使用SMOTE(合成少数类过采样技术)——在少数类样本的特征空间中,找到每个样本的k个近邻,通过插值生成新的少数类样本(如样本A和样本B的近邻,新样本=A+rand(0,1)*(B-A))

from imblearn.over_sampling import SMOTE oversampler=SMOTE(random_state=100)#保证数据拟合效果,随机种子 os_x_train,os_y_train=oversampler.fit_resample(x_train,y_train)#人工拟合数据
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 2:49:33

日志收集方案

1.应用场景常用于日志采集和数据回流场景1.1 日志类型非容器化日志即python组件/go组件/java组件业务日志,可自由进行日志轮转,支持按时间、大小、历史、总容量等容器化日志(适用于stdout/stderr)单行最大长度是16k,即超过最大长度&#xff0…

作者头像 李华
网站建设 2026/5/30 11:24:21

亚马逊小卖家逆袭:蓝海市场的精准切入与增长法则

在巨头林立的亚马逊生态中,小卖家的生存空间看似不断压缩,然而,真正聪明的经营者明白:避开红海正面竞争,转向精细化、差异化的蓝海战略,才是以小博大的关键。数据导航:发现被忽视的机会当多数卖…

作者头像 李华
网站建设 2026/5/29 4:58:54

QDK文档查阅效率低?5步优化法让查询时间缩短80%

第一章:QDK文档查阅效率低?现状与挑战量子开发工具包(Quantum Development Kit,简称QDK)作为微软推出的量子编程生态系统,为开发者提供了从语言、模拟器到云服务的完整支持。然而,随着功能不断扩…

作者头像 李华
网站建设 2026/5/29 8:00:52

【PHP开发者必看】:Symfony 8动态路由优化的7个黄金法则

第一章:Symfony 8动态路由的核心机制Symfony 8 的动态路由系统建立在高度灵活的注解与属性驱动机制之上,允许开发者通过参数化路径实现运行时的路由匹配。该机制依赖于 Routing 组件与 HttpKernel 的深度集成,能够在请求解析阶段快速定位控制…

作者头像 李华