代码之家 › 专栏 › 技术社区 › De Gninou

将交叉验证算法转换为模型选择

sklearn-pandas cross-validation scikit-learn python

De Gninou · 技术社区 · 6 年前

2016年,我使用下面的代码运行了一个Lasso回归模型:

#Import required packages 
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pylab as plt
import matplotlib.pyplot as plp
import seaborn as sns
import statsmodels.formula.api as smf
from scipy import stats
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LassoLarsCV

# split data into train and test sets
pred_train, pred_test, tar_train, tar_test = train_test_split(predictors, target, test_size=.4, random_state=123)
#%
# specify the lasso regression model
model=LassoLarsCV(cv=10, precompute=False).fit(pred_train,tar_train)
#%
# print variable names and regression coefficients
dict(zip(predictors.columns, model.coef_))
#regcoef.to_csv('variable+regresscoef.csv')
#%%
# plot coefficient progression
m_log_alphas = -np.log10(model.alphas_)
ax = plt.gca()
plt.plot(m_log_alphas, model.coef_path_.T)
plt.axvline(-np.log10(model.alpha_), linestyle='--', color='k',
            label='alpha CV')
plt.ylabel('Regression Coefficients')
plt.xlabel('-log(alpha)')
plt.title('Regression Coefficients Progression for Lasso Paths')
#%
# plot mean square error for each fold
m_log_alphascv = -np.log10(model.cv_alphas_)
plt.figure()
plt.plot(m_log_alphascv, model.cv_mse_path_, ':')
plt.plot(m_log_alphascv, model.cv_mse_path_.mean(axis=-1), 'k',
         label='Average across the folds', linewidth=2)
plt.axvline(-np.log10(model.alpha_), linestyle='--', color='k',
            label='alpha CV')
plt.legend()
plt.xlabel('-log(alpha)')
plt.ylabel('Mean squared error')
plt.title('Mean squared error on each fold')
#%       
# MSE from training and test data
from sklearn.metrics import mean_squared_error
train_error = mean_squared_error(tar_train, model.predict(pred_train))
test_error = mean_squared_error(tar_test, model.predict(pred_test))
print ('training data MSE')
print(train_error)
print ('test data MSE')
print(test_error)
#%
# R-square from training and test data
rsquared_train=model.score(pred_train,tar_train)
rsquared_test=model.score(pred_test,tar_test)
print ('training data R-square')
print(rsquared_train)
print ('test data R-square')
print(rsquared_test)

现在我想再次运行它并收到以下警告:

DeprecationWarning:版本0.18中已弃用此模块有利于所有重构的模型选择模块类和函数被移动。

我怎样才能用 model_selection ?

1 回复 | 直到 6 年前

Vivek Kumar 6 年前

cross_validation train_test_split

from sklearn.cross_validation import train_test_split

from sklearn.model_selection import train_test_split

推荐文章

Marius · 如何使用lightgbm。回归的cv?

6 年前

labalala · K-折叠交叉验证/分区模型

6 年前

Stanleyrr · K倍交叉验证的准确度排序与单个模型的准确度排序不一致

6 年前

user113156 · 了解xgboost交叉验证和AUC输出结果

6 年前

Marvania Mehul - MKPatel · 确定估算其中一类概率的模型的准确性

6 年前

Evan · 为什么交叉验证RF分类的性能比没有交叉验证时差?

6 年前

Minions · Gridsearch中的默认CV与Kfold中的默认CV有什么区别

7 年前

Mohit Shah · 为什么在选择模型之前不进行模型调整?

7 年前

user1234 · H2O叠加群训练数据交叉验证求AUC

7 年前

Elham · 在大型数据集中保留一个组的速度改进[已关闭]

7 年前