代码之家 › 专栏 › 技术社区 › jarry jafery

熊猫根据数据类型选择列

sklearn-pandas scikit-learn pandas python

jarry jafery · 技术社区 · 7 年前

from sklearn.preprocessing import FunctionTransformer
get_cat=FunctionTransformer(lambda x:x if x.dtype==np.dtype(object) else None,validate=False)
get_cat.fit_transform(df)

但我犯了个错误

AttributeError: 'DataFrame' object has no attribute 'dtype'

但如果我对列名执行与

get_cat=FunctionTransformer(lambda x:x[[col_names]],validate=False)

2 回复 | 直到 7 年前

Quickbeam2k1 7 年前

我认为构建自定义转换器更容易/更清晰。此外,它可以很容易地应用于管道中

class SelectDtypeColumnsTransfomer(TransformerMixin):

    def __init__(self, dtype=object):
        self.dtype = dtype

    def transform(self, X, **transform_params):
        """ X : pandas DataFrame """

        columns = X.columns[X.dtypes == self.dtype]
        trans = X[columns].copy()
        return trans

    def fit(self, X, y=None, **fit_params):
        return self

例如:

df = pd.DataFrame({'A':[1, 2], 'B': ['s', 'd'], 'c':['test', 'r']})
print(SelectDtypeColumnsTransfomer(np.int64).transform(df))
   A
0  1
1  2
print(SelectDtypeColumnsTransfomer(object).transform(df))
   B     c
0  s  test
1  d     r

关于管道中的使用:

您应该确保训练集和测试集中的列具有相同的数据类型。根据预处理数据的方式,例如在训练集中,列的类型可能是浮点型(包括nan),而在测试集中,列的类型可能是int型(无nan),反之亦然。在这种情况下,您需要调整fit函数,该函数在拟合期间固定列,并进一步考虑在管道的以下步骤中确保数据类型一致

Clock Slave 7 年前

你可以用这样的

df_dtypes = df.dtypes.values.tolist()
select_dtype = np.dtype('int64')
select_cols = [True if x ==  select_dtype else False for x in df_dtypes]

推荐文章

Bushra Jabeen · 计算列中的互信息

2 年前

rkraaijveld · sklearn的Coef。线性回归为无

2 年前

Sherwin R · 随机森林预测错误的输出形状

2 年前

Trinh Hieu · 我想在100%中随机训练60%,剩下的40%在混乱矩阵中测试

3 年前

Gijo george · 如何识别段落中每个句子的情绪

3 年前

Test · 安装Scikit Learn Big Sur M1

3 年前

kukelia · 在自定义转换器内创建新数据帧时,SKlearn管道无法工作

3 年前

Arnoldas Maslovskis · 当需要1d数组时,传递了列向量y。请将y的形状更改为(n_samples),例如使用ravel()

3 年前

Rich · 我可以简化零系数的Lasso Lars运行时吗?

3 年前

Medo · 是否可以将3D图像转换为一个矢量?

6 年前