代码之家  ›  专栏  ›  技术社区  ›  Sri991

要使用oulad数据集,如何加入或合并它们?

  •  0
  • Sri991  · 技术社区  · 6 年前

    我正在使用 OULAD dataset 它有7个csv文件,它们以oulad网站中的图片所示的方式链接在一起。

    一个名为student_registration的csv文件有32593行和5列,另一个名为student_vle的文件有10655280行和6列。

    我想在学生登记表中添加日期和总和栏,以便只添加现有的32593名学生信息。

    我试过左进,但结果很奇怪。它有[13009427行x 11列]而不是32593行和8列。它就像一个联盟。

    您可以从UCI存储库中获取数据集。

    这是我的密码-

        import pandas as pd
        import numpy as np
    
        student_reg = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentRegistration.csv')
        student_vle = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentVle.csv')
    
        student_reg_vle = pd.merge(student_reg, student_vle, on='id_student', how='left')
        student_reg_vle.set_index('id_student', inplace=True)
        print(student_reg_vle)
    
    1 回复  |  直到 6 年前
        1
  •  1
  •   jezrael    6 年前

    student_vle = student_vle.drop_duplicates('id_student')