我正在使用
OULAD dataset
它有7个csv文件,它们以oulad网站中的图片所示的方式链接在一起。
一个名为student_registration的csv文件有32593行和5列,另一个名为student_vle的文件有10655280行和6列。
我想在学生登记表中添加日期和总和栏,以便只添加现有的32593名学生信息。
我试过左进,但结果很奇怪。它有[13009427行x 11列]而不是32593行和8列。它就像一个联盟。
您可以从UCI存储库中获取数据集。
这是我的密码-
import pandas as pd
import numpy as np
student_reg = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentRegistration.csv')
student_vle = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentVle.csv')
student_reg_vle = pd.merge(student_reg, student_vle, on='id_student', how='left')
student_reg_vle.set_index('id_student', inplace=True)
print(student_reg_vle)