我想将一个从数据库中提取的文本文件导入到python中。它是一种纯文本格式,没有行尾分隔符(但我知道应该有固定数量的列)。
每一行都用一个递增的ID标识。(
"0001"
,
"0002"
,请
"0003"
在下面的示例中)。
我尝试了不同的方法,最后这一个:
with open('url.txt', "rb") as f:
df = f.read().decode(errors="replace")
但这给了我一个巨大的字符串然后我用一个循环在ID上尝试了一些regex,然后在
","
问题是有时丢失的数据会被编码
\N
如果没有引号,则不会返回每行相同数量的列。数据样本:
"0001","2015-01-01","doc","eab4e80fec7352a7","https://www.paypal.com/us","setRequestHeader(\"Content-Type\")","0002","2015-01-02","doc","0",\N,\N,"0003",etc.
预期的输出应该是一个包含列的PANDAS数据框:id、date、doctype、hash、url、code。
我知道怎么做吗?