代码之家  ›  专栏  ›  技术社区  ›  Igor Rivin

csv文件中的“非法”字符-不同程序的不同行为

  •  0
  • Igor Rivin  · 技术社区  · 3 年前

    我想下载VAERS的数据文件, here (ValsDATA文件2021,以防你感到奇怪)。下载不是问题,是后几个阶段让我困惑。用Excel打开CSV效果很好(尽管速度非常慢,正如我们从Excel中学到的那样)。将其作为sqlite表读入也很好。然而 pandas.read_csv 吐,所以:

    UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 52327: invalid start byte
    

    我试图用以下方法清理文件:

    tr -cd '[:print:]\n'
    

    但在我曲折的职业生涯中第一次, tr 失败:

    tr: Illegal byte sequence
    

    任何关于如何将其读入python的建议都将不胜感激。

    0 回复  |  直到 3 年前