![]() |
1
4
我已经进去了 确切地 同样的位置。生产mysql服务器设置为latin1,旧数据设置为latin1,新数据设置为utf8,但存储在latin1列中,然后添加utf8列,每行可以包含任意数量的编码。
最大的问题是没有一个单一的解决方案可以解决所有问题,因为许多传统编码对不同的字符使用相同的字节。这意味着你将不得不诉诸启发式。在我的
然后循环字符串中的字节(而不是字符)并保留分数。如果你想知道更多的信息,请告诉我。 |
![]() |
2
1
下载iconv-您可以获得win32和unix/linux的二进制文件。它是一个命令行工具,接受一个源文件,在指定输入编码和输出编码之后,将为您执行到stdout的必要转换。 我发现自己经常使用这个工具将utf-16(作为sql server 2005导出文件的输出)转换为ascii。 您可以从这里下载: http://gnuwin32.sourceforge.net/packages/libiconv.htm |
![]() |
3
0
考虑到数据的复杂性(一行/条目上有多个编码)。我认为您必须导出/转储数据,然后对其运行处理。 我认为最好的方法是一系列的人工替换。也许某种拼写更正代码可以找到所有错误-然后您可以添加显式更正代码。然后重复直到拼写检查停止查找错误? (显然,在字典中添加任何正确的单词,以便进行拼写检查)。 |
![]() |
4
0
看一看 https://github.com/LuminosoInsight/python-ftfy -它很擅长做一个启发性的修正,将照顾到 相当地 一些比你看到数据的小样本时所期望的更丑陋的东西。 |
![]() |
Ben · 统计向量中的单词在字符串中出现的频率 4 月前 |
![]() |
bear_525 · 从列中删除中间名和首字母,并保存在单独的列中 6 月前 |
![]() |
asdfadf · 为什么具有相同内存值的字符串和整数打印方式不同? 6 月前 |
![]() |
user764754 · 防止多行原始字符串文字中出现新行字符 6 月前 |
![]() |
Bogaso · 从列表中返回与模式匹配的元素 6 月前 |
![]() |
Jasco · 如何使用VBA提取两个相似字符之间的字符串中的单词? 7 月前 |