我什么也没看到 documentation 关于能够指示OCR解析器仅返回 Latin-1 字符(编码 just the first 256 code points of the Unicode character set )例如,OCR解释了 " 双引号为 â 看起来很像双引号,但是 unicode 性格 \u201d .
Latin-1
"
â
unicode
\u201d
限制字符集可能是改进OCR(假设文档预期使用某种语言)并使下游文本处理更可预测的好方法。这可能吗?