我对Tesseract不是特别熟悉,但这可能不是你在这里的最佳选择。如果最终目标只是制作一个机器人,你可能可以直接从应用程序中提取文本,而不用担心OCR,但是如果你想了解更多关于机器学习的知识,而你还没有完成这些工作,那么
MNIST
和
CIFAR-10
数据集是绝佳的起点。
无论如何你要测试的图像对比度很低,字体风格化程度很高。从网站本身看,这些字符似乎是黄色的:
如果您对图像进行预处理,使黄色像素为黑色,所有其他像素为白色,则您将有一个更干净的源来处理,例如:
guide
应该能够引导你完成再培训的基本步骤。