我目前正试图写一个机器人玩俄罗斯方块上的俄罗斯方块朋友。com来练习机器学习,但我已经被卡住了。我试图找到一种方法来读取球员在比赛中的得分,但Tesseract无法识别字体/数字,我认为我也无法重新训练Tesseract来识别数字,因为它不是一种完整的字体,只是数字。
我试图从中读取数字的图像是: https://imgur.com/a/OVwV5
当我使用Tesseract时,我可以让它识别页面上的其他单词,而不是我需要的数字。
我对Tesseract不是特别熟悉,但这可能不是你在这里的最佳选择。如果最终目标只是制作一个机器人,你可能可以直接从应用程序中提取文本,而不用担心OCR,但是如果你想了解更多关于机器学习的知识,而你还没有完成这些工作,那么 MNIST 和 CIFAR-10 数据集是绝佳的起点。
无论如何你要测试的图像对比度很低,字体风格化程度很高。从网站本身看,这些字符似乎是黄色的:
如果您对图像进行预处理,使黄色像素为黑色,所有其他像素为白色,则您将有一个更干净的源来处理,例如:
guide 应该能够引导你完成再培训的基本步骤。