代码之家  ›  专栏  ›  技术社区  ›  loretoparisi

意大利语中某些词缀的拼写错误检测

  •  0
  • loretoparisi  · 技术社区  · 6 年前

    我在用 hunspell 用于拼写检测。根据 docs 当词典定义了某一语言的规则时,词缀被正确地处理。就意大利字典而言 it_IT 我对介词有问题 all 像这样的句子 all'orizzonte ,其中输出如下

    {
              "word": "all",
              "stems": [],
              "suggestion": [
                "al",
                "alla",
                "allo",
                "alle",
                "hall",
                "ala",
                "ali",
                "alo",
                "alt",
                "alò",
                "alé",
                "al l"
              ],
              "correct": false,
              "analysis": []
            },
        {
              "word": "orizzonte",
              "stems": [
                "orizzonte"
              ],
              "suggestion": [],
              "correct": true,
              "analysis": [
                " st:orizzonte"
              ]
            }
    

    注意 analysis 此处不返回任何形态学分析结果。 在其他情况下,例如在 un'aquilone ,不定冠词 un 将被正确检测到

    {
              "word": "un",
              "stems": [
                "un"
              ],
              "suggestion": [],
              "correct": true,
              "analysis": [
                " st:un"
              ]
            },
            {
              "word": "aquilone",
              "stems": [
                "aquilone"
              ],
              "suggestion": [],
              "correct": true,
              "analysis": [
                " st:aquilone"
              ]
            }
    

    我正在使用一个积极的标记器加上意大利语变音符号的自定义规则,因此它将以正确的方式拆分标记,即。 全火山岩 变成[ 全部的 , orizzonte ,同时 非喹啉酮 变成 ['un', 'aquilone'] -注意:这不是像树库那样的标记器

    我查过词缀词典 ITIT 我可以看到 全部的 我有

    PFX T 0 all' [aeiouhAEIOUH]
    PFX T a all'A a
    PFX T e all'E e
    PFX T i all'I i
    PFX T o all'O o
    PFX T u all'U u
    PFX T h all'H h
    

    喜欢 联合国 :

    PFX U 0 un' [aeiouhAEIOUH]
    PFX U a un'A a
    PFX U e un'E e
    PFX U i un'I i
    PFX U o un'O o
    PFX U u un'U u
    PFX U h un'H h
    

    所以我假设 全部的 应该有用,但不行。

    0 回复  |  直到 6 年前