代码之家  ›  专栏  ›  技术社区  ›  Ivan Bilan

当使用单词对齐工具(如fast_align)时,句子越多是否意味着准确性越高?

  •  2
  • Ivan Bilan  · 技术社区  · 7 年前

    https://github.com/clab/fast_align 在1000个德语句子和这些句子的1000个英语译文之间进行单词对齐。到目前为止,质量不太好。

    在这个过程中加入更多的句子是否有助于fast_align更准确?假设我用100k对齐的句子对获取一些OPUS数据,然后在其末尾添加1000个句子,并将其馈送给fast_align。这有帮助吗?我似乎找不到任何关于这是否有意义的信息。

    1 回复  |  直到 7 年前
        1
  •  2
  •   Adam Bittlingmayer    7 年前

    [免责声明:我对校准几乎一无所知,也没有使用fast\u align。]

    也就是说,1000已经低得离谱,就这些目的而言,1000是不可能的,我不希望它起作用。

    更理想的情况是尝试10公里、10公里和1米。与其他人的结果更具可比性的是一些标准语料库,例如维基百科或研究研讨会的数据。