代码之家  ›  专栏  ›  技术社区  ›  Breton

日语的自动换行算法

  •  6
  • Breton  · 技术社区  · 15 年前

    在我最近构建的一个Web应用程序中,当我们的一个用户决定使用它来创建完全用日语编写的东西时,我很高兴地感到惊讶。然而,这篇文章被包装得既奇怪又笨拙。显然,浏览器不能很好地包装日文,可能是因为它包含很少的空格,因为每个字符形成一个完整的单词。然而,这并不是一个安全的假设,因为有些单词是由几个字符构成的,将一些字符组分成不同的行是不安全的。

    谷歌搜索并没有真正帮助我更好地理解这个问题。在我看来,一个人需要一本关于牢不可破模式的字典,并且假设其他地方都是安全的,可以破解。但我担心我对日语的了解不够,以至于我无法真正了解所有的单词,这些单词在我的一些搜索中都是非常复杂的。

    你将如何处理这个问题?是否有任何库或算法,您知道已经存在,以令人满意的方式处理这一点?

    1 回复  |  直到 12 年前
        1
  •  12
  •   Michael Borgwardt    15 年前

    日语自动换行规则称为 kinsoku shori 而且非常简单。实际上,他们主要关注标点符号,根本不想让单词保持完整。

    我刚刚看了一本日本小说,的确,音节假名脚本中的两个单词和由多个汉字组成的单词都被包裹在中间,不会受到惩罚。