代码之家  ›  专栏  ›  技术社区  ›  Zoltan Hernyak

C#中的英文文本标记化不是python是可能的吗?

  •  0
  • Zoltan Hernyak  · 技术社区  · 6 月前

    在我们的软件中,我们必须分析纯文本文件。首先我们应该把文本分成段落,然后分成句子,然后分成记号。最后的步骤(据我所知)是 stemming lemmatization .

    如果我们有这样的文本: We are singing great songs about heroes 我很想看到代币[ we , be , sing , great , song , about , hero ]. 正如我所理解的,为了实现这一点,我们需要一些方法来以某种方式找到原文中的标记,但最困难的部分是对其进行词干/引理。

    我知道有一个python项目 NLTK spaCy 他们擅长这些事情,但我们需要在这个项目中使用C#。我搜索了几个小时,但找不到任何可用的包。真不敢相信,所以我必须问——有没有libs,或者必须以某种方式从C#调用这些库才能做到这一点?

    1 回复  |  直到 6 月前
        1
  •  0
  •   ewz93    6 月前

    根据我的经验,尝试在Python之外进行NLP是一件非常痛苦的事情,但也有一些库可以实现,例如。 https://github.com/curiosity-ai/catalyst ,这似乎支持旅鼠化。

    由于词干通常只是一些基于规则的基本算法的实现,您也可以改编其他编程语言的一些代码,或者复制现有的直接实现,如以下所示: https://github.com/nemec/porter2-stemmer