代码之家  ›  专栏  ›  技术社区  ›  Amandasaurus

有人分析过Wiktionary吗[[关闭]

  •  32
  • Amandasaurus  · 技术社区  · 14 年前

    Wiktionary 是一本涵盖多种语言的维基词典。它甚至有翻译。我对解析和处理数据很感兴趣,以前有人做过类似的事情吗?有我能用的图书馆吗(最好是蟒蛇。)

    11 回复  |  直到 8 年前
        1
  •  20
  •   Amber    14 年前

    Wiktionary运行在MediaWiki上 has an API

    API文档的一个子页是 Client code, which lists some Python libraries .

        2
  •  23
  •   ratmatz    14 年前

    我曾经下载过一个维基词典,试图收集斯拉夫语的词汇和定义。我使用elementtree访问它,遍历转储的xml文件。我会尽量避免刮取或爬网站点,只下载wikimedia为wiktionary提供的xml转储文件。转到 wikimedia downloads enwiktionary )去最近的垃圾场。您可能需要pages-articles.xml.bz2文件,它只是文章内容,没有历史记录或注释。用python中您喜欢的任何xml处理库来解析它。我个人更喜欢elementtree。祝你好运。

        3
  •  15
  •   spencercooly    12 年前

    wordnik 在解析定义等方面做得很好 他们有一个 great api

    像其他人提到的一样,wiktionary是一个格式化灾难,它不是为计算机可读而构建的

        4
  •  10
  •   Nemo    8 年前

    是的,很多人解析Wiktionary。你通常可以在网上找到过去的经历 Wiktionary-l mailing list archives .

    其他答案中没有提到的项目是DBPedia的 Wiktionary RDF extraction .

    Wiktionary special 而且在 other issues

    Recently 有人还发了一封信 English Wiktionary REST API

        5
  •  9
  •   Ben Reynwar    9 年前

    我对德国维基词典的解析很在行。我最后把它写下来,因为太难了,但我把我的(一点也不整理)代码放在了 https://github.com/benreynwar/wiktionary-parser 在我放弃之前。尽管编辑们使用了一些惯例,但除了同行监督之外,他们并没有强制执行。模板的多样性以及页面中所有的打字错误使得解析非常具有挑战性。

    我认为问题在于,他们使用了与wiktionary相同的系统,这对于编辑来说非常容易使用,但是对于wiktionary更结构化的内容来说并不合适。很遗憾,如果wiktionary可以很容易地被解析,那么它将是一个非常有用的资源。

        6
  •  4
  •   benroth    12 年前

    我刚从德语垃圾堆里列了一张字表:

    bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*:\1:' > words
    
        7
  •  4
  •   Andrew Krizhanovsky    10 年前

    欢迎使用MySQL解析Wiktionary数据库。 http://wikokit.googlecode.com

    如果你喜欢PHP,那么欢迎你玩 piwidict -这个机器可读Wiktionary的PHP API 2

        8
  •  3
  •   yota    9 年前

    dbnary 项目,不是python而是有趣的。 wikdict .

        9
  •  1
  •   Jan Berkel    9 年前

    JWKTL 它可以很好地解析和提取wiktionary中的结构化数据。它是用Java编写的,并且支持英语、德语和俄语版本。

        10
  •  0
  •   Chin    9 年前

    这取决于你需要多彻底地解析它。如果你只需要获得一种语言中一个单词的所有内容(定义、词源、发音、变位等),那么这就相当容易了。不过,我以前也这么做过 in Java using jsoup

    但是,如果您需要将其解析为内容的不同组件(例如,仅获取单词的定义),那么它将更具挑战性。语言中单词的Wiktionary条目没有预定义的模板,因此标题可以是 <h3> <h6> ,节的顺序可能混乱,也可能重复,等等。

        11
  •  -1
  •   skreutzer    6 年前

    parser for the German Wiktionary dump 在Java中,只提取名词和它们的冠词,加上它们的阿拉伯语翻译,没有任何依赖关系。执行需要很长时间,所以要小心。如果有兴趣/需要分析更多或其他数据,请告诉我,如果时间允许,我可能会调查。