1
20
Wiktionary运行在MediaWiki上 has an API API文档的一个子页是 Client code, which lists some Python libraries . |
2
23
我曾经下载过一个维基词典,试图收集斯拉夫语的词汇和定义。我使用elementtree访问它,遍历转储的xml文件。我会尽量避免刮取或爬网站点,只下载wikimedia为wiktionary提供的xml转储文件。转到 wikimedia downloads enwiktionary )去最近的垃圾场。您可能需要pages-articles.xml.bz2文件,它只是文章内容,没有历史记录或注释。用python中您喜欢的任何xml处理库来解析它。我个人更喜欢elementtree。祝你好运。 |
3
15
|
4
10
是的,很多人解析Wiktionary。你通常可以在网上找到过去的经历 Wiktionary-l mailing list archives . 其他答案中没有提到的项目是DBPedia的 Wiktionary RDF extraction . Wiktionary special 而且在 other issues Recently 有人还发了一封信 English Wiktionary REST API |
5
9
我对德国维基词典的解析很在行。我最后把它写下来,因为太难了,但我把我的(一点也不整理)代码放在了 https://github.com/benreynwar/wiktionary-parser 在我放弃之前。尽管编辑们使用了一些惯例,但除了同行监督之外,他们并没有强制执行。模板的多样性以及页面中所有的打字错误使得解析非常具有挑战性。 我认为问题在于,他们使用了与wiktionary相同的系统,这对于编辑来说非常容易使用,但是对于wiktionary更结构化的内容来说并不合适。很遗憾,如果wiktionary可以很容易地被解析,那么它将是一个非常有用的资源。 |
6
4
我刚从德语垃圾堆里列了一张字表:
|
7
4
欢迎使用MySQL解析Wiktionary数据库。 http://wikokit.googlecode.com |
9
1
JWKTL 它可以很好地解析和提取wiktionary中的结构化数据。它是用Java编写的,并且支持英语、德语和俄语版本。 |
10
0
这取决于你需要多彻底地解析它。如果你只需要获得一种语言中一个单词的所有内容(定义、词源、发音、变位等),那么这就相当容易了。不过,我以前也这么做过 in Java using jsoup
但是,如果您需要将其解析为内容的不同组件(例如,仅获取单词的定义),那么它将更具挑战性。语言中单词的Wiktionary条目没有预定义的模板,因此标题可以是
|
11
-1
parser for the German Wiktionary dump 在Java中,只提取名词和它们的冠词,加上它们的阿拉伯语翻译,没有任何依赖关系。执行需要很长时间,所以要小心。如果有兴趣/需要分析更多或其他数据,请告诉我,如果时间允许,我可能会调查。 |
July · 如何定义数字间隔,然后四舍五入 1 年前 |
user026 · 如何根据特定窗口的平均值(行数)创建新列? 1 年前 |
Ashok Shrestha · 需要追踪特定的颜色线并获取坐标 1 年前 |
Nicote Ool · 在FastApi和Vue3中获得422 1 年前 |
Abdulaziz · 如何对集合内的列表进行排序[重复] 1 年前 |
asmgx · 为什么合并数据帧不能按照python中的预期方式工作 1 年前 |