代码之家  ›  专栏  ›  技术社区  ›  wailer

python中的开源数据挖掘/文本分析工具

  •  2
  • wailer  · 技术社区  · 15 年前

    我有一个数据库,里面有各种产品的评论。我的任务是执行各种计算,并使用聚合数据“创建”另一个“数据库/xml导出”。我正在考虑用python编写命令行程序来实现这一点。但我知道以前有人做过这件事,我知道有一些开源python解决方案或类似的解决方案,可能会提供更多有趣的“聚合数据”,然后我就可以考虑了。

    问题是,除了从命令行进行基本数据操作之外,我对这一领域的了解并不多,我也不知道我应该使用什么术语来搜索这一领域。。我真的不是在寻找一些科学/可视化的东西(并不是说我不介意工具是否提供),一些简单的开始,并逐渐看到/开发我需要的东西。

    我唯一的要求是要么将“最终聚合数据”保存在数据库中,要么将其导出为XML文件(无专有内容)。它比我的python脚本更健壮,因为我必须处理4台机器上的“大量”数据。

    我应该从哪里开始我的研究?

    2 回复  |  直到 15 年前
        1
  •  1
  •   Steven Kryskalla    15 年前

    你想做什么样的分析?

    如果您正在分析文本,请查看 Natural Language Toolkit (NLTK)。

    如果要索引和搜索数据,请查看 whoosh 搜索引擎。

    请提供更多关于您希望进行何种分析的详细信息。

        2
  •  1
  •   Amro    15 年前

    数据集成 解决方案
    一个建议是开源 Kettle project 部分 Pentaho 一套
    对于python,快速搜索产生了 PyDI SnapLogic