代码之家  ›  专栏  ›  技术社区  ›  Igor Katson

针对频繁模式的python、web日志数据挖掘

  •  4
  • Igor Katson  · 技术社区  · 14 年前

    我需要开发一个用于Web日志数据挖掘的工具。

    在特定的用户会话(从Web应用程序日志中检索)中,有许多URL序列,我需要找出网站用户的使用模式和组(集群)。

    我对数据挖掘是个新手,现在正在研究谷歌。 找到一些有用的信息,例如查询 Frequent Pattern Mining in Web Log Data 似乎指向了几乎完全相似的研究。

    所以我的问题是:

    1. 有没有基于python的工具可以满足我的需求,或者至少类似于smth?
    2. 罐头 Orange toolkit 有什么帮助吗?
    3. 能看书吗 Programming Collective Intelligence 有什么帮助吗?
    4. 谷歌做什么,读什么,哪种相对简单的算法最好用?

    我的时间非常有限(一周左右),所以任何帮助都是非常宝贵的。我需要的是向我指出正确的方向,以及如何在最短时间内完成任务的建议。

    事先谢谢!

    2 回复  |  直到 13 年前
        1
  •  3
  •   Yin Zhu    14 年前

    1&2:Orange有一个频繁的模式挖掘模块。它还支持集群。

    3.我刚刚检查了这本书的内容。没有关于频繁模式挖掘的章节。总之,对于数据挖掘初学者来说,这是一本很好的书。你会发现帮助你精确地定义你的问题是非常有用的。

    4.您需要了解集群的输入和输出,频繁的模式挖掘/关联规则挖掘。所以谷歌这些算法,还是找一本好的数据挖掘课本来读。

        2
  •  1
  •   Satish    13 年前

    模式模块可能是您正在寻找的。 http://www.clips.ua.ac.be/pages/pattern