代码之家  ›  专栏  ›  技术社区  ›  jonderry

什么是好的机器学习编程练习?[关闭]

  •  26
  • jonderry  · 技术社区  · 13 年前

    理想情况下,它们将具有以下特征:

    1. 它们只需一晚上的编码就可以完成。它不需要一周或更长的时间就能得到有趣的结果。这样,我就可以感觉到我在一次(可能是几个小时)的坐着学习和完成了一些事情。

    2. 这些问题来自现实世界,或者至少是现实世界问题的玩具版本。

    3. 如果问题需要数据来测试解决方案,那么现实世界中就有现成的数据集,或者自己生成有趣的测试数据很简单。

    4. 很容易评价我做的工作有多好。当我测试我的解决方案时,从结果中可以清楚地看到,我已经完成了一些不平凡的事情,要么通过简单的检查,要么通过对结果质量的可量化度量。

    3 回复  |  直到 12 年前
        1
  •  22
  •   carlosdc    13 年前

    实现以下算法:

    • 感知器,边缘感知器:你可以尝试用任何人脸数据库来检测人脸图像(对人脸和非人脸的图像进行分类)。例如 MIT CBCL face database . 你也可以试试 MNIST data 写一个穷人的OCR系统。
    • LVQ,Kohonen地图:你可以尝试压缩图像。你可以从任何墙纸网站下载大图片。
    • 朴素贝叶斯分类器:你可以分类垃圾邮件而不是垃圾邮件。还有更多的科学数据集,比如 Reuters 以及新闻组等,你必须根据文章来确定主题。
    • 反向传播,多层感知器:你可以用人脸或者垃圾邮件来尝试,或者 with the text/histogram data .
    • 使用SGD的原始支持向量机线性学习:您可以尝试使用 MNIST 例如,数字。

    有很多项目,有些需要几个小时,有些需要几天,但你肯定会学到很多。

        2
  •  6
  •   George    13 年前

    检查 UCI machine learning repository 为了真实的数据集。

    这个 Breast Cancer Wisconsin (Diagnostic) Data Set 例如。 有关详细信息,请检查数据集说明。

    即使是朴素的贝叶斯分类器也能在这个数据集上得到很好的结果(超过95%的交叉验证精度)。如果我没记错的话,通过一些变量选择,你甚至可以达到100%。

        3
  •  6
  •   nbro Wei    7 年前

    大多数机器学习项目可能需要一些时间。

    贝叶斯怎么样 文本分类?

    NLTK工具包(Python的自然语言工具包)中的一个示例是电影评论。该工具包提供了标记为正面或负面的电影评论。

    写一个 贝叶斯分类器 利用这些数据进行培训,可以对电影评论进行分类。