代码之家  ›  专栏  ›  技术社区  ›  Upul Bandara

机器学习/信息检索项目

  •  1
  • Upul Bandara  · 技术社区  · 14 年前

    我读的是计算机科学的理学硕士学位,刚刚完成了资料来源的第一年。(这是一门为期两年的课程)。很快我就要为M.SC.项目提交一份建议书。我选择了以下主题。

    机器学习对信息检索系统中文档排序的适用性。研究人员一直在使用各种机器学习算法对文档进行排序。因此,作为项目的第一阶段,我将进行一次完整的文献调查,找出当前方法的优缺点。在项目的第二阶段,我将提出一种新的(改进的)算法,以克服当前方法的局限性。

    实际上,我的问题是,这种类型的项目是否适合作为一个M.SC.项目?此外,如果有人在信息检索领域有一些有趣的想法,有没有可能与我分享这些想法。

    谢谢

    2 回复  |  直到 13 年前
        1
  •  6
  •   Skarab    14 年前

    排名总是任何信息检索系统中最难的部分。我认为这是一个很好的主题,但是你必须要注意——尽快——来定义一个工作范围。也许你将不能开发一个新的红外引擎,而是建立一个基于,例如,ApacheLucene的原型。

    目前有很多数据集,包括stackoverflow数据转储,它为您提供了定义一个丰富的特征向量(点数、时间、您可以挖掘上一个问题的主题等、标签的流行程度)所需的所有信息,供您机器学习排名算法使用。在这部分工作中,您可以,例如,分类功能类型(例如,特定于用户、语义功能-标题中的软件名称),并执行一系列实验,以了解哪些功能最重要,哪些不适用于给定的数据集。

    这样一个项目的第二个方向是如何有效地执行学习。背后的原因是Web或社区论坛中的数据量和论坛中的更改(如果采用社区特定功能,这一点很重要),例如技术更改、新软件发布等。

    还有许多与搜索和机器学习相关的主题。最好的办法是搜索 scholar.google.com网站 对于最近的调查论文排名,机器学习,并搜索了解什么是最先进的。下一步就是和你的MSC主管谈谈。

    祝你好运!

        2
  •  1
  •   George    14 年前

    你说的每件事都是好的,应该做的,但是你忘记了最重要的部分:

    通过良好的实验和一些统计数据(p值、置信区间),证明您的算法比其他算法更好和/或更快。

    如果你这样做并说服人们你的算法是有用的,你肯定不会失败的:)