1
6
排名总是任何信息检索系统中最难的部分。我认为这是一个很好的主题,但是你必须要注意——尽快——来定义一个工作范围。也许你将不能开发一个新的红外引擎,而是建立一个基于,例如,ApacheLucene的原型。 目前有很多数据集,包括stackoverflow数据转储,它为您提供了定义一个丰富的特征向量(点数、时间、您可以挖掘上一个问题的主题等、标签的流行程度)所需的所有信息,供您机器学习排名算法使用。在这部分工作中,您可以,例如,分类功能类型(例如,特定于用户、语义功能-标题中的软件名称),并执行一系列实验,以了解哪些功能最重要,哪些不适用于给定的数据集。 这样一个项目的第二个方向是如何有效地执行学习。背后的原因是Web或社区论坛中的数据量和论坛中的更改(如果采用社区特定功能,这一点很重要),例如技术更改、新软件发布等。 还有许多与搜索和机器学习相关的主题。最好的办法是搜索 scholar.google.com网站 对于最近的调查论文排名,机器学习,并搜索了解什么是最先进的。下一步就是和你的MSC主管谈谈。 祝你好运! |
2
1
你说的每件事都是好的,应该做的,但是你忘记了最重要的部分: 通过良好的实验和一些统计数据(p值、置信区间),证明您的算法比其他算法更好和/或更快。 如果你这样做并说服人们你的算法是有用的,你肯定不会失败的:) |