1
11
你有问题吗 document classification naive bayes classifiers support vector machines . 在文章中,有一些实现这些算法的库的链接,其中许多都有C++接口。 |
2
7
我能想到的一个简单的解决方案是,你可以识别不同语言中使用的关键字。每个识别出的单词都有+1分。然后计算比率=确定的单词/总单词。得分最高的语言是赢家。当然也有一些问题,比如评论e.t.c.的使用,但我认为这是一个非常简单的解决方案,在大多数情况下应该是可行的。 |
3
3
很抱歉,如果你要分析成千上万个文件,那么你最好看 文件扩展名 . 不要过度设计一个简单的问题,或把繁重的要求放在一个简单的任务上。 听起来你有成千上万的源代码文件,却不知道它们是用什么编程语言编写的。你在什么样的编程环境中工作?(排除人工作业要求的可能性)我的意思是,软件工程的基础知识之一,我可以一直依赖的是,c++代码文件有.cpp扩展名,java代码文件有.java扩展名,c代码文件有.c扩展名等等。。。贵公司是否在严格执行这些标准?如果是这样的话,我真的很担心。 |
4
2
如果您不能使用文件扩展名,最好的方法是找到不同语言之间最不同的内容,并使用这些内容来确定文件类型。例如,For循环语句的语法在不同语言之间不会有太大的差异,但包include语句应该是相同的。如果你有文件包括java.util文件那么你就知道这是一个java文件了。 |
5
2
正如dmckee所建议的,您可能想看看Unix
|
6
1
看一看 nedit 语法突出显示->识别模式 here ,或者下载程序并查看标准程序。 以下是对 highlighting system . |
7
1
因为语言列表是预先知道的,所以你知道每种语言的语法。
如果最后你只剩下一种可能-这是你的语言。 如果你太快到达程序的结尾,那么(从你停止的地方)你可以分析你在树上的位置,找出哪些语言仍然是可能的。 |
8
0
您可以尝试考虑语言的差异,并用二叉树对这些差异进行建模,比如“是否找到了featurex?”如果是,则朝一个方向行驶,如果不是,则朝另一个方向行驶。
|
9
0
这一个不快,可能不能满足您的要求,但只是一个想法。它应该很容易实施,应该给100%的结果。 您可以尝试使用不同的编译器/解释器(开源或免费)编译/执行输入文本,并检查幕后的错误。 |
danial · 如何在多个字符串的每个位置找到最频繁的字符 2 年前 |
Manny · 如何比较Perl中的字符串? 2 年前 |
Diret · 获取范围内每个数字的子倍数的算法 2 年前 |
Saif · 排序时python如何决定何时调用比较器? 2 年前 |