代码之家 › 专栏 › 技术社区 › viraptor

最流行的子字符串

text-parsing language-agnostic algorithm

viraptor · 技术社区 · 14 年前

我试图把大量的短字符串解析成一些逻辑部分。似乎有人已经解决了一个有趣的问题,但我找不到任何论文/解决方案(或者我尝试了错误的关键字)。

弦有2-5个部分。如果我用每一个词代替一封信,上面写着它所属的“部分”/“部分”,下面是它们的一个例子:

AAABB
AABBBBCC
AABBBBDD
AAACCDD
...

大多数“部分”只有2-3个字长,在~10 k字符串中有大约100-500个完全相同的部分。也就是说,在100个字符串中有aaa==“some text here”,在其他100个字符串中有aaa==“some other text”。在一个字符串中,每种类型只能有一个部分(它们通常按顺序排列)。任何部分都没有有限的值集,将来可能会出现新值。

问题是:如果我有足够的样本,并且不想手动标记,如何检测这些部分?这可以被监视/确认,而不是完全自动的,所以概率列表是可以的。

我只是想简单地列出2-5个长单词n-grams并找出概率,但这并没有考虑顺序(这可能会有所帮助)。它还可以检测到一些文本是常见的,但是如果我有一些特定的2个部分,并且经常使用相同的值,那么这个方法就不能很好地工作。假设我只有由ABCD组成的字符串,每行中的值相同:

ABC
ABD
ACD

只做ngram分析,我将很有可能成为一个部分,以及ab,c和d。我想在这种情况下从结果中消除ab,但以一种方式,不分配自己的部分到像“the”这样的词,并消除所有较大的部分恰好包含“the”。

对于类似的问题有什么已知的解决方案吗?

1 回复 | 直到 14 年前

Mark Ransom 14 年前

这个 Lempel-Ziv-Welch 该算法在识别常见子串时非常有效,但并不尝试对它们进行排序。它也不注意单词或线的边界。它仍然可以作为一个起点来获得你需要的东西。

推荐文章

SkyWalker · 在JavaScript中,合并日期-时间序列的有效算法是什么?

1 年前

root · 计数算法

1 年前

André Silveira · 使用循环将数组的每个槽递增1。数组的大小是传递给函数的参数

2 年前

danial · 如何在多个字符串的每个位置找到最频繁的字符

2 年前

Manny · 如何比较Perl中的字符串?

2 年前

Suhail Gupta · 在排序阵列中查找目标范围的时间复杂度-此解在最坏情况下是否为O(N)?

2 年前

Diret · 获取范围内每个数字的子倍数的算法

2 年前

Saif · 排序时python如何决定何时调用比较器?

2 年前

TryingToLearn · 我如何为通用遥控器构造一个类,该遥控器向连接到它的各种设备发送开/关命令?

2 年前

Sneha Sharma · 滑动窗口-在我的代码中找不到错误(非常基本的算法)

2 年前