代码之家 › 专栏 › 技术社区 › nWorx

从不同的非结构化文本文件中检索信息-文本挖掘?

text-mining data-mining c#

nWorx · 技术社区 · 14 年前

我需要一些帮助来解决这个问题。

我们有一个给定域的大量文档。这些文件来自不同的来源,因此它们的结构也可能非常不同。另一方面,我有一个表,其中有一些特定的字段,其中一些数字必须从文件的摘录中填写。

例如:

X公司的业务量为 2010年为2000万美元。100万美元是今年是Y公司。

结果应该是这样

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000

你能给我指出一些链接或主题,在那里我可以找到进一步的信息,如何解决这样的问题。

我知道没有现成的解决方案,但我应该从哪里开始寻找。

提前谢谢。

1 回复 | 直到 14 年前

Andrew Bienert 14 年前

好啊。整个计算机科学实验室都在致力于这类事情! 也许先找一个叫做 RapidMiner

这里还有一些研究论文的标题,我有PDF格式的(我已经没有链接了):

1。自动理解财务报表使用神经网络和语义语法

2。一种文档图像语义结构自动提取的集成方法

玛格丽塔·贝拉迪、米歇尔·拉皮和多纳托·马勒巴巴里大学信息学院经由奥拉博纳4-70126巴里 {贝拉迪,拉皮,马勒巴}@di.uniba.it

我想第一个对你的追求最感兴趣。但不太确定它会有多大价值:)

推荐文章

Marvania Mehul - MKPatel · 确定估算其中一类概率的模型的准确性

6 年前

user7740495 · 如何遍历pandas数据帧中的每列和每个单元格

6 年前

PhD Rookie · 选择最可能选项的决策树?

6 年前

The_Anil · 获取无效类型比较错误

6 年前

Mohit Shah · 为什么在选择模型之前不进行模型调整?

6 年前

r1d1 · 主题提取和文本分类在概念上有什么区别?

6 年前

Sara · 按行从两列中选择重复项,并在R中创建一个新变量

6 年前

Bohan Xu · 互信息和预测精度

6 年前

Syahnur Nizam · 使用Weka作为引擎的基于PHP的网站

7 年前

Abdelghani Info · 为什么使用支持向量机?

7 年前