代码之家  ›  专栏  ›  技术社区  ›  nWorx

从不同的非结构化文本文件中检索信息-文本挖掘?

  •  2
  • nWorx  · 技术社区  · 14 年前

    我需要一些帮助来解决这个问题。

    我们有一个给定域的大量文档。这些文件来自不同的来源,因此它们的结构也可能非常不同。另一方面,我有一个表,其中有一些特定的字段,其中一些数字必须从文件的摘录中填写。

    例如:

    X公司的业务量为 2010年为2000万美元。100万美元是 今年是Y公司。

    结果应该是这样

    || Company | Year | Volume  
    ||  X      | 2010 |  200,000  
    ||  Y      | 2010 | 1000,000  
    

    你能给我指出一些链接或主题,在那里我可以找到进一步的信息,如何解决这样的问题。

    我知道没有现成的解决方案,但我应该从哪里开始寻找。

    提前谢谢。

    1 回复  |  直到 14 年前
        1
  •  2
  •   Andrew Bienert    14 年前

    好啊。整个计算机科学实验室都在致力于这类事情! 也许先找一个叫做 RapidMiner

    这里还有一些研究论文的标题,我有PDF格式的(我已经没有链接了):

    1。自动理解财务报表 使用神经网络和语义语法

    詹姆斯马科维奇 Dun&Bradstreet,搜索技术 1995年4月 电子邮箱:jsmarkovitch@yahoo.com 版权所有1995 James Markovitch

    2。一种文档图像语义结构自动提取的集成方法

    玛格丽塔·贝拉迪、米歇尔·拉皮和多纳托·马勒巴 巴里大学信息学院 经由奥拉博纳4-70126巴里 {贝拉迪,拉皮,马勒巴}@di.uniba.it

    我想第一个对你的追求最感兴趣。但不太确定它会有多大价值:)