代码之家 › 专栏 › 技术社区 › Max

大文本文件处理

text-processing wolfram-mathematica import

Max · 技术社区 · 14 年前

我需要在Mathematica中实现延迟加载。我有一个600 Mb的CSV文本文件需要处理。此文件包含许多重复的记录:

1;0;0;13;6
1;0;0;13;6
..........
2;0;0;13;6
2;0;0;13;6
..........
etc.

因此,我不想将它们全部加载到内存中,而是创建一个包含记录和在文件中遇到此记录的次数的列表:

{{10000,{1,0,0,13,6}}, {20000,{2,0,0,13,6}}, ...}

我找不到使用导入功能的方法。我在找类似的东西

Import["my_file.csv", "CSV", myProcessingFunction]

其中myProcessingFunction将一次获取一条记录并创建一个数据集。是否可以使用Import或其他Mathematica函数来完成此操作?

4 回复 | 直到 14 年前

Joshua Martell 14 年前

如果是我,我可能会用unix sort 和 uniq ,但既然你问起Mathematica。。。。我将使用ReadList[]来读取行块,并定义downvalues来查找唯一的字符串,并跟踪我们以前看到的行数。

(* Create some test data *)
Export["/tmp/test.txt", Flatten[{Range[1000], Range[1000]}], "Lines"];

countUniqueLines[file_String, blockSize_Integer] := Module[{stream, map, block, keys, out}, 
    map[_]:=0;
    stream = OpenRead[file];
    CheckAbort[While[(block=ReadList[stream, String, blockSize])=!={}, 
        (map[#]=map[#]+1)& /@ block;];, Close[stream];Clear[map]];
    Close[stream];
    keys = Cases[DownValues[map][[All, 1, 1, 1]], _String];
    out = {#, map[#]}& /@ keys;
    Clear[map];
    out
]

countUniqueLines["/tmp/test.txt", 500]


(* Alternative implementation if you have a little more memory *)
Tally[Import["/tmp/test.txt", "Lines"]]

High Performance Mark 14 年前

我想你想要 Read[] 功能。

Dr. belisarius 14 年前

也许有比Mathematica更好的选择来做这件事。

一个小的awk脚本:

 {a[$0]++}  
 END { ... print loop ... }

会累积重复的记录。当然,根据不同记录的数量,可能会出现溢出。

或者分类首先是文件,计数不会溢出。在awk中,非溢出程序可能类似于;

 BEGIN{ p =""; i=0}

 {if (($0 != p) &&  (i != 0) ) {print $0,i ; p =$0; i=0; next}}

 {i++; p = $0}

也许Perl更好,但我是老式的。

啊!

gdelfino 14 年前

我建议您首先考虑将它加载到MySQL这样的数据库系统中,然后您可以从 数学软件 使用数据库链接。

推荐文章

Giancarlo D · 在IPv4地址匹配后使用SED删除行尾的冒号

2 年前

Noah Goodrich · 解析以串行方式记录的数据而不是以表格、json等方式记录的数据的最佳方法?

7 年前

Max TC · 在R中匹配并替换字符串中拼写错误的单词

7 年前

Ken · 如果Id列匹配,则合并两个csv文件

7 年前

user7816390 · 替换整个字符串中的代词

7 年前

jackscorrow · 在匹配后的第一个空行之前提取行

7 年前

Daniel · R:找到图案并编辑

7 年前

Gilang Pratama · 为什么停止文字删除为空?(php)

7 年前

leaRner · 如何保存bash输出中以文件中特定单词开头的文本?[副本]

7 年前

Ramin Zahedi · 如何附加到制表符分隔文本文件中列数较少的行?

8 年前