如果我有一个多页的PDF,并使用优秀的
poppler package
(安装在MacOS上使用
brew install poppler
像这样:
pdfseparate foo.pdf bar-%04d.pdf
然后重新加入结果栏-.pdf文件,如下所示:
pdfunite bar-*.pdf baz.pdf
生成的baz.pdf似乎包含相同的内容,但是
文件要大得多
.
起初我假设是因为结果中会有重复的元数据或其他东西。但即使我从所有文件中剥离所有元数据,即从输入以及中间条.pdf文件以及生成的输出文件中,使用
exiftool
和
qpdf
这样地:
# command line steps to strip metadata from (and re-linearize) example.pdf :
exiftool -all= -overwrite_original example.pdf ;
mv example.pdf temp.pdf ;
qpdf --linearize temp.pdf example.pdf
然后
仍然
生成的baz.pdf文件比原始输入大得多。
造成这种情况的原因是什么?在多页PDF文件中,除了它的纯内容之外还能有什么?假设波普勒的
pdfseparate
和
pdfunite
保持实际内容本身不受影响,并且我对元数据的剥离是正确的。
或者有可能
PDFACT
和
磷镁石
不知何故,以一种无损但次优的方式分解和重构PDF内容?(我对PDF文件的内部结构不太了解,但我可以想象有很多不同的方法可以对相同的内容进行编码)
顺便说一下,如果我使用
exiftool somefile.pdf
它确实没有显示任何元数据(线性化:是的)。