代码之家  ›  专栏  ›  技术社区  ›  Demi

python:膨胀和放气实现

  •  48
  • Demi  · 技术社区  · 15 年前

    我正在与一个服务器接口,该服务器要求发送给它的数据被压缩 放气 算法(哈夫曼编码+LZ77),也发送我需要的数据 膨胀 .

    我知道python包含zlib,zlib中的C库支持调用 膨胀 放气 但这些显然不是由python zlib模块提供的。它确实提供 压缩 减压 但当我打电话时,如:

    result_data = zlib.decompress( base64_decoded_compressed_string )
    

    我收到以下错误:

    Error -3 while decompressing data: incorrect header check
    

    gzip没有更好的效果;打电话时,例如:

    result_data = gzip.GzipFile( fileobj = StringIO.StringIO( base64_decoded_compressed_string ) ).read()
    

    我收到错误:

    IOError: Not a gzipped file
    

    这是有意义的,因为数据是 泄气的 文件不是真的 格子化的 文件。

    现在我知道 放气 实现可用(PyFlate),但我不知道 膨胀 实施。

    似乎有几个选择:

    1. 查找的现有实现(理想) 膨胀 放气 在蟒蛇中
    2. 将我自己的python扩展写入zlib c库,其中包括 膨胀 放气
    3. 调用可以从命令行执行的其他内容(例如ruby脚本,因为 膨胀 / 放气 zlib中的调用完全用Ruby包装)
    4. ?

    我正在寻求解决方案,但如果没有解决方案,我将感谢您的见解、建设性意见和想法。

    附加信息 : 出于我需要的目的,对字符串进行放气(和编码)的结果应该与下面的C代码片段给出相同的结果,其中输入参数是与要压缩的数据对应的一个utf字节数组:

    public static string DeflateAndEncodeBase64(byte[] data)
    {
        if (null == data || data.Length < 1) return null;
        string compressedBase64 = "";
    
        //write into a new memory stream wrapped by a deflate stream
        using (MemoryStream ms = new MemoryStream())
        {
            using (DeflateStream deflateStream = new DeflateStream(ms, CompressionMode.Compress, true))
            {
                //write byte buffer into memorystream
                deflateStream.Write(data, 0, data.Length);
                deflateStream.Close();
    
                //rewind memory stream and write to base 64 string
                byte[] compressedBytes = new byte[ms.Length];
                ms.Seek(0, SeekOrigin.Begin);
                ms.Read(compressedBytes, 0, (int)ms.Length);
                compressedBase64 = Convert.ToBase64String(compressedBytes);
            }
        }
        return compressedBase64;
    }
    

    为字符串“deflate and encode me”运行此.NET代码将给出结果

    7b0HYBxJliUmL23Ke39K9UrX4HShCIBgEyTYkEAQ7MGIzeaS7B1pRyMpqyqBymVWZV1mFkDM7Z28995777333nvvvfe6O51OJ/ff/z9cZmQBbPbOStrJniGAqsgfP358Hz8iZvl5mbV5mi1nab6cVrM8XeT/Dw==
    

    当“deflate and encode me”通过python zlib.compress()运行,然后进行base64编码时,结果是“ejxlsu3lsxjvujms1fizuvot0lvye0fafxhb6k”。

    很明显,zlib.compress()不是标准deflate算法的实现。

    更多信息 :

    B64解码后的.NET deflate数据的前2个字节(“7b0hy…”)是0xedbd,与gzip数据(0x1f8b)、bzip2(0x425a)数据或zlib(0x789c)数据不对应。

    B64解码后,python压缩数据的前2个字节(“ejxls…”)是0x789c。这是一个zlib头。

    解决了的

    要处理未经处理的放气和充气,不需要标题和校验和,需要执行以下操作:

    在deflate/compress上:去掉前两个字节(头)和最后四个字节(校验和)。

    关于膨胀/解压:还有第二个关于窗口大小的参数。如果该值为负数,则取消标题。以下是我目前的方法,包括base64编码/解码-并正常工作:

    import zlib
    import base64
    
    def decode_base64_and_inflate( b64string ):
        decoded_data = base64.b64decode( b64string )
        return zlib.decompress( decoded_data , -15)
    
    def deflate_and_base64_encode( string_val ):
        zlibbed_str = zlib.compress( string_val )
        compressed_string = zlibbed_str[2:-4]
        return base64.b64encode( compressed_string )
    
    2 回复  |  直到 15 年前
        1
  •  20
  •   Community Tales Farias    7 年前

    这是对Mizardx答案的补充,给出了一些解释和背景。

    http://www.chiramattel.com/george/blog/2007/09/09/deflatestream-block-length-does-not-match.html

    根据 RFC 1950 ,以默认方式构造的zlib流由以下部分组成:

    • 一个2字节的头段(例如,0x78 0x9C)
    • 泄气的河流——见 RFC 1951
    • 未压缩数据的ADLER-32校验和(4字节)

    C语言 DeflateStream 在(你猜到的)泄气流上工作。Mizardx的代码告诉zlib模块数据是一个原始的放气流。

    观察:(1)人们希望C“放气”方法只在短输入下产生较长的字符串(2)使用原始放气流而不使用ADLER-32校验和?有点冒险,除非换上更好的东西。

    更新

    错误信息 Block length does not match with its complement

    如果你试图用C来填充一些压缩数据# 排水井 你得到了这个信息,那么你很可能给它一个zlib流,而不是一个泄气流。

    How do you use a DeflateStream on part of a file?

    另外,将错误信息复制/粘贴到谷歌搜索中,你会得到很多点击(包括这个答案前面的一个),说了很多相同的话。

    爪哇 Deflater …被“网站”使用…C.O.DelaTestReMrm“非常简单,并且已经针对Java实现进行了测试”。下列哪种可能的Java通缩构造函数是网站使用的?

    public Deflater(int level, boolean nowrap)

    使用指定的压缩级别创建新的压缩机。如果“nowrap”为真,则不会使用zlib头和校验和字段来支持gzip和pkzip中使用的压缩格式。

    public Deflater(int level)

    使用指定的压缩级别创建新的压缩机。压缩数据将以zlib格式生成。

    public Deflater()

    创建具有默认压缩级别的新压缩机。压缩数据将以zlib格式生成。

    一个单线排水管 丢弃2字节zlib头和4字节校验和后:

    uncompressed_string.encode('zlib')[2:-4] # does not work in Python 3.x
    

    zlib.compress(uncompressed_string)[2:-4]
    
        2
  •  21
  •   Cristian Ciupitu    10 年前

    你仍然可以使用 zlib 充气/放气数据模块。这个 gzip 模块在内部使用它,但添加了一个文件头,使其成为gzip文件。看着 gzip.py 文件,类似这样的文件可以工作:

    import zlib
    
    def deflate(data, compresslevel=9):
        compress = zlib.compressobj(
                compresslevel,        # level: 0-9
                zlib.DEFLATED,        # method: must be DEFLATED
                -zlib.MAX_WBITS,      # window size in bits:
                                      #   -15..-8: negate, suppress header
                                      #   8..15: normal
                                      #   16..30: subtract 16, gzip header
                zlib.DEF_MEM_LEVEL,   # mem level: 1..8/9
                0                     # strategy:
                                      #   0 = Z_DEFAULT_STRATEGY
                                      #   1 = Z_FILTERED
                                      #   2 = Z_HUFFMAN_ONLY
                                      #   3 = Z_RLE
                                      #   4 = Z_FIXED
        )
        deflated = compress.compress(data)
        deflated += compress.flush()
        return deflated
    
    def inflate(data):
        decompress = zlib.decompressobj(
                -zlib.MAX_WBITS  # see above
        )
        inflated = decompress.decompress(data)
        inflated += decompress.flush()
        return inflated
    

    我不知道这是否完全符合您的服务器的要求,但这两个功能能够往返任何我尝试的数据。

    参数直接映射到传递给zlib库函数的内容。

    蟒蛇 γ C
    zlib.compressobj(...) γ deflateInit(...)
    compressobj.compress(...) γ deflate(...)
    zlib.decompressobj(...) γ inflateInit(...)
    decompressobj.decompress(...) γ inflate(...)

    构造函数创建结构并用默认值填充它,然后将其传递给init函数。 这个 compress / decompress 方法更新结构并将其传递给 inflate / deflate .