代码之家  ›  专栏  ›  技术社区  ›  Arszilla

当尝试多进程时,如何修复“typeerror:cannot serialize”“io.bufferedreader”“object”错误

  •  1
  • Arszilla  · 技术社区  · 6 年前

    我正在尝试将代码中的线程转换为多处理,以测量其性能,并希望实现更好的强制执行潜力,因为我的程序将强制执行受密码保护的.zip文件。但每当我试图运行程序时,我都会得到:

    BruteZIP2.py -z "Generic ZIP.zip" -f  Worm.txt
    Traceback (most recent call last):
      File "C:\Users\User\Documents\Jetbrains\PyCharm\BruteZIP\BruteZIP2.py", line 40, in <module>
        main(args.zip, args.file)
      File "C:\Users\User\Documents\Jetbrains\PyCharm\BruteZIP\BruteZIP2.py", line 34, in main
        p.start()
      File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\process.py", line 112, in start
    self._popen = self._Popen(self)
      File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\context.py", line 223, in _Popen
    return _default_context.get_context().Process._Popen(process_obj)
      File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\context.py", line 322, in _Popen
    return Popen(process_obj)
      File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\popen_spawn_win32.py", line 65, in __init__
    reduction.dump(process_obj, to_child)
      File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\reduction.py", line 60, in dump
    ForkingPickler(file, protocol).dump(obj)
    TypeError: cannot serialize '_io.BufferedReader' object
    

    我确实找到了和我有相同问题的线程,但它们都是未解决/未解决的。我也试着插入 Pool 在上面 p.start() 因为我相信这是由于我在一台基于Windows的机器上,但没有帮助。我的代码如下:

      import argparse
      from multiprocessing import Process
      import zipfile
    
      parser = argparse.ArgumentParser(description="Unzips a password protected .zip by performing a brute-force attack using either a word list, password list or a dictionary.", usage="BruteZIP.py -z zip.zip -f file.txt")
      # Creates -z arg
      parser.add_argument("-z", "--zip", metavar="", required=True, help="Location and the name of the .zip file.")
      # Creates -f arg
      parser.add_argument("-f", "--file", metavar="", required=True, help="Location and the name of the word list/password list/dictionary.")
      args = parser.parse_args()
    
    
      def extract_zip(zip_file, password):
          try:
              zip_file.extractall(pwd=password)
              print(f"[+] Password for the .zip: {password.decode('utf-8')} \n")
          except:
              # If a password fails, it moves to the next password without notifying the user. If all passwords fail, it will print nothing in the command prompt.
              print(f"Incorrect password: {password.decode('utf-8')}")
              # pass
    
    
      def main(zip, file):
          if (zip == None) | (file == None):
              # If the args are not used, it displays how to use them to the user.
              print(parser.usage)
              exit(0)
          zip_file = zipfile.ZipFile(zip)
          # Opens the word list/password list/dictionary in "read binary" mode.
          txt_file = open(file, "rb")
          for line in txt_file:
              password = line.strip()
              p = Process(target=extract_zip, args=(zip_file, password))
              p.start()
              p.join()
    
    
      if __name__ == '__main__':
          # BruteZIP.py -z zip.zip -f file.txt.
          main(args.zip, args.file)
    

    正如我之前所说,我认为这主要是因为我现在在一台基于Windows的机器上。我和其他一些在基于Linux的机器上的人共享了我的代码,他们运行上面的代码没有问题。

    我在这里的主要目标是让8个进程/池开始,以最大化与线程相比所做的尝试次数,但是由于我无法获得 TypeError: cannot serialize '_io.BufferedReader' object 信息:我不确定在这里做什么以及如何继续修复它。如有任何帮助,我们将不胜感激。

    1 回复  |  直到 6 年前
        1
  •  2
  •   Jean-François Fabre    6 年前

    文件句柄序列化不太好…但是你可以把 名称 而不是压缩文件 文件句柄 (字符串可以在进程之间序列化)。避免 zip 作为内置文件名。我选择了 zip_filename

    p = Process(target=extract_zip, args=(zip_filename, password))
    

    然后:

    def extract_zip(zip_filename, password):
          try:
              zip_file = zipfile.ZipFile(zip_filename)
              zip_file.extractall(pwd=password)
    

    另一个问题是,由于以下原因,您的代码无法并行运行:

          p.start()
          p.join()
    

    p.join 等待进程完成…几乎没用。您必须将进程标识符存储到 join 最后。

    这可能会导致其他问题:并行创建过多的进程可能是您的机器的问题,并且在某一时刻后不会有太多帮助。考虑一下 multiprocessing.Pool 相反,限制工人的数量。

    简单的例子是:

    with multiprocessing.Pool(5) as p:
        print(p.map(f, [1, 2, 3, 4, 5, 6, 7]))
    

    适应您的示例:

    with multiprocessing.Pool(5) as p:
        p.starmap(extract_zip, [(zip_filename,line.strip()) for line in txt_file])
    

    ( starmap 将元组扩展为两个独立的参数,以适应 extract_zip 方法,如中所述 Python multiprocessing pool.map for multiple arguments )