代码之家  ›  专栏  ›  技术社区  ›  zinger44

如何将数据集从Huggingface移动到谷歌云?

  •  0
  • zinger44  · 技术社区  · 2 年前

    我正在尝试使用huggingface multi_nli在谷歌云中训练一个文本多分类ai。我想最终从firebase网络应用程序中调用人工智能。但当我在colab中尝试这段代码时:

    !pip install datasets
    from datasets import load_dataset
    
    
    
    # Load only train set
    dataset = load_dataset(path="multi_nli", split="train")
    

    它说它保存在/root/中。cache/huggingface/datasets/multi_nli/default/0.0.0/591f72e。。。但我找不到这个文件,只有一个可变版本,所以我无法将其移动到谷歌云。下载工作缺少什么?有没有其他解决办法让它进入谷歌云?

    0 回复  |  直到 2 年前
        1
  •  0
  •   Gabriel Martín Blazquez    2 年前

    用这种方法很容易 Dataset.save_to_disk 还有包裹的帮助 gcsfs 。您需要先安装 gcsfs :

    pip install gcsfs
    

    然后你可以使用这些方法 数据集。保存到磁盘 Dataset.load_from_disk 从谷歌云存储桶中保存并加载数据集。要保存它:

    from datasets import load_dataset
    from gcsfs import GCSFileSystem
    
    fs = GCSFileSystem()
    
    dataset = load_dataset(path="multi_nli", split="train")
    
    dataset.save_to_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)
    

    这将在谷歌云存储桶中创建一个目录 BUCKET_NAME_HERE 使用数据集的内容。然后,要将其加载回,只需执行以下操作:

    from datasets import Dataset
    from gcsfs import GCSFileSystem
    
    fs = GCSFileSystem()
    
    dataset = Dataset.load_from_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)
    

    有关更多信息,请参阅: