用这种方法很容易
Dataset.save_to_disk
还有包裹的帮助
gcsfs
。您需要先安装
gcsfs
:
pip install gcsfs
然后你可以使用这些方法
数据集。保存到磁盘
和
Dataset.load_from_disk
从谷歌云存储桶中保存并加载数据集。要保存它:
from datasets import load_dataset
from gcsfs import GCSFileSystem
fs = GCSFileSystem()
dataset = load_dataset(path="multi_nli", split="train")
dataset.save_to_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)
这将在谷歌云存储桶中创建一个目录
BUCKET_NAME_HERE
使用数据集的内容。然后,要将其加载回,只需执行以下操作:
from datasets import Dataset
from gcsfs import GCSFileSystem
fs = GCSFileSystem()
dataset = Dataset.load_from_disk("gs://YOUR_BUCKET_NAME_HERE/multi_nli/train", fs=fs)
有关更多信息,请参阅: