1
2
我和tf一起工作。数据FixedLengthRecordDataset()并遇到类似问题。 在我的例子中,我试图只提取一定比例的原始数据。 因为我知道所有记录都有固定的长度,所以我的解决方法是:
在您的情况下,我的建议是在python中直接计算“primary”中的记录数。csv“和”辅助。csv’。或者,我认为出于您的目的,设置buffer\u size参数实际上并不需要计算文件数。根据 the accepted answer about the meaning of buffer_size ,大于数据集中元素数的数字将确保整个数据集中的均匀洗牌。因此,只需输入一个非常大的数字(您认为将超过数据集大小)就可以了。 |
2
1
对于TensorFlow 2,数据集的长度可以通过
注意:当使用谓词(例如filter)时,长度的返回值可能为-2。你可以参考一个解释 here ,否则请阅读以下段落:
如果使用过滤器谓词,则基数可能返回值-2,因此未知;如果确实在数据集上使用过滤器谓词,请确保已以另一种方式计算了数据集的长度(例如,在应用之前,pandas dataframe的长度)
|