Почему начальный параметр не работает с функцией make_tf_dataset?

Question

Почему начальный параметр не работает с функцией make_tf_dataset?

Функция случайного начального числа не работает с функцией make_tf_dataset. В следующем коде:

      #Create fake dataset
ratings = spark.createDataFrame([
    {'user_id':0, 'movie_id': 3}, 
    {'user_id': 2, 'movie_id': 5}, 
    {'user_id':4, 'movie_id': 7}, 
    {'user_id':6, 'movie_id': 9}, 
    {'user_id':8, 'movie_id': 11}, 
    {'user_id':10, 'movie_id': 13}, 
    {'user_id':12, 'movie_id': 15}, 
    {'user_id':14, 'movie_id': 17}
])

#Create converter
conv_train = make_spark_converter(ratings)

#Get two datasets(train and train1) from the same converter
with conv_train.make_tf_dataset(batch_size=2, num_epochs=4, seed=1) as train, \
     conv_train.make_tf_dataset(batch_size=2, num_epochs=4, seed=1) as train1:
     
     #Iterate over the datasets and print elements of each batch b and b1 which must be equals
     for i, (b, b1) in enumerate(zip(train, train1)):
         print('batch {0}'.format(i))
         print('m: {0}'.format([i for i in b]))
         print('m1: {0}'.format([i for i in b1]))

Проблема в том, что партии не содержат одинаковых элементов, даже если используется одно и то же семя.

0

python-3.x pyspark petastorm

Источник

user16464857 11 сен '22 в 13:07

0 ответов

Другие вопросы по тегам python-3.x pyspark petastorm