Ошибка при проверке входных кера модели при прогнозировании новых результатов

Question

Ошибка при проверке входных кера модели при прогнозировании новых результатов

Я пытаюсь использовать модель keras, которую я построил на новых данных, за исключением того, что у меня есть ошибка ввода при попытке предсказать предсказания.

Вот мой код для модели:

def build_model(max_features, maxlen):
    """Build LSTM model"""
    model = Sequential()
    model.add(Embedding(max_features, 128, input_length=maxlen))
    model.add(LSTM(128))
    model.add(Dropout(0.5))
    model.add(Dense(1))
    model.add(Activation('sigmoid'))

    model.compile(loss='binary_crossentropy',
                  optimizer='rmsprop')

    return model

И мой код для прогнозирования выходных прогнозов моих новых данных:

LSTM_model = load_model('LSTMmodel.h5')
data = pickle.load(open('traindata.pkl', 'rb'))


#### LSTM ####

"""Run train/test on logistic regression model"""

# Extract data and labels
X = [x[1] for x in data]
labels = [x[0] for x in data]

# Generate a dictionary of valid characters
valid_chars = {x:idx+1 for idx, x in enumerate(set(''.join(X)))}

max_features = len(valid_chars) + 1
maxlen = np.max([len(x) for x in X])

# Convert characters to int and pad
X = [[valid_chars[y] for y in x] for x in X]
X = sequence.pad_sequences(X, maxlen=maxlen)

# Convert labels to 0-1
y = [0 if x == 'benign' else 1 for x in labels]


y_pred = LSTM_model.predict(X)

Ошибка, которую я получаю при запуске этого кода:

ValueError: Error when checking input: expected embedding_1_input to have shape (57,) but got array with shape (36,)

Моя ошибка исходит от maxlen потому что для моих тренировочных данных, maxlen=57 и с моими новыми данными, maxlen=36,

Поэтому я попытался установить в своем коде предсказания maxlen=57 но тогда я получаю эту ошибку:

tensorflow.python.framework.errors_impl.InvalidArgumentError: indices[31,53] = 38 is not in [0, 38)
     [[Node: embedding_1/embedding_lookup = GatherV2[Taxis=DT_INT32, Tindices=DT_INT32, Tparams=DT_FLOAT, _device="/job:localhost/replica:0/task:0/device:CPU:0"](embedding_1/embeddings/read, embedding_1/Cast, embedding_1/embedding_lookup/axis)]]

Что я должен сделать, чтобы решить эти проблемы? Изменить мой слой для встраивания?

1

python tensorflow machine-learning keras word-embedding

Источник

user6382526 17 авг '18 в 12:59

1 ответ

Решение

Другие вопросы по тегам python tensorflow machine-learning keras word-embedding

user2099607 17 авг '18 в 13:32 2018-08-17 13:32 · Accepted Answer · 2018-08-17 13:32

Либо установить input_length слоя Embedded до максимальной длины, которую вы видите в наборе данных, или просто используйте тот же maxlen значение, которое вы использовали при построении модели в pad_sequences, В этом случае любая последовательность короче maxlen будет дополнен и любая последовательность длиннее maxlen будет усечено.

Кроме того, убедитесь, что используемые вами функции одинаковы как во время обучения, так и во время испытаний (т.е. их количество не должно меняться).