Как использовать тензор2тенора для классификации текста?
Я хочу провести двоичную классификацию текста с использованием тензорного тензора только с вниманием и без слоев предварительной обработки LSTM или CNN. Я думаю, что модель transformer_encoder является лучшей для меня ,, но я не могу найти ни одной предопределенной задачи или Hparams. Может кто-нибудь дать мне пример классификации текста с использованием tennors2tensor или какой-то другой совет?
1 ответ
Я бы порекомендовал следовать их sentiment_imdb
проблема, так как анализ настроений является проблемой классификации текста:
https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/data_generators/imdb.py
У них также есть краткий раздел об обучении transformer_encoder
для этой проблемы на главной странице:
Попробуй это
PROBLEM= sentiment_imdb
MODEL= transformer_encoder
HPARAMS=transformer_tiny
DATA_DIR=$HOME/t2t_data
TMP_DIR=/tmp/t2t_datagen
TRAIN_DIR=$HOME/t2t_train/$PROBLEM/$MODEL-$HPARAMS
mkdir -p $DATA_DIR $TMP_DIR $TRAIN_DIR
# Generate data
t2t-datagen \
--data_dir=$DATA_DIR \
--tmp_dir=$TMP_DIR \
--problem=$PROBLEM
# Train
# * If you run out of memory, add --hparams='batch_size=1024'.
t2t-trainer \
--data_dir=$DATA_DIR \
--problem=$PROBLEM \
--model=$MODEL \
--hparams_set=$HPARAMS \
--output_dir=$TRAIN_DIR