TensorFlow - добавление текстовых данных через API tf.data.Dataset.

Я пытаюсь выполнить задачу по выполнению некоторых возмущений входного текста в объекте tf.data.Dataset. Например, я мог бы иметь этот ввод необработанных данных:

raw_data.txt

a
ab
abc

То, что я хочу сделать для каждого образца, это преобразовать входные данные в некоторое его возмущение.

"a"   => "ab"
"ab"  => "aab"
"abc" => "abcb"

Логика этого возмущения должна быть случайной и довольно сложной.

Дополненный вход должен быть горячим токеном:

{"a": 0, "b": 1, "c": 2}

"ab" => [[1,0,0],[0,1,0]]

До сих пор я пытался загрузить мои необработанные данные в TextLineDataset и хотел бы дополнить мои образцы методом.map():

def my_aug_func(x):
    ...
    return aug_x

dataset = tf.data.TextLineDataset(RAW_DATA_FPATH)
dataset = dataset.map(my_aug_func)

Проблема в том, что до сих пор я не нашел операций Tensorflow для правильного выполнения этой задачи.

Это правильный подход? Если да, каковы наилучшие методы для достижения такой цели?

0 ответов

Другие вопросы по тегам