TensorFlow - добавление текстовых данных через API tf.data.Dataset.
Я пытаюсь выполнить задачу по выполнению некоторых возмущений входного текста в объекте tf.data.Dataset. Например, я мог бы иметь этот ввод необработанных данных:
raw_data.txt
a
ab
abc
То, что я хочу сделать для каждого образца, это преобразовать входные данные в некоторое его возмущение.
"a" => "ab"
"ab" => "aab"
"abc" => "abcb"
Логика этого возмущения должна быть случайной и довольно сложной.
Дополненный вход должен быть горячим токеном:
{"a": 0, "b": 1, "c": 2}
"ab" => [[1,0,0],[0,1,0]]
До сих пор я пытался загрузить мои необработанные данные в TextLineDataset и хотел бы дополнить мои образцы методом.map():
def my_aug_func(x):
...
return aug_x
dataset = tf.data.TextLineDataset(RAW_DATA_FPATH)
dataset = dataset.map(my_aug_func)
Проблема в том, что до сих пор я не нашел операций Tensorflow для правильного выполнения этой задачи.
Это правильный подход? Если да, каковы наилучшие методы для достижения такой цели?