Как список предложений для NMT должен быть сведен в одно "предложение" для облегчения встраивания скипграмм?
контекст
Перед внедрением нейронного машинного перевода необходимо изучить встраивания для исходного и целевого языков. Для этого мы используем skip-gram
Модель Word2Vec.
Учебное пособие Tensorflow, связанное выше, начинается со списка слов. Для создания вложений каждое слово служит в качестве входных данных для прогнозирования целевого слова, которое существует в окне ввода входного слова. Таким образом, слова с похожим контекстом получают одинаковые вложения.
Например["I", "have", "a", "dog"]
может сгенерировать эти пары ввода / вывода: ["have", "a"]
или же ["a", "dog"]
,
проблема
Для NMT существует множество различных предложений в наборе данных, которые все должны использоваться для встраивания. Самое простое "решение" конкатенации нежизнеспособно, так как конец одного предложения может (неправильно!) Использоваться в качестве контекста для начала второго предложения.
Учебное пособие Google не дает никакого обзора того, как обращаться с встраиваниями NMT - как их следует обрабатывать?
пример
["I", "have", "a", "dog"]
["You", "have", "a", "cat"]
["He", "is", "a", "blueberry"]
должен стать list
размером 12 - или что-то еще должно измениться в том, как они упакованы, чтобы избежать генерирования неправильных пар ввода / вывода.