Как список предложений для NMT должен быть сведен в одно "предложение" для облегчения встраивания скипграмм?

контекст

Перед внедрением нейронного машинного перевода необходимо изучить встраивания для исходного и целевого языков. Для этого мы используем skip-gram Модель Word2Vec.

Учебное пособие Tensorflow, связанное выше, начинается со списка слов. Для создания вложений каждое слово служит в качестве входных данных для прогнозирования целевого слова, которое существует в окне ввода входного слова. Таким образом, слова с похожим контекстом получают одинаковые вложения.

Например["I", "have", "a", "dog"] может сгенерировать эти пары ввода / вывода: ["have", "a"] или же ["a", "dog"],

проблема

Для NMT существует множество различных предложений в наборе данных, которые все должны использоваться для встраивания. Самое простое "решение" конкатенации нежизнеспособно, так как конец одного предложения может (неправильно!) Использоваться в качестве контекста для начала второго предложения.

Учебное пособие Google не дает никакого обзора того, как обращаться с встраиваниями NMT - как их следует обрабатывать?

пример

["I", "have", "a", "dog"]["You", "have", "a", "cat"]["He", "is", "a", "blueberry"]

должен стать list размером 12 - или что-то еще должно измениться в том, как они упакованы, чтобы избежать генерирования неправильных пар ввода / вывода.

0 ответов

Другие вопросы по тегам