<|endoftext|> токен, отображаемый в выходных данных настроенной модели GPT-2

Я обучил модель GPT-2, используя кодовую базу nshepperd и свои собственные наборы данных. Набор данных, на котором я тренировался, представляет собой простой файл * .txt, в котором многие операторы разделены <|endoftext|>.

Однако текст, сгенерированный «точно настроенной» моделью, теперь содержит много термина <|endoftext|>. Ожидается ли такое поведение? Не следует ли пропускать этот токен при генерации текста? Мне кажется, что во время обучения что-то пошло не так, и поскольку данные обучения содержали много <|endoftext|>, модель теперь также пытается воссоздать этот термин как можно чаще.

Это означало бы, что во время обучения токен <|endoftext|> не был правильно идентифицирован как разделитель, а скорее как часть самого текста, который AI теперь пытается имитировать. Разумны ли мои опасения?

0 ответов

Другие вопросы по тегам