Spacy: обучить POS tagger после токенизации

Я пытаюсь обучить теггер POS spaCy после настройки токенизатора.

Например, токенизация текста "Il est culotté celui-là".

сейчас ['Il', 'est', 'culotté', 'celui-là', '.']

а не исходный:['Il', 'est', 'culotté', 'celui', '-', 'là', '.']

Моя проблема в том, что nlp.update(), похоже, не рассматривает мой индивидуальный токенизатор, поскольку я не могу аннотировать celui-là как один токен, а как 3:

TRAIN_DATA = [
   ('Il est culotté celui-là.',
     {'tags': ['PRON', 'VERB', 'ADJ', 'PRON','PUNCT','PRON', 'PUNCT']})
]

Но должно быть:

TRAIN_DATA = [
   ('Il est culotté celui-là.',
     {'tags': ['PRON', 'VERB', 'ADJ', 'PRON', 'PUNCT']})
]

Однако мы видим, что в выходных данных применяется настроенный токенизатор, поэтому я делаю вывод, что я обучаю теггер перед применением настраиваемого токенизатора.

Вот код и результат:https://gist.github.com/mariastefan/57606e6f85e3dfbd779b16285ab21760

Вы знаете, как сначала применить мои модификации токенизатора перед обучением теггера, чтобы я мог обучить его с правильными токенами?

Спасибо.

0 ответов

Другие вопросы по тегам