Spacy: обучить POS tagger после токенизации
Я пытаюсь обучить теггер POS spaCy после настройки токенизатора.
Например, токенизация текста "Il est culotté celui-là".
сейчас ['Il', 'est', 'culotté', 'celui-là', '.']
а не исходный:['Il', 'est', 'culotté', 'celui', '-', 'là', '.']
Моя проблема в том, что nlp.update(), похоже, не рассматривает мой индивидуальный токенизатор, поскольку я не могу аннотировать celui-là как один токен, а как 3:
TRAIN_DATA = [
('Il est culotté celui-là.',
{'tags': ['PRON', 'VERB', 'ADJ', 'PRON','PUNCT','PRON', 'PUNCT']})
]
Но должно быть:
TRAIN_DATA = [
('Il est culotté celui-là.',
{'tags': ['PRON', 'VERB', 'ADJ', 'PRON', 'PUNCT']})
]
Однако мы видим, что в выходных данных применяется настроенный токенизатор, поэтому я делаю вывод, что я обучаю теггер перед применением настраиваемого токенизатора.
Вот код и результат:https://gist.github.com/mariastefan/57606e6f85e3dfbd779b16285ab21760
Вы знаете, как сначала применить мои модификации токенизатора перед обучением теггера, чтобы я мог обучить его с правильными токенами?
Спасибо.