Какая разница в одном слово токен и много слов слово в crf++ для китайского языка?

Я использую crf++ для распознавания именованных объектов на китайском языке. Первый столбец в файле train - это токен, представляющий текущее слово. Я вижу, что кто-то использует только один китайский символ в первом столбце, но кто-то использует много китайских символов, таких как 中国。

1 ответ

Китайское слово может быть 1 китайским иероглифом или умножить китайские иероглифы:
中 представляет английское слово - middle.
国 представляет другое английское слово - страна.
и 中国 обозначает английское слово - Китай.
они одинаковые - текущее слово - точно так же, как 'КИТАЙ' имеет 5 английских символов, а 中国 имеет 2 китайских символа - оба являются текущим словом в cft++.

Другие вопросы по тегам