Какая разница в одном слово токен и много слов слово в crf++ для китайского языка?
Я использую crf++ для распознавания именованных объектов на китайском языке. Первый столбец в файле train - это токен, представляющий текущее слово. Я вижу, что кто-то использует только один китайский символ в первом столбце, но кто-то использует много китайских символов, таких как 中国。
1 ответ
Китайское слово может быть 1 китайским иероглифом или умножить китайские иероглифы:
中 представляет английское слово - middle.
国 представляет другое английское слово - страна.
и 中国 обозначает английское слово - Китай.
они одинаковые - текущее слово - точно так же, как 'КИТАЙ' имеет 5 английских символов, а 中国 имеет 2 китайских символа - оба являются текущим словом в cft++.