Детокенизация для Стэнфордского CoreNLP

Я использовал токенайзер stanford coreNLP для токенизации предложений в токены. Теперь мне нужно детокенизировать уже токенизированные слова (т. Е. Мне нужен обратный токенизатор для standford coreNLP.) Есть ли какой-нибудь класс JAVA в standfordcoreNLP или java/python API, который мы можем использовать?

I/P:

I ca n't use this pen .
I have ( 5 ) points to explain .
I have discuss the 1,2,3 etc. ..

O/P: 

I can't use this pen.
I have (5) points to explain.
I have discuss the 1,2,3 etc... 

1 ответ

Sentence класс из Simple API, имеет несколько конструкторов, один из которых занимает List<String> аргумент.

Таким образом, вы можете сделать что-то вроде:

List<String> words = new Sentence("I can't use this pen.").words();
Sentence output = new Sentence(words);
Другие вопросы по тегам