Детокенизация для Стэнфордского CoreNLP
Я использовал токенайзер stanford coreNLP для токенизации предложений в токены. Теперь мне нужно детокенизировать уже токенизированные слова (т. Е. Мне нужен обратный токенизатор для standford coreNLP.) Есть ли какой-нибудь класс JAVA в standfordcoreNLP или java/python API, который мы можем использовать?
I/P:
I ca n't use this pen .
I have ( 5 ) points to explain .
I have discuss the 1,2,3 etc. ..
O/P:
I can't use this pen.
I have (5) points to explain.
I have discuss the 1,2,3 etc...
1 ответ
Sentence
класс из Simple API, имеет несколько конструкторов, один из которых занимает List<String>
аргумент.
Таким образом, вы можете сделать что-то вроде:
List<String> words = new Sentence("I can't use this pen.").words();
Sentence output = new Sentence(words);