Разница между токенизированным и обычным текстом в Python NLTK
Я использую токенайзер WordPunct для токенизации этого предложения:
في_بيتنا كل شي لما تحتاجه يضيع... ادور على شاحن فجأة يختفي..لدرجة اني اسوي نفسي ادور شيء
Мой код:
import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)
Я заметил, что напечатанный вывод совпадает с входным предложением, так зачем использовать токенизатор? Кроме того, будет ли какая-либо разница при создании системы машинного перевода (MOSES) с использованием файлов токенов или обычных текстовых файлов?
1 ответ
Выход токенизатора представляет собой список токенов (wordsArray
). Что вы делаете, вы снова соединяете токены в списке в одну строку с помощью команды:
print " ".join(wordsArray)
Заменить это на:
print wordsArray
Ваш второй вопрос, касающийся MOSES, не ясен, пожалуйста, попробуйте конкретизировать.