Разница между токенизированным и обычным текстом в Python NLTK

Я использую токенайзер WordPunct для токенизации этого предложения:

في_بيتنا كل شي لما تحتاجه يضيع... ادور على شاحن فجأة يختفي..لدرجة اني اسوي نفسي ادور شيء

Мой код:

import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)

Я заметил, что напечатанный вывод совпадает с входным предложением, так зачем использовать токенизатор? Кроме того, будет ли какая-либо разница при создании системы машинного перевода (MOSES) с использованием файлов токенов или обычных текстовых файлов?

1 ответ

Выход токенизатора представляет собой список токенов (wordsArray). Что вы делаете, вы снова соединяете токены в списке в одну строку с помощью команды:

print " ".join(wordsArray)

Заменить это на:

print wordsArray

Ваш второй вопрос, касающийся MOSES, не ясен, пожалуйста, попробуйте конкретизировать.

Другие вопросы по тегам