Два цикла Python, которые выглядят так, как будто они должны делать то же самое, но выводить разные результаты?

Вчера я пытался завершить Урок 11 Udacity, посвященный векторизации текста. Я просмотрел код, и все это, казалось, работало нормально - я беру несколько писем, открываю их, удаляю несколько слов подписи и возвращаю слова из каждого письма в список.

Вот цикл 1:

for name, from_person in [("sara", from_sara), ("chris", from_chris)]:
    for path in from_person:
        ### only look at first 200 emails when developing
        ### once everything is working, remove this line to run over full dataset
#        temp_counter += 1
    if temp_counter < 200:
        path = os.path.join('/xxx', path[:-1])
        email = open(path, "r")

        ### use parseOutText to extract the text from the opened email

        email_stemmed = parseOutText(email)

        ### use str.replace() to remove any instances of the words
        ### ["sara", "shackleton", "chris", "germani"]


    ### append the text to word_data

    word_data.append(email_stemmed.replace('\n', ' ').strip())

    ### append a 0 to from_data if email is from Sara, and 1 if email is from Chris
        if from_person == "sara":
        elif from_person == "chris":


Вот цикл 2:

for name, from_person in [("sara", from_sara), ("chris", from_chris)]:
    for path in from_person:
        ### only look at first 200 emails when developing
        ### once everything is working, remove this line to run over full dataset
#        temp_counter += 1
        if temp_counter < 200:
            path = os.path.join('/xxx', path[:-1])
            email = open(path, "r")

            ### use parseOutText to extract the text from the opened email
            stemmed_email = parseOutText(email)

            ### use str.replace() to remove any instances of the words
            ### ["sara", "shackleton", "chris", "germani"]
            signature_words = ["sara", "shackleton", "chris", "germani"]
            for each_word in signature_words:
                stemmed_email = stemmed_email.replace(each_word, '')         #careful here, dont use another variable, I did and broke my head to solve it

            ### append the text to word_data

            ### append a 0 to from_data if email is from Sara, and 1 if email is from Chris
            if name == "sara":
            else: # its chris


Следующая часть кода работает как задумано:

print("emails processed")

pickle.dump( word_data, open("/xxx/your_word_data.pkl", "wb") )
pickle.dump( from_data, open("xxx/your_email_authors.pkl", "wb") )

print("Answer to Lesson 11 quiz 19: ")

### in Part 4, do TfIdf vectorization here

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction import stop_words
print("SKLearn has this many Stop Words: ")

vectorizer = TfidfVectorizer(stop_words="english", lowercase=True)

feature_names = vectorizer.get_feature_names()

print('Number of different words: ')

Но когда я вычисляю общее количество слов в цикле 1, я получаю неправильный результат. Когда я делаю это с помощью цикла 2, я получаю правильный результат.

Я слишком долго смотрю на этот код и не вижу разницы - что я сделал не так в цикле 1?

Для записи, неправильный ответ, который я продолжал получать, был 38825. Правильный ответ должен быть 38757.

Большое спасибо за вашу помощь, добрый незнакомец!

1 ответ


Эти строки ничего не делают:


replace возвращает новую строку и не изменяет email_stemmed, Вместо этого вы должны установить возвращаемое значение email_stemmed:

email_stemmed = email_stemmed.replace("sara", "")

Так далее и тому подобное.

Второй цикл на самом деле устанавливает возвращаемое значение в цикле for:

for each_word in signature_words:
    stemmed_email = stemmed_email.replace(each_word, '')

Фрагменты кода сверху не эквивалентны в том, что в конце первого фрагмента email_stemmed полностью без изменений из-за replace используется правильно, в то время как в конце второго stemmed_email был фактически лишен каждого слова.

Другие вопросы по тегам