Как определить правильный адрес электронной почты с помощью машинного обучения с помощью textblob?

Я хочу определить правильный адрес электронной почты, но мой код дает мне метку с большой вероятностью в наборе данных и, очевидно, он не работает так, как я ожидал.

Вот код:

from textblob.classifiers import NaiveBayesClassifier
files = [
  ("data_train/email_positive.txt", "yes"), 
  ("data_train/email_negative.txt", "no")
]
train = []; cl = None

for file_txt in files:   
    email_train_raw = []        
    with open(file_txt[0]) as f: 
        email_train_raw = f.readlines()

    for email in email_train_raw:
        e = email.replace("\n", "")
        train.append( (e, file_txt[1]) )

cl = NaiveBayesClassifier(train)
print cl.classify("wrong_email@2x.png")
# Output: yes 
# it would be: "no"

Некоторые правильные данные электронной почты:

hello@3commerceinc.com
sales@ablefreight.com
dispatchwaycross@absolutewl.com
ops@absolutewl.com
tol@absolutewl.com
email@gmail.com
email@hotmail.com
. . . 

Некоторые неверные данные электронной почты:

pause@2x.png
video@2x.png
right@2x.png
play@2x.png
circle-hover@2x.png
preloader@2x.gif
left@2x.png
circle@2x.png
. . . 

0 ответов

Другие вопросы по тегам