Как определить правильный адрес электронной почты с помощью машинного обучения с помощью textblob?
Я хочу определить правильный адрес электронной почты, но мой код дает мне метку с большой вероятностью в наборе данных и, очевидно, он не работает так, как я ожидал.
Вот код:
from textblob.classifiers import NaiveBayesClassifier
files = [
("data_train/email_positive.txt", "yes"),
("data_train/email_negative.txt", "no")
]
train = []; cl = None
for file_txt in files:
email_train_raw = []
with open(file_txt[0]) as f:
email_train_raw = f.readlines()
for email in email_train_raw:
e = email.replace("\n", "")
train.append( (e, file_txt[1]) )
cl = NaiveBayesClassifier(train)
print cl.classify("wrong_email@2x.png")
# Output: yes
# it would be: "no"
Некоторые правильные данные электронной почты:
hello@3commerceinc.com
sales@ablefreight.com
dispatchwaycross@absolutewl.com
ops@absolutewl.com
tol@absolutewl.com
email@gmail.com
email@hotmail.com
. . .
Некоторые неверные данные электронной почты:
pause@2x.png
video@2x.png
right@2x.png
play@2x.png
circle-hover@2x.png
preloader@2x.gif
left@2x.png
circle@2x.png
. . .