Типичный пример сканирования с сомнениями

Question

Типичный пример сканирования с сомнениями

Я пытаюсь запустить общий пример сканирования и извлекать URL и электронные письма из файла Warc. У меня есть только одно сомнение. Независимо от того, принадлежит ли электронное письмо к URL или другому веб-сайту, это запутанная часть.
Пожалуйста, помогите мне. Как я могу решить эту путаницу?
Я сделал следующее: используя общий пример сканирования WordCount, я установил его для извлечения URL-адреса, а затем электронной почты. После извлечения он сохранит его в файле.

Это простая логика для извлечения. Но я хотел бы знать, как я могу поверить, что найденный URL и найденный адрес электронной почты соответствуют друг другу?

0

java amazon-s3 amazon-ec2 common-crawl hadoop2.7.3

Источник

user4948889 18 ноя '16 в 08:58

0 ответов

Другие вопросы по тегам java amazon-s3 amazon-ec2 common-crawl hadoop2.7.3