Типичный пример сканирования с сомнениями
Я пытаюсь запустить общий пример сканирования и извлекать URL и электронные письма из файла Warc. У меня есть только одно сомнение. Независимо от того, принадлежит ли электронное письмо к URL или другому веб-сайту, это запутанная часть.
Пожалуйста, помогите мне. Как я могу решить эту путаницу?
Я сделал следующее: используя общий пример сканирования WordCount, я установил его для извлечения URL-адреса, а затем электронной почты. После извлечения он сохранит его в файле.
Это простая логика для извлечения. Но я хотел бы знать, как я могу поверить, что найденный URL и найденный адрес электронной почты соответствуют друг другу?