Commoncrawl содержит только доброкачественные URL? Если да, как они избегают индексации вредоносных URL-адресов?

Question

Commoncrawl содержит только доброкачественные URL? Если да, как они избегают индексации вредоносных URL-адресов?

Мы хотели бы знать, можно ли использовать базу данных commoncrawl в качестве допустимого набора данных для классификации URL.

0

url phishing common-crawl

Источник

user10278110 12 фев '19 в 05:43

1 ответ

Другие вопросы по тегам url phishing common-crawl

user5953351 12 фев '19 в 08:16 2019-02-12 08:16 · Answer 1 · 2019-02-12 08:16

Архивы Common Crawl могут содержать все виды вредоносного контента с низкой скоростью. В настоящее время только спам по ссылкам классифицируется и частично блокируется для сканирования.

В целом, широкий пример веб-сканирования может включать в себя спам, вредоносные сайты и т. Д. Архивы Common Crawl также используются для исследования веб-безопасности, ср. https://scholar.google.de/scholar?q=commoncrawl+vulnerability

Эта тема уже обсуждалась на https://groups.google.com/d/msg/common-crawl/xmSZX85cRjg/zwi5vn4NBAAJ