Commoncrawl содержит только доброкачественные URL? Если да, как они избегают индексации вредоносных URL-адресов?
Мы хотели бы знать, можно ли использовать базу данных commoncrawl в качестве допустимого набора данных для классификации URL.
1 ответ
Архивы Common Crawl могут содержать все виды вредоносного контента с низкой скоростью. В настоящее время только спам по ссылкам классифицируется и частично блокируется для сканирования.
В целом, широкий пример веб-сканирования может включать в себя спам, вредоносные сайты и т. Д. Архивы Common Crawl также используются для исследования веб-безопасности, ср. https://scholar.google.de/scholar?q=commoncrawl+vulnerability
Эта тема уже обсуждалась на https://groups.google.com/d/msg/common-crawl/xmSZX85cRjg/zwi5vn4NBAAJ