Доступ к общему общему набору данных AWS для сканирования
Мне нужно просмотреть и загрузить подмножество общедоступных данных общего сканирования. На этой странице указано, где хранятся данные.
Как я могу просмотреть и, возможно, загрузить данные общего сканирования, размещенные на s3://aws-publicdatasets/common-crawl/crawl-002/?
4 ответа
Как обновление, загрузка корпуса Common Crawl всегда была бесплатной, и вы можете использовать HTTP вместо S3. S3 позволяет использовать анонимные учетные данные для получения доступа к данным.
Если вы хотите скачать через HTTP, найдите одно из расположений файлов, например:
общего ползать / ползать-данные /CC-MAIN-2014-23/ сегменты /1404776400583,60/ ВАКР /CC-MAIN-20140707234000-00000-IP-10-180-212-248.ec2.internal.warc.gz
а затем добавьте к нему https://aws-publicdatasets.s3.amazonaws.com/, получив ссылку:
Чтобы получить список всех таких файлов, обратитесь к warc.paths.gz (или эквиваленту файлов WET или WAT) в более поздних сканированиях или перечислите файлы с использованием анонимных учетных данных, используя s3cmd или аналогичный инструмент.
Эта ссылка будет работать и позволит вам загружать данные, не проходя S3.
Общий доступ к данным для обходов Common Crawl обсуждается по адресу: http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/
То, что я считаю полезным для получения пробных данных, это использование нового индекса в архиве: http://index.commoncrawl.org/CC-MAIN-2015-18
Если вы запросите, например, "www.cwi.nl", вы найдете структуры JSON о сегментах, которые содержат файлы из этого домена.
{
"urlkey": "nl,cwi)/", "timestamp": "20150505031358",
"status": "200", "url": "http://www.cwi.nl/",
"filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz",
"length": "5881", "mime": "text/html", "offset": "364108412",
"digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"
}
Приставьте к нему информацию s3, и вы можете скачать файл данных, который вы можете использовать в качестве примера данных: https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz
Повеселись!
Чтобы получить доступ к данным Common Crawl, вам нужно выполнить для них задание уменьшения карты, и, поскольку корпус находится на S3, вы можете сделать это, запустив кластер Hadoop с помощью сервиса Amazon EC2. Это включает в себя настройку пользовательского банка Jadoop, который использует наш пользовательский класс InputFormat для извлечения данных из отдельных файлов ARC в нашей корзине S3.
Источник: http://commoncrawl.org/the-data/
Начало работы: http://commoncrawl.org/the-data/get-started/
Другие ответы имеют несколько полезных информационных URL-адресов, но для доступа к фактическим данным, если вам нужны только небольшие их части, этот клиентский код очень удобен для просмотра индекса и загрузки контента: