Описание тега common-crawl
Open crawl of the web that can be accessed and analyzed by everyone.
2
ответа
Как прочитать все данные Common Crawl из AWS с Java?
Я совершенно новичок в программировании Hadoop и MapReduce, и я пытаюсь написать свою первую программу MapReduce с данными Common Crawl. Я хотел бы прочитать все данные за апрель 2015 года от AWS. Например, если я хочу загрузить все данные за апрель…
08 июл '15 в 08:57
1
ответ
Как загрузить несколько больших файлов одновременно в Python?
Я пытаюсь загрузить серию файлов Warc из базы данных CommonCrawl, каждый из которых около 25 МБ. Это мой сценарий: import json import urllib.request from urllib.error import HTTPError from src.Util import rooted with open(rooted('data/alexa.txt'), '…
16 апр '18 в 16:40
2
ответа
Как построить поисковик? (Обновление 2013 года)
Это не первый раз, когда этот вопрос задают здесь, в Stackru, - но это происходит почти пять лет спустя - и времена и технологии немного изменились. Мне интересно, что люди думают в эти дни о создании поисковой системы? Например, я знаю, что Nutch п…
21 июл '13 в 22:07
1
ответ
mrjob вернул ненулевой статус выхода 256
Я новичок в уменьшении карты, и я пытаюсь запустить работу сокращения карты, используя mrjob пакет из питона. Однако я столкнулся с этой ошибкой: ERROR:mrjob.launch:Step 1 of 1 failed: Command '['/usr/bin/hadoop', 'jar', '/usr/lib/hadoop-mapreduce/h…
31 авг '18 в 04:16
0
ответов
Невозможно ползти
Я пытаюсь запустить файл.js, который позволит мне сканировать каждую html-страницу и собирать все атрибуты href на сайте. Это работает только для очень немногих сайтов (пример: flipkart.com). Невозможно сканировать большинство сайтов, таких как (all…
18 мар '17 в 03:41
1
ответ
Общая стоимость передачи общедоступного набора данных AWS
На самом деле я работаю над наборами данных Common Crawl и хочу узнать стоимость передачи данных из исходного сегмента S3 в мой кластер EC2? Есть ли плата или она абсолютно бесплатна?
08 июн '16 в 12:02
0
ответов
Конвертировать скрипт поиска по ключевым словам commoncrawl в Hadoop EMR script
Я создал скрипт поиска по ключевым словам, который запускается из EC2 и успешно сохраняет результаты на s3. Но он однопоточный, поэтому он медленный. Я хочу запустить его на EMR, используя пользовательский JAR. Может кто-нибудь, пожалуйста, преобраз…
20 май '15 в 10:36
1
ответ
Можно ли получить названия из веб-версии Common Crawler API?
Я пытаюсь получить URL, названия и языки с веб-страниц. К счастью, существует CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API. Но, к сожалению, я не заметил способ получить также названия. В данный момент я запрашиваю CC как (например…
30 янв '19 в 17:48
1
ответ
Commoncrawl содержит только доброкачественные URL? Если да, как они избегают индексации вредоносных URL-адресов?
Мы хотели бы знать, можно ли использовать базу данных commoncrawl в качестве допустимого набора данных для классификации URL.
12 фев '19 в 05:43
1
ответ
Как мне войти из картографа? (hadoop с обычным сканированием)
Я использую пример кода commoncrawl из учебника " Mapreduce for the Masses ". Я пытаюсь внести изменения в маппер, и я хотел бы иметь возможность записывать строки в какой-либо вывод. Я подумываю о настройке некоторой базы данных noSQL и просто пере…
29 дек '12 в 22:53
1
ответ
Обработка многих архивов WARC из CommonCrawl с использованием потоковой передачи Hadoop и MapReduce
Я работаю над проектом, в котором мне нужно загрузить данные обхода (из CommonCrawl) для конкретных URL-адресов из контейнера S3, а затем обработать эти данные. В настоящее время у меня есть задание MapReduce (Python через Hadoop Streaming), которое…
13 авг '18 в 23:13
0
ответов
Соответствие названия компании Common Crawl с использованием mrjob
У меня есть список названия компании и детали, такие как номер телефона, адрес, адрес электронной почты и т. Д. Я хочу получить их company_url. Мы думали об использовании Google API для отправки запросов, но это оказывается дорогостоящим. После поис…
21 дек '16 в 14:41
1
ответ
Mrjob Step терпит неудачу. Как сделать отладку?
Я пытаюсь запустить образец mrjob в кластере EMR. Я создал кластер EMR вручную на панели инструментов AWS и запустил mrjob следующим образом python keywords.py -r emr s3://commoncrawl/crawl-data/CC-MAIN-2018-34/wet.paths.gz --cluster-id j-22GFG1FUGS…
03 окт '18 в 11:55
1
ответ
Красивый суп занимает слишком много времени для извлечения текста в обычных данных сканирования
Я должен анализировать содержимое HTML в общем наборе данных сканирования (файлы warc.gz). Я решил использовать bs4 (Beautifulsoup) модуль, как это обычно предлагают люди. Ниже приведен фрагмент кода для получения текста: from bs4 import BeautifulSo…
17 янв '17 в 08:22
0
ответов
Исправление неправильной пунктуации в CommonCrawl Text
Я обрабатываю текст из общего сканирования (WET формат) и из того, что я вижу, есть много пунктуации - скорее всего, это произошло, когда разрывы строк были удалены из исходных данных. Например, в This Massive Rally?The 52, знак вопроса и The должен…
08 окт '15 в 12:50
4
ответа
Доступ к общему общему набору данных AWS для сканирования
Мне нужно просмотреть и загрузить подмножество общедоступных данных общего сканирования. На этой странице указано, где хранятся данные. Как я могу просмотреть и, возможно, загрузить данные общего сканирования, размещенные на s3://aws-publicdatasets/…
20 май '13 в 12:27
1
ответ
CommonCrawl: Как найти конкретную веб-страницу?
Я использую CommonCrawl для восстановления страниц, которых я должен был достичь, но не достиг. В моем понимании, Common Crawl Index предлагает доступ ко всем URL-адресам, хранящимся в Common Crawl. Таким образом, он должен дать мне ответ, если URL …
10 авг '16 в 09:43
2
ответа
Java API для запроса CommonCrawl для заполнения базы данных цифрового идентификатора объекта (DOI)
Я пытаюсь создать базу данных цифрового идентификатора объекта (DOI), найденную в Интернете. Путем ручного поиска CommonCrawl Индекс-сервер вручную я получил несколько многообещающих результатов. Однако я хочу разработать программное решение. Это мо…
27 июл '17 в 10:18
0
ответов
Общий поиск ключевых слов
Я хочу найти список всех веб-сайтов с определенными ключевыми словами. Например, если я ищу по ключевому слову "Спорт" или "Футбол", из общего сканирования необходимо извлечь только URL-адреса, заголовок, описание и изображение соответствующего веб-…
02 окт '17 в 08:10
0
ответов
S3 Тайм-аут операции чтения при чтении данных общего сканирования
Чтобы прочитать несколько файлов из общего сканирования, я написал этот скрипт import warc import boto for line in sys.stdin: line = line.strip() #Connect to AWS and read a dataset conn = boto.connect_s3(anon=True, host='s3.amazonaws.com') pds = con…
02 янв '17 в 06:28