Описание тега common-crawl

Описание тега Вопросы с тегом

Open crawl of the web that can be accessed and analyzed by everyone.

2 ответа

Как прочитать все данные Common Crawl из AWS с Java?

Я совершенно новичок в программировании Hadoop и MapReduce, и я пытаюсь написать свою первую программу MapReduce с данными Common Crawl. Я хотел бы прочитать все данные за апрель 2015 года от AWS. Например, если я хочу загрузить все данные за апрель…

08 июл '15 в 08:57

1 ответ

Как загрузить несколько больших файлов одновременно в Python?

Я пытаюсь загрузить серию файлов Warc из базы данных CommonCrawl, каждый из которых около 25 МБ. Это мой сценарий: import json import urllib.request from urllib.error import HTTPError from src.Util import rooted with open(rooted('data/alexa.txt'), '…

python python-3.x download urllib common-crawl

16 апр '18 в 16:40

2 ответа

Как построить поисковик? (Обновление 2013 года)

Это не первый раз, когда этот вопрос задают здесь, в Stackru, - но это происходит почти пять лет спустя - и времена и технологии немного изменились. Мне интересно, что люди думают в эти дни о создании поисковой системы? Например, я знаю, что Nutch п…

search search-engine nutch common-crawl

21 июл '13 в 22:07

1 ответ

mrjob вернул ненулевой статус выхода 256

Я новичок в уменьшении карты, и я пытаюсь запустить работу сокращения карты, используя mrjob пакет из питона. Однако я столкнулся с этой ошибкой: ERROR:mrjob.launch:Step 1 of 1 failed: Command '['/usr/bin/hadoop', 'jar', '/usr/lib/hadoop-mapreduce/h…

python hadoop mrjob common-crawl

31 авг '18 в 04:16

0 ответов

Невозможно ползти

Я пытаюсь запустить файл.js, который позволит мне сканировать каждую html-страницу и собирать все атрибуты href на сайте. Это работает только для очень немногих сайтов (пример: flipkart.com). Невозможно сканировать большинство сайтов, таких как (all…

javascript csv common-crawl

18 мар '17 в 03:41

1 ответ

Общая стоимость передачи общедоступного набора данных AWS

На самом деле я работаю над наборами данных Common Crawl и хочу узнать стоимость передачи данных из исходного сегмента S3 в мой кластер EC2? Есть ли плата или она абсолютно бесплатна?

amazon-web-services amazon-s3 common-crawl

08 июн '16 в 12:02

0 ответов

Конвертировать скрипт поиска по ключевым словам commoncrawl в Hadoop EMR script

Я создал скрипт поиска по ключевым словам, который запускается из EC2 и успешно сохраняет результаты на s3. Но он однопоточный, поэтому он медленный. Я хочу запустить его на EMR, используя пользовательский JAR. Может кто-нибудь, пожалуйста, преобраз…

java amazon-s3 hadoop amazon-emr common-crawl

20 май '15 в 10:36

1 ответ

Можно ли получить названия из веб-версии Common Crawler API?

Я пытаюсь получить URL, названия и языки с веб-страниц. К счастью, существует CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API. Но, к сожалению, я не заметил способ получить также названия. В данный момент я запрашиваю CC как (например…

amazon-web-services api web-crawler common-crawl

30 янв '19 в 17:48

1 ответ

Commoncrawl содержит только доброкачественные URL? Если да, как они избегают индексации вредоносных URL-адресов?

Мы хотели бы знать, можно ли использовать базу данных commoncrawl в качестве допустимого набора данных для классификации URL.

url phishing common-crawl

12 фев '19 в 05:43

1 ответ

Как мне войти из картографа? (hadoop с обычным сканированием)

Я использую пример кода commoncrawl из учебника " Mapreduce for the Masses ". Я пытаюсь внести изменения в маппер, и я хотел бы иметь возможность записывать строки в какой-либо вывод. Я подумываю о настройке некоторой базы данных noSQL и просто пере…

java hadoop nosql mapreduce common-crawl

29 дек '12 в 22:53

1 ответ

Обработка многих архивов WARC из CommonCrawl с использованием потоковой передачи Hadoop и MapReduce

Я работаю над проектом, в котором мне нужно загрузить данные обхода (из CommonCrawl) для конкретных URL-адресов из контейнера S3, а затем обработать эти данные. В настоящее время у меня есть задание MapReduce (Python через Hadoop Streaming), которое…

mapreduce boto3 hadoop-streaming common-crawl

13 авг '18 в 23:13

0 ответов

Соответствие названия компании Common Crawl с использованием mrjob

У меня есть список названия компании и детали, такие как номер телефона, адрес, адрес электронной почты и т. Д. Я хочу получить их company_url. Мы думали об использовании Google API для отправки запросов, но это оказывается дорогостоящим. После поис…

python mrjob common-crawl

21 дек '16 в 14:41

1 ответ

Mrjob Step терпит неудачу. Как сделать отладку?

Я пытаюсь запустить образец mrjob в кластере EMR. Я создал кластер EMR вручную на панели инструментов AWS и запустил mrjob следующим образом python keywords.py -r emr s3://commoncrawl/crawl-data/CC-MAIN-2018-34/wet.paths.gz --cluster-id j-22GFG1FUGS…

python amazon-emr mrjob common-crawl

03 окт '18 в 11:55

1 ответ

Красивый суп занимает слишком много времени для извлечения текста в обычных данных сканирования

Я должен анализировать содержимое HTML в общем наборе данных сканирования (файлы warc.gz). Я решил использовать bs4 (Beautifulsoup) модуль, как это обычно предлагают люди. Ниже приведен фрагмент кода для получения текста: from bs4 import BeautifulSo…

python amazon-web-services beautifulsoup bs4 common-crawl

17 янв '17 в 08:22

0 ответов

Исправление неправильной пунктуации в CommonCrawl Text

Я обрабатываю текст из общего сканирования (WET формат) и из того, что я вижу, есть много пунктуации - скорее всего, это произошло, когда разрывы строк были удалены из исходных данных. Например, в This Massive Rally?The 52, знак вопроса и The должен…

regex nlp common-crawl

08 окт '15 в 12:50

4 ответа

Доступ к общему общему набору данных AWS для сканирования

Мне нужно просмотреть и загрузить подмножество общедоступных данных общего сканирования. На этой странице указано, где хранятся данные. Как я могу просмотреть и, возможно, загрузить данные общего сканирования, размещенные на s3://aws-publicdatasets/…

amazon-web-services amazon-s3 amazon-ec2 amazon common-crawl

20 май '13 в 12:27

1 ответ

CommonCrawl: Как найти конкретную веб-страницу?

Я использую CommonCrawl для восстановления страниц, которых я должен был достичь, но не достиг. В моем понимании, Common Crawl Index предлагает доступ ко всем URL-адресам, хранящимся в Common Crawl. Таким образом, он должен дать мне ответ, если URL …

search-engine common-crawl

10 авг '16 в 09:43

2 ответа

Java API для запроса CommonCrawl для заполнения базы данных цифрового идентификатора объекта (DOI)

Я пытаюсь создать базу данных цифрового идентификатора объекта (DOI), найденную в Интернете. Путем ручного поиска CommonCrawl Индекс-сервер вручную я получил несколько многообещающих результатов. Однако я хочу разработать программное решение. Это мо…

web-scraping common-crawl

27 июл '17 в 10:18

0 ответов

Общий поиск ключевых слов

Я хочу найти список всех веб-сайтов с определенными ключевыми словами. Например, если я ищу по ключевому слову "Спорт" или "Футбол", из общего сканирования необходимо извлечь только URL-адреса, заголовок, описание и изображение соответствующего веб-…

python-3.x python-2.7 elasticsearch common-crawl warc

02 окт '17 в 08:10

0 ответов

S3 Тайм-аут операции чтения при чтении данных общего сканирования

Чтобы прочитать несколько файлов из общего сканирования, я написал этот скрипт import warc import boto for line in sys.stdin: line = line.strip() #Connect to AWS and read a dataset conn = boto.connect_s3(anon=True, host='s3.amazonaws.com') pds = con…

python amazon-s3 boto common-crawl

02 янв '17 в 06:28