Соответствие названия компании Common Crawl с использованием mrjob

У меня есть список названия компании и детали, такие как номер телефона, адрес, адрес электронной почты и т. Д. Я хочу получить их company_url. Мы думали об использовании Google API для отправки запросов, но это оказывается дорогостоящим.

После поиска я нашел Common_Crawl, который был немного близок к Google в немых данных сайта.

Я нашел веб-сайт для сопоставления нашего телефонного номера с доступными телефонными номерами в Common_Crawl.

Мне нужно найти способ сопоставить их, используя название компании.

Есть ли способ, который я могу сопоставить по названию компании с данными Common_crawl. Я не хочу просматривать 3,25 миллиарда записей common_crawl для каждого названия компании.

0 ответов

Другие вопросы по тегам