Google уточняет и выбирает данные из freebase для большого набора данных, чтобы создать столбец из URL-адреса не работает

У меня есть проект уточнения Google с 36k строк данных. Я хотел бы добавить еще один столбец с извлечением данных JSON из URL-адреса freebase. Мне удалось заставить его работать с небольшим набором данных, но когда я запустил его в этом проекте, потребовалось несколько часов для обработки, а затем большинство результатов были пустыми. Я получил некоторые результаты с данными, хотя. Есть ли способ ограничения количества строк, из которых будут извлекаться данные, или лучший способ получения данных из URL.

Благодарю вас!

1 ответ

Решение

Если вы добавляете данные из Freebase, вам, вероятно, лучше использовать "Добавить столбец из Freebase", а не "Добавить столбец путем извлечения URL".

Грани являются одной из самых мощных функций Google Refine, и их можно использовать для управления всеми видами вещей. В этом случае вы можете использовать фасет, чтобы выбрать подмножество ваших данных и выполнить выборку только для этого подмножества (а затем повторить с другим подмножеством).

Следующая версия Refine будет включать в себя улучшенные отчеты об ошибках по результатам выборки URL, чтобы помочь отладить подобные проблемы, но убедитесь, что вы соблюдаете все ограничения удаленного сайта в отношении общего числа запросов, запросов в секунду, и т.п.

Другие вопросы по тегам