Является ли manifold cf хорошим вариантом для индексации на Google Диске?
Я использую проект с открытым исходным кодом apache manifoldcf для индексации документов из Google Drive в моем solr. Часто я видел, что это довольно противоречиво при индексации данных. Также требуется время, чтобы отразить даже небольшое количество документов в solr. Вы действительно думаете, что это хороший вариант для индексации Google Drive с его помощью?
2 ответа
В настоящее время он немного медленный, из-за времени отклика и ограничений на регулирование от самого привода Google. Но это ограничение, вероятно, может быть снято, если вы покупаете дополнительную пропускную способность у Google. При текущей настройке, если вы хотите проиндексировать большой набор документов на диске Google, это может быть не так быстро, как вы ожидаете
Коллектор CF хорош для сканирования через файловую систему. Вы можете пойти на Apache Nutch, если вы заинтересованы в веб-сканировании.
Да, Manifold CF требует много времени, чтобы отразить небольшое количество документов. Также у него очень мало документации. Тем не менее, вы можете присоединиться к списку рассылки, где вы можете задать вопросы ведущему разработчику "Карл". Он очень услужливый и обычно отвечает в течение нескольких часов.
PS: я работал с Manifold CF над проектом в течение 10 месяцев.