Apache Lucene против Google Search Appliance

Кто-нибудь сталкивался с особенностями Apache Lucene? Я слышал, что он даже сопоставим с Google Search Appliance (GSA). Я искал определенное сравнение между этими двумя, если возможно?

Эти сравнения, доступные онлайн, довольно расплывчаты.

1 ответ

Решение

Вероятно, трудно найти сравнение между Apache Lucene и Google Search Appliance, потому что это такие разные вещи. В то время как Lucene является программным компонентом для индексации документов со встроенным базовым "повышением" релевантности, GSA является продуктом поисковой системы предприятия (устройство / физическое оборудование) с множеством готовых функций для настройки и оптимизации результатов поиска на основе алгоритма поиска Google.

Таким образом, это два отличных инструмента с различными сценариями реализации. Но, конечно, частично совпадают, особенно если они используются для поиска на среднем веб-сайте.

Вверху моей головы несколько тем, которые вы можете начать для сравнения:

Развертывание / Архитектура

  • Lucene - это программный компонент, который может быть глубоко интегрирован в ваше собственное программное обеспечение, обеспечивая индекс (обычно основанный на файлах, иногда в памяти) для быстрого индексирования и извлечения контента.
  • Проект lucene предоставляет довольно большой список анализаторов для точной индексации различных языков (западные языки, арабский, азиатский и т. Д.), Но в нем есть возможности для улучшений с помощью анализаторов.
  • Lucene для.Net - довольно популярный порт для интеграции с платформами Microsoft .Net.
  • Программное и аппаратное обеспечение GSA, собранные вместе и продаваемые как устройство с интерфейсом HTTP(s), предоставляют результаты поиска в формате HTML (через собственные XSLT) или XML (для лучшей интеграции на вашем веб-сайте).
  • GSA поставляется с языковыми пакетами (установленными и загружаемыми). Вам придется выбрать один из комплектов. Если вам нужна поддержка большего количества языков, вам может потребоваться добавить еще один GSA в инфраструктуру (если все необходимые языки не входят в один пакет)
  • GSA работает отлично и требует минимального обслуживания
  • GSA позволяет вам масштабировать практически без каких-либо инженерных усилий. глобально распределены, но подключенные GSA можно настроить через веб-интерфейс
  • GSA можно сделать HA, купив более дешевый модуль горячего резервирования

индексирование

  • Lucene предоставляет сканеры (и API сканера) для индексирования контента. Не имеет значения, действительно ли ваш сканер сканирует веб-сайт, такой как Google, или вы сканируете базу данных на основе операторов SQL или предоставляете текстовый поток, считываемый из плоских файлов. Но обычно вы должны внедрить сканер, если предоставленный не соответствует вашим потребностям
  • GSA использует технологию сканирования, используемую Google, с соблюдением инструкций роботов (в TXT или мета-тегах), предоставляет API фида для источников, которые не могут быть просканированы (т. Е. Нет связи между ними), и поддерживает настройку запросов SQL ко всем базам данных мэров. для извлечения данных из базы данных (будь то URL для сканирования или сами данные)

Настройка поиска / релевантности

  • Lucene не стремится и не имеет хорошей поддержки для настройки релевантности (кроме повышения записей в индексе). Приложение должно использовать результаты индексации для настройки
  • Lucene - это индекс, используемый SOLR, который обеспечивает настройку и архитектуру, более похожую на GSA (включая поиск результатов по HTTP(s))
  • GSA позволяет смещать наборы результатов на основе метаданных, даты и шаблонов URL. В последней версии вы даже можете создавать свои собственные объекты и смещать результаты на их основе
  • GSA поддерживает готовые фасеты для метаданных и некоторые более интересные вещи в их интерфейсе, такие как предварительные изображения для документов, автозаполнение и т. Д.

Коммерческие вещи

  • Lucene является продуктом с открытым исходным кодом (без затрат), но требует приобретения оборудования
  • GSA стоит около 20 тысяч долларов за 500 тысяч документов /URL
  • Google предоставляет несколько уровней поддержки
  • Лицензии GSA должны быть продлены на 2 или 3 года (вы получаете новое оборудование)
  • GSA не требует никакого дополнительного оборудования (устройство включено)

... есть еще много чего добавить, но я надеюсь, вы поняли суть.


Обновление февраля 2016:

Google сообщил партнерам, что GSA будет прекращено в 2019 году. На данный момент лучшим сайтом, на который можно перейти по ссылке, является http://fortune.com/2016/02/04/google-ends-search-appliance/.

Другие вопросы по тегам