Какие шаги сделать поиск слова для веб-сайта?

Я хочу написать поиск слова, который подключается к определенному веб-сайту (огромный), берет слово от пользователя, ищет сайт и возвращает строки, содержащие слово, это должно быть написано в Java и в виде апплета. У меня есть Прочитайте некоторые учебники и вопросы по этому вопросу, и поняли, что нужно сделать, это:

1. подключитесь к веб-сайту и получите содержимое веб-сайта и сохраните его в строку.(Это должно быть сделано с помощью веб-сканера, который будет сделан из моего собственного кода для подключения к веб-сайту и сохранения содержимого в библиотеку строка + jsoup разобрать HTML-код).

2. сохранить данные в базу данных (в моем случае база данных nosql).

3. Индексировать данные в базе данных.

4. запросить базу данных, чтобы показать результаты.

5. Сделайте пользовательский интерфейс для отображения результатов поиска (я использую swing.japplet).

Теперь мои вопросы таковы:

1. правильно ли я понял шаги, которые мне нужно пройти?(Пожалуйста, объясните мне подробно, если шаг не нужен или необходим)

2. Нужно ли иметь базу данных?

обратите внимание: я хочу реализовать это сам, без использования готовых вещей, таких как lucene, nutch, solr,...

редактировать:3 человека сказали мне, что апплет не подходит для такой вещи, так что должно быть замена?

большое спасибо за вашу помощь.

3 ответа

Вы должны посмотреть на использование Lucene, так как оно делает большую часть того, что вы хотите здесь.

Вы не должны использовать апплеты.

Для небольшого набора данных, базы данных должно быть достаточно. Базы данных, такие как mysql, оснащены функциями полнотекстового поиска.

Для большего набора данных, вы можете рассмотреть Lucene или Solr.

Это один из способов реализации этого. Другим (более простым) способом было бы использовать существующий механизм текстового поиска / индексирования, такой как Lucene / Solr. Попытка переопределить колесо "текстового поиска / индексации" с использованием технологии базы данных - это пустая трата усилий, если у вас нет веских технических причин для этого.

Вам нужно иметь какую-то базу данных, потому что индексация сайта на лету просто не будет работать. Люсен справится с этим.

Я думаю, что ваш выбор Java-апплетов для создания пользовательского интерфейса - плохая идея. Существуют другие технологии, которые дают результаты, которые так же хороши или лучше... без риска для безопасности плагина Java-браузера.


Наконец, еще один способ сделать ваш сайт доступным для поиска - это заставить Google сделать это за вас. Сделайте контент вашего сайта индексируемым, а затем используйте API поиска Google.

Другие вопросы по тегам