Мне интересно, как поисковая система Google выбирает результаты без времени
Кто-нибудь может дать представление о том, как Google выбирает результаты поиска без времени (от 80 до 100 мс).
Я использую mysql в качестве моей базы данных, если в нем есть данные со строками 30 лаков, хотя он имеет правильную индексацию и ссылается на нее, что требует больше времени для загрузки.
Может ли кто-нибудь объяснить, как работает поисковая система Google.
Заранее спасибо.
4 ответа
Ознакомьтесь с оригинальными документами "Анатомия крупномасштабной гипертекстовой поисковой системы в Интернете".
В этой статье мы представляем Google, прототип крупномасштабной поисковой системы, которая интенсивно использует структуру, присутствующую в гипертексте. Google предназначен для эффективного сканирования и индексации в Интернете, а также для получения гораздо более удовлетворительных результатов поиска, чем существующие системы. Прототип с полнотекстовой базой данных и гиперссылками объемом не менее 24 миллионов страниц доступен по адресу http://google.stanford.edu/
Разработать поисковую систему - сложная задача. Поисковые системы индексируют от десятков до сотен миллионов веб-страниц, содержащих сопоставимое количество различных терминов. Они отвечают на десятки миллионов запросов каждый день. Несмотря на важность крупных поисковых систем в Интернете, очень мало научных исследований было сделано на них. Кроме того, благодаря быстрому прогрессу в технологиях и распространении в Интернете, создание системы веб-поиска сегодня сильно отличается от трехлетней давности. Эта статья содержит подробное описание нашей крупномасштабной поисковой системы в Интернете - первое такое подробное публичное описание, которое мы знаем на сегодняшний день.
Помимо проблем масштабирования традиционных методов поиска до данных такого масштаба, существуют новые технические проблемы, связанные с использованием дополнительной информации, представленной в гипертексте, для получения лучших результатов поиска. В этой статье рассматривается вопрос о том, как построить практическую крупномасштабную систему, которая может использовать дополнительную информацию, представленную в гипертексте. Также мы рассмотрим проблему того, как эффективно справляться с неконтролируемыми коллекциями гипертекста, где каждый может публиковать все, что хочет.
Очевидно, что с тех пор прошло долгий путь, но это должно дать вам начало:)
Это может быть полезно для вас
http://www.googleguide.com/google_works.html
Вот (грубый) обзор структуры сервера Google:
http://www.googleguide.com/google_works.html
Короче говоря, Google не имеет ни одного сервера MySQL в бэкэнде, а нескольких серверов различных (общих и проприетарных) систем.
У Google около 1000 серверов в одной стране. Когда вы нажимаете клавишу ввода, запрос отправляется как можно большему количеству серверов, а затем все они выполняют поиск в определенном объеме своей базы данных поиска, а затем объединяют свои результаты и отправляют их на ваш компьютер.
Более подробная информация доступна в книге под названием "История Google". У меня его сейчас нет, поэтому я не могу найти автора.
Ad @ м