Уникальное свойство строк для построения эффективного хэш-таблицы

Question

Уникальное свойство строк для построения эффективного хэш-таблицы

Каково уникальное свойство строк в C++? Почему их можно сравнивать с помощью реляционных операторов (например, при попытке отсортировать массив строк по алфавиту)? Я пытаюсь извлечь выгоду из этого "свойства", чтобы построить точную функцию хеширования для таблицы без коллизий для каждой возможной строки. Кроме того, какая структура данных будет работать для этого? Я думаю о векторе, потому что мне придется просматривать документ, не зная, сколько в нем уникальных слов, и я хочу просмотреть документ всего один раз.

3

c++ string hash hash-function

Источник

user5609121 26 ноя '15 в 15:45

3 ответа

Другие вопросы по тегам c++ string hash hash-function

user1711571 26 ноя '15 в 16:01 2015-11-26 16:01 · Answer 1 · 2015-11-26 16:01

Стандартные строки C++ являются по существу векторами символов. Таким образом, сравнивать строки означает сравнивать их символ за символом с самого начала. Я не уверен, что вы подразумеваете под "уникальным свойством", но для вашего сценария должен подойти любой алгоритм хеширования. Если я правильно понимаю ваш сценарий использования, вы можете использовать std::set или std::map. Таким образом, вам не придется заботиться о том, было ли слово уже добавлено или нет.

user4699340 26 ноя '15 в 16:02 2015-11-26 16:02 · Answer 2 · 2015-11-26 16:02

Самый простой алгоритм, который вычисляет ключ хеш-функции для строки в стиле C с нулевым символом в конце, заключается в следующем:

UINT HashKey(const char* key) const
{
    UINT nHash = 0;
    while (*key)
        nHash = (nHash<<5) + nHash + *key++;
    return nHash;
}

0

Источник

user4699340 26 ноя '15 в 16:02

user3288910 26 ноя '15 в 16:13 2015-11-26 16:13 · Answer 3 · 2015-11-26 16:13

Я пытаюсь извлечь выгоду из этого "свойства", чтобы построить точную функцию хеширования для таблицы без коллизий для каждой возможной строки.

В качестве примера принципа pigeonhole, у вас не может быть хеш-функции без столкновений. Строки сортируются однозначно, когда вы сравниваете их лексически (например, буква за буквой), используя такую функцию, как std::strcmp, но это только дает вам уникальный порядок, используя сравнение, а не внутреннее уникальное свойство строки.

Если у вас есть конечный набор ключей, вы можете разработать хеш-функцию без столкновений, которая называется идеальным хешированием.