Hash Collision - каковы шансы?

Question

Hash Collision - каковы шансы?

У меня есть некоторый код на моем PHP-сайте, который создает случайный хэш (используя sha1()) и я использую его для сопоставления записей в базе данных.

Каковы шансы на столкновение? Должен ли я сгенерировать хеш, а затем сначала проверить, находится ли он в базе данных (я бы предпочел избежать дополнительного запроса), или автоматически вставить его, исходя из вероятности того, что он, вероятно, не столкнется с другим.

28

database-design hash

Источник

user31671 18 ноя '08 в 05:55

11 ответов

Решение

Используйте симметричную схему шифрования и личный ключ сервера для шифрования идентификатора (и других значений) при отправке их клиенту и повторной расшифровке при получении. Позаботьтесь о том, чтобы ваша криптографическая функция обеспечивала как конфиденциальность, так и проверку целостности.

Это позволяет вам использовать разумные значения при обращении к БД без каких-либо коллизий, обеспечивает большую безопасность при общении с клиентом и снижает вероятность попадания на ежедневный WTF примерно в 2^160.

Смотрите также Стучать по гвоздю: Старая обувь или стеклянная бутылка?!

16

Источник

user4918 18 ноя '08 в 08:35

Почему бы не сделать что-то, что гарантирует отсутствие коллизий, а также гарантирует, что никто не может изменить параметр GET, чтобы посмотреть то, что не должен: используя соль, объедините идентификатор и его хеш.

$salt = "salty";
$key = sha1($salt . $id) . "-" . $id;
// 0c9ab85f8f9670a5ef2ac76beae296f47427a60a-5

даже если вы случайно наткнетесь на два числа с одинаковым хэшем sha1 (с вашей солью), ключ $ все равно будет другим, и вы избежите всех коллизий.

14

Источник

user9021 18 ноя '08 в 12:31

Если вы используете численно увеличивающиеся идентификаторы в качестве входных данных, то вероятность того, что SHA-1 столкнется, практически равна нулю.

Если идентификатор является единственным входом, то SHA-1 кажется довольно излишним - создание 160-битного хеша из 32-разрядного целого числа. Я бы предпочел использовать модульное возведение в степень, например, выбрать большое (32-битное) простое число p, вычислить модульный генератор g этой группы, а затем использовать g^id. Это будет гарантированно без коллизий и даст только 32-битные "хэши".

5

Источник

user33006 18 ноя '08 в 06:07

SHA-1 производит 160-битный дайджест. Поэтому вы в безопасности, если у вас меньше 2^(160/2) записей. Деление на 2 связано с парадоксом дня рождения.

4

Источник

user33885 18 ноя '08 в 06:03

Из первых принципов:

SHA-1 производит 160-битный дайджест. Предполагая, что он использует все битовое пространство равномерно (что, по-видимому, и предназначено для этого), это только 2^-160 шанс на каждую вставку, что вы получите столкновение.

Поэтому для каждой вставки следует с уверенностью предположить, что столкновения нет, и устранить ошибку, если она есть.

Это не значит, что вы можете полностью игнорировать вероятность столкновения.

Парадокс Дня рождения предполагает, что вероятность того, что в вашей базе данных будет хотя бы одно столкновение, выше, чем вы могли бы предположить, из-за O(N^2) возможных столкновений.

4

Источник

user8014 18 ноя '08 в 06:04

Если вам нужно скрыть некоторые данные в вашем URL, чтобы скрыть данные, вы делаете что-то не так.

2

Источник

user151758 18 ноя '09 в 15:00

Задайте вопрос, сколько это будет стоить вам в случае столкновения. Если это бесплатный сайт, хорошо. Если вы управляете бизнесом, приносящим деньги, а перезапись обойдется вам в контракт на миллион долларов, то я бы снова подумал.

Я думаю, что вы идете об этом неправильно.
Я думаю, что вам нужно сохранить уникальный идентификатор, но вы хотите убедиться, что пользователи не могут вручную изменить идентификатор.

Один из способов сделать это - поместить идентификатор и хэш идентификатора (с некоторыми дополнительными данными) в ссылку.

Например: (мой PHP ржавый, так что общий алгоритм будет:)

id   = 5;
hash = hash("My Private String " + id)
link = "http://mySite.com/resource?id=" + id + "&hash=" + hash

Затем, когда вы получите запрос, просто подтвердите, что вы можете восстановить хеш из ID. Это оставляет вас открытыми для атаки, чтобы выработать "My Private String", но это будет довольно сложно в вычислительном отношении, и вы всегда можете добавить что-то уникальное, что не доступно непосредственно пользователю (например, идентификатор сеанса).

1

Источник

user14065 18 ноя '08 в 08:20

Существует очень простое правило, чтобы выяснить, есть ли у любого алгоритма хеширования коллизии или нет. Если диапазон выходных данных алгоритма является конечным числом, то рано или поздно возникнет коллизия.

Несмотря на то, что SHA1 имеет очень большой диапазон хэш-возможностей 2^160, его число все еще ограничено. Однако входные данные, которые можно передать этой функции, буквально бесконечны. Учитывая достаточно большой набор входных данных, столкновения обязательно произойдут.

1

Источник

user5429123 04 окт '17 в 11:48

Другие комментарии охватили вас о вероятностях, однако, если вы посмотрите на это прагматично, то вы можете получить определенный ответ для себя.

Вы сами сказали, что собираетесь хэшировать свои последовательные идентификаторы. Было бы легко закодировать тестовый пример. Переберите ~100 000 000 идентификаторов и проверьте наличие коллизий. Это не займет много времени, чтобы сделать. С другой стороны, вы можете исчерпать память на четверть пути.

0

Источник

user10902 18 ноя '08 в 08:35

Я не думаю, что sha1() доставит вам здесь какие-то проблемы, слабая генерация случайных чисел - более вероятный кандидат на столкновения.

Стефан Эссер написал хорошую статью на эту тему.

0

Источник

user34149 18 ноя '08 в 21:57

Каковы шансы столкновения?

Я не вижу точного ответа на этот конкретный вопрос, поэтому здесь я привожу вероятность коллизии для некоторого количества записей:

Кол-во записей: 2 ^ 54 Вероятность столкновения: 1e-16
Кол-во записей: 2 ^ 64 Вероятность столкновения: 1e-10
Кол-во записей: 2 ^ 71 Вероятность столкновения: 2e-06
Кол-во записей: 2 ^ 76 Вероятность столкновения: 2e-03
Кол-во записей: 2 ^ 80 Вероятность столкновения: 0,39
Кол-во записей: 2 ^ 82 Вероятность столкновения: > 0,99

Примеры интерпретации:

Если у вас меньше 2^54 (18014398509481984) записей, вы можете быть уверены, как никто другой, что у вас не будет столкновения.
Если вам каким- то образом удастся получить 2^76 (75,557,863,725,914,323,419,136) записей, вы можете быть уверены только в некоторой степени (вероятность столкновения составляет 2 из миллиона!)

Теперь вы можете решить для себя, достаточно ли для вас вероятности.

0

Источник

user13695519 06 ноя '20 в 16:11

Другие вопросы по тегам database-design hash

user31945 18 ноя '08 в 06:03 2008-11-18 06:03 · Accepted Answer · 2008-11-18 06:03

Если вы предполагаете, что SHA-1 делает хорошую работу, вы можете заключить, что есть вероятность 1 к 2^160, что два заданных сообщения имеют одинаковый хэш (поскольку SHA-1 создает 160-битный хеш).

2^160 - смехотворно большое число. Это примерно 10^48. Даже если у вас есть миллион записей в вашей базе данных, это все равно 1 к 10^42 шансов, что новая запись будет иметь тот же хэш.

SHA-1 оказался довольно хорошим, поэтому я не думаю, что вам нужно беспокоиться о столкновениях вообще.

В качестве примечания, используйте функцию PHP raw_output при использовании SHA-1, так как это приведет к более короткой строке и, следовательно, сделает ваши операции с базами данных немного быстрее.

РЕДАКТИРОВАТЬ: Чтобы устранить парадокс дня рождения, база данных с 10^18 (миллион миллионов миллионов) записей имеет шанс около 1 на 0,0000000000003 столкновения. На самом деле не стоит беспокоиться.