Случайное это почти случайно?
Я сделал это, чтобы проверить случайность randint:
>>> from random import randint
>>>
>>> uniques = []
>>> for i in range(4500): # You can see I was optimistic.
... x = randint(500, 5000)
... if x in uniques:
... raise Exception('We duped %d at iteration number %d' % (x, i))
... uniques.append(x)
...
Traceback (most recent call last):
File "<stdin>", line 4, in <module>
Exception: We duped 887 at iteration number 7
Я пробовал примерно в 10 раз больше, и лучший результат, который я получил, был 121 итерацией перед ретранслятором. Это лучший результат, который вы можете получить из стандартной библиотеки?
11 ответов
Парадокс дня рождения, или почему PRNG производят дубликаты чаще, чем вы думаете.
Есть несколько проблем в игре ОП. Один из них - это парадокс дня рождения, о котором говорилось выше, а второй - характер того, что вы генерируете, что по своей сути не гарантирует, что данное число не будет повторяться.
Парадокс дня рождения применяется там, где заданное значение может встречаться более одного раза в течение периода генератора - и, следовательно, дублирование может происходить в выборке значений. Эффект парадокса дня рождения заключается в том, что реальная вероятность получения таких дубликатов весьма значительна, а средний период между ними меньше, чем можно было бы предположить. Этот диссонанс между воспринятой и действительной вероятностями делает парадокс дня рождения хорошим примером когнитивного предубеждения, где наивная интуитивная оценка, вероятно, будет в корне неверной.
Краткое руководство по генераторам псевдослучайных чисел (PRNG)
Первая часть вашей проблемы заключается в том, что вы берете выставленное значение генератора случайных чисел и конвертируете его в намного меньшее число, поэтому пространство возможных значений уменьшается. Хотя некоторые генераторы псевдослучайных чисел не повторяют значения в течение своего периода, это преобразование изменяет домен на гораздо меньший. Домен меньшего размера лишает законной силы условие "нет повторений", поэтому вы можете ожидать значительную вероятность повторений.
Некоторые алгоритмы, такие как линейный конгруэнтный PRNG (A'=AX|M
) гарантируем уникальность на весь период. В LCG сгенерированное значение содержит все состояние аккумулятора, и дополнительное состояние не сохраняется. Генератор является детерминированным и не может повторять число в течение периода - любое заданное значение аккумулятора может подразумевать только одно возможное последовательное значение. Следовательно, каждое значение может появляться только один раз за период генератора. Однако период такого PRNG является относительно небольшим - около 2-30 для типичных реализаций алгоритма LCG - и не может быть больше, чем количество различных значений.
Не все алгоритмы PRNG разделяют эту характеристику; некоторые могут повторить данное значение в течение периода. В задаче ОП алгоритм Мерсена Твистера(используемый в случайном модуле Python) имеет очень большой период - намного больший, чем 2^32. В отличие от линейного конгруэнтного PRNG, результат не является просто функцией предыдущего выходного значения, поскольку аккумулятор содержит дополнительное состояние. С 32-битным целочисленным выводом и периодом ~2^19937 это не может обеспечить такую гарантию.
Twister Mersenne Twister является популярным алгоритмом для PRNG, потому что он имеет хорошие статистические и геометрические свойства и очень длительный период - желательные характеристики для PRNG, используемого в имитационных моделях.
Хорошие статистические свойства означают, что числа, сгенерированные алгоритмом, равномерно распределены без чисел, имеющих значительно более высокую вероятность появления, чем другие. Плохие статистические свойства могут привести к нежелательному искажению результатов.
Хорошие геометрические свойства означают, что множества из N чисел не лежат на гиперплоскости в N-мерном пространстве. Плохие геометрические свойства могут создавать ложные корреляции в имитационной модели и искажать результаты.
Длинный период означает, что вы можете сгенерировать много чисел до того, как последовательность обернется к началу. Если модели требуется большое количество итераций или она должна быть запущена из нескольких начальных чисел, то 2^30 или около того дискретных чисел, доступных из типичной реализации LCG, может быть недостаточным. Алгоритм MT19337 имеет очень большой период - 2^19337-1, или около 10^5821. Для сравнения, общее количество атомов во вселенной оценивается примерно в 10^80.
32-разрядное целое число, создаваемое PRNG MT19337, не может представлять достаточно дискретных значений, чтобы избежать повторения в течение такого большого периода. В этом случае повторные значения могут возникнуть и неизбежно при достаточно большой выборке.
Парадокс дня рождения в двух словах
Эта проблема изначально определяется как вероятность того, что два человека в комнате будут иметь один и тот же день рождения. Ключевым моментом является то, чтолюбые два человека в комнате могут разделить день рождения. Люди склонны наивно неверно истолковывать проблему как вероятность того, что кто-то в комнате разделит день рождения с конкретным человеком, что является источником когнитивного искажения, которое часто заставляет людей недооценивать вероятность. Это неверное предположение - нет требования, чтобы соответствие было определенному человеку, и любые два человека могут соответствовать.
Вероятность совпадения между любыми двумя индивидами намного выше, чем вероятность совпадения с конкретным индивидом, поскольку совпадение не обязательно должно быть к определенной дате. Скорее всего, вам нужно только найти двух людей, которые имеют одинаковый день рождения. Из этого графика (который можно найти на странице Википедии по этому вопросу) мы видим, что нам нужно только 23 человека в комнате, чтобы с 50% -ной вероятностью найти двоих, которые совпадают таким образом.
Из записи Википедии по этому вопросу мы можем получить хорошее резюме. В задаче ОП у нас имеется 4500 возможных "дней рождения", а не 365. Для заданного числа генерируемых случайных значений (приравнивая к "людям") мы хотим знать вероятность появления любых двух одинаковых значений в последовательности.
Вычисление вероятного влияния парадокса дня рождения на проблему ОП
Для последовательности из 100 чисел у нас есть (100 * 99) / 2 = 4950 пар http://mathurl.com/yc4cdsr.png (см. Понимание проблемы), которые потенциально могут совпадать (то есть первое может совпадать со вторым, третий и т. д., второй может совпадать с третьим, четвертым и т. д. и т. д.), поэтому число комбинаций, которые могут потенциально совпадать, может превышать 100.
Из вычисления вероятности мы получаем выражение 1 - (4500! / (4500**100 * (4500 - 100)!) Http://mathurl.com/ybfweny.png. Следующий фрагмент кода Python ниже делает наивный оценка вероятности совпадения пары.
# === birthday.py ===========================================
#
from math import log10, factorial
PV=4500 # Number of possible values
SS=100 # Sample size
# These intermediate results are exceedingly large numbers;
# Python automatically starts using bignums behind the scenes.
#
numerator = factorial (PV)
denominator = (PV ** SS) * factorial (PV - SS)
# Now we need to get from bignums to floats without intermediate
# values too large to cast into a double. Taking the logs and
# subtracting them is equivalent to division.
#
log_prob_no_pair = log10 (numerator) - log10 (denominator)
# We've just calculated the log of the probability that *NO*
# two matching pairs occur in the sample. The probability
# of at least one collision is 1.0 - the probability that no
# matching pairs exist.
#
print 1.0 - (10 ** log_prob_no_pair)
Это дает разумный результат p=0,669 для совпадения, происходящего в пределах 100 чисел, выбранных из совокупности из 4500 возможных значений. (Может быть, кто-то может проверить это и опубликовать комментарий, если это не так). Из этого мы можем видеть, что длины прогонов между совпадающими числами, наблюдаемыми ОП, кажутся вполне разумными.
Сноска: использование тасования для получения уникальной последовательности псевдослучайных чисел
Посмотрите этот ответ ниже от С. Марк для получения гарантированного уникального набора случайных чисел. Техника, на которую ссылается плакат, берет массив чисел (которые вы предоставляете, чтобы вы могли сделать их уникальными) и перемешивает их в случайном порядке. Рисование чисел в последовательности из перемешанного массива даст вам последовательность псевдослучайных чисел, которые гарантированно не повторятся.
Сноска: криптографически защищенные PRNG
Алгоритм MT не является криптографически безопасным, поскольку относительно легко определить внутреннее состояние генератора, наблюдая последовательность чисел. Другие алгоритмы, такие как Blum Blum Shub, используются для криптографических приложений, но могут быть неподходящими для моделирования или общих приложений со случайными числами. Криптографически защищенные PRNG могут быть дорогими (возможно, требующими вычисления bignum) или могут не иметь хороших геометрических свойств. В случае алгоритма этого типа основное требование состоит в том, что в вычислительном отношении невозможно сделать вывод о внутреннем состоянии генератора, наблюдая последовательность значений.
Прежде чем обвинять Python, вы должны освежить некоторые теории вероятностей и статистики. Начните с чтения о парадоксе дня рождения
Кстати, random
Модуль на Python использует Mersenne Twister PRNG, который считается очень хорошим, имеет огромный период и был тщательно протестирован. Так что будьте уверены, что вы в хороших руках.
Если вам не нужен повторяющийся, создайте последовательный массив и используйте random.shuffle
Истинная случайность определенно включает в себя повторение значений до того, как исчерпан весь набор возможных значений. В противном случае это не будет случайным, поскольку вы сможете предсказать, как долго значение не будет повторяться.
Если вы когда-либо бросали кости, вы, конечно, довольно часто получали 3 шестерки подряд...
Вы генерируете 4500
случайные числа из диапазона 500 <= x <= 5000
, Затем вы проверяете для каждого номера, был ли он сгенерирован ранее. Проблема дня рождения говорит нам, какова вероятность совпадения двух из этих чисел n
пытается вне диапазона d
,
Вы также можете инвертировать формулу, чтобы рассчитать, сколько чисел нужно сгенерировать, пока вероятность создания дубликата не станет больше 50%
, В этом случае у вас есть >50%
шанс найти повторный номер после 79
итераций.
Случайная реализация Python на самом деле довольно современна:
Это не репитер. Повторитель - это когда вы повторяете ту же последовательность. Не только один номер.
Есть парадокс дня рождения. Принимая это во внимание, вы понимаете, что то, что вы говорите, состоит в том, что нахождение "764, 3875, 4290, 4378, 764" или чего-то подобного не очень случайное, потому что число в этой последовательности повторяется. Истинный способ сделать это - сравнить последовательности друг с другом. Я написал скрипт на Python для этого.
from random import randint
y = 21533456
uniques = []
for i in range(y):
x1 = str(randint(500, 5000))
x2 = str(randint(500, 5000))
x3 = str(randint(500, 5000))
x4 = str(randint(500, 5000))
x = (x1 + ", " + x2 + ", " + x3 + ", " + x4)
if x in uniques:
raise Exception('We duped the sequence %d at iteration number %d' % (x, i))
else:
raise Exception('Couldn\'t find a repeating sequence in %d iterations' % (y))
uniques.append(x)
Вы определили случайное пространство из 4501 значений (500-5000) и выполняете итерацию 4500 раз. Вы в основном гарантированно получите столкновение в тесте, который вы написали.
Думать об этом по-другому:
- Когда массив результатов пуст P (dupe) = 0
- 1 значение в массиве P (dupe) = 1/4500
- 2 значения в массиве P(dupe) = 2/4500
- и т.п.
Таким образом, к тому времени, когда вы доберетесь до 45/4500, эта вставка с вероятностью 1% будет дубликатом, и эта вероятность будет увеличиваться с каждой последующей вставкой.
Чтобы создать тест, который действительно проверяет возможности случайной функции, увеличьте вселенную возможных случайных значений (например, 500-500000). Вы можете или не можете получить обман. Но в среднем вы получите гораздо больше итераций.
Для всех, кто сталкивался с этой проблемой, я использовал uuid.uuid4(), и он работает как шарм.