Как использовать закон Ципфа, чтобы вычислить, что термины появляются только один раз?
Учитывая набор из 20 миллиардов терминов, я хотел бы найти количество уникальных терминов и количество терминов, которые появляются только один раз. ПрименяяHeaps Law
я могу получить
(n) = × ^, assume = 0.25, = 0.5
➔ () = 0.25 × (20)^0.5 ≅ 35M
Теперь я хотел бы использовать Zipf's law
чтобы узнать количество терминов, появляющихся один раз. Как мне его рассчитать?