Скрытое распределение Дирихле, LDA, представляет собой генеративную модель, которая позволяет группам, которые не наблюдают, объяснять наборы наблюдений, что объясняет, почему некоторые части данных похожи.

Если наблюдения представляют собой слова, собранные в документы, это означает, что каждый документ представляет собой смесь небольшого количества тем и что создание каждого слова связано с одной из тем документа. LDA представляет документы как смесь тем, которые с определенной вероятностью выплевывают слова.

Его не следует путать с линейным дискриминантным анализом, процедурой обучения с учителем для классификации наблюдений по набору категорий.