Описание тега n-gram
N-грамма - это упорядоченный набор из N элементов одного типа, обычно представленный в большом наборе многих других подобных N-граммов. Отдельные элементы обычно представляют собой слова естественного языка, хотя N-граммы применялись ко многим другим типам данных, таким как числа, буквы, генетические белки в ДНК и т. Д. Статистический анализ N-грамм обычно выполняется как часть обработки естественного языка. биоинформатика и теория информации.
N-граммы могут быть получены для любого положительного целого числа N. 1-граммы называются "униграммами", 2-граммы называются "биграммами", 3-граммы называются "триграммами", а N-граммы более высокого порядка называются просто числами., например, "4 грамма". Техника N-грамм может применяться к любому виду упорядоченных данных. Метаданные, такие как маркеры конца предложения, могут быть включены или не включены.
Например, используя слова в качестве элементов и число 2, английское предложение "Три коровы едят траву". может быть разбит на 2 грамма[{Three cows}, {cows eat}, {eat grass}, {grass #}]
, где # - маркер метаданных, обозначающий конец предложения.
Поскольку анализ N-грамм встраивает набор данных в векторное пространство, он позволяет применять множество мощных статистических методов к данным для прогнозирования, классификации и распознавания различных свойств.
Дополнительная информация: