Есть ли способ получить несколько порядков Ngram, используя NTLK вместо получения итерации по генератору?

Question

Есть ли способ получить несколько порядков Ngram, используя NTLK вместо получения итерации по генератору?

Мне нужны нграммы. я знаю nltk.utils.ngrams может использоваться для получения ngrams, но на практике функция ngrams возвращает объект генератора. Я всегда могу перебрать его и сохранить нграммы в списке. Но есть ли другой, более прямой способ получения этих ngram в списке без необходимости перебирать их?

0

python nlp nltk generator n-gram

Источник

user1496269 27 авг '16 в 09:47

3 ответа

Решение

Там на самом деле встроенная функция для получения нескольких порядков вызова Ngram everygrams см. https://github.com/nltk/nltk/blob/develop/nltk/util.py

>>> from nltk import everygrams
>>> sent = 'a b c'.split()
# By default, it will extract every possible order of ngrams.
>>> list(everygrams(sent))
[('a',), ('b',), ('c',), ('a', 'b'), ('b', 'c'), ('a', 'b', 'c')]
# You can set a max order or ngrams.
>>> list(everygrams(sent, max_len=2))
[('a',), ('b',), ('c',), ('a', 'b'), ('b', 'c')]
# Or specify a range.
>>> list(everygrams(sent, min_len=2, max_len=3))
[('a', 'b'), ('b', 'c'), ('a', 'b', 'c')]

3

Источник

user610569 27 авг '16 в 15:06

Или альтернативно без nltk:

from itertools import chain

def ngrams(L, n = 2):
    orders = [n] if type(n) is int else sorted(list(n))
    return list(chain(*[zip(*[L[i:] for i in range(n)]) for n in orders]))

>>> ngrams([1,2,3,4,5], n = 3)
[(1, 2, 3), (2, 3, 4), (3, 4, 5)]
>>> ngrams([1,2,3,4,5], n = [2,3])
[(1, 2), (2, 3), (3, 4), (4, 5), (1, 2, 3), (2, 3, 4), (3, 4, 5)]

0

Источник

user5351549 27 авг '16 в 10:54

Другие вопросы по тегам python nlp nltk generator n-gram

user1005215 27 авг '16 в 10:04 2016-08-27 10:04 · Accepted Answer · 2016-08-27 10:04

@ Георг комментирует это в значительной степени.

In [12]: from nltk.util import ngrams

In [13]: g = ngrams([1,2,3,4,5], 3)

In [14]: list(g)
Out[14]: [(1, 2, 3), (2, 3, 4), (3, 4, 5)]

In [15]: g = ngrams([1,2,3,4,5], 3)

In [16]: map(lambda x: x, g)
Out[16]: [(1, 2, 3), (2, 3, 4), (3, 4, 5)]

2

Источник

user1005215 27 авг '16 в 10:04