Python и nGrams

Question

Python и nGrams

Пользователь Aster, который пытается полностью перейти на python для базовой текстовой аналитики. Я пытаюсь повторить вывод ASTER ngram в Python, используя nltk или какой-либо другой модуль. Я должен быть в состоянии сделать это для N грамм от 1 до 4. Вывод в CSV.

ДАННЫЕ:

Unique_ID, Text_Narrative

ВЫХОД НУЖЕН:

Unique_id, ngram(token), ngram(frequency)

Пример вывода:

023345 "Я" 1
023345 "Любовь" 1
023345 "Питон" 1

0

python syntax nltk aster

Источник

user8462843 14 авг '17 в 15:03

2 ответа

Решение

Как говорили другие, вопрос действительно расплывчатый, но поскольку вы новичок, вот подробное руководство.:-)

from collections import Counter

#Your starting input  - a phrase with an ID
#I added some extra words to show count
dict1 = {'023345': 'I love Python love Python Python'}


#Split the dict vlue into a list for counting
dict1['023345'] = dict1['023345'].split()

#Use counter to count
countlist = Counter(dict1['023345'])

#count list is now "Counter({'I': 1, 'Python': 1, 'love': 1})"

#If you want to output it like you requested, interate over the dict
for key, value in dict1.iteritems(): 
    id1 = key
    for key, value in countlist.iteritems():
        print id1, key, value

0

Источник

user2175913 10 ноя '17 в 23:32

Другие вопросы по тегам python syntax nltk aster

user1097347 14 авг '17 в 15:23 2017-08-14 15:23 · Accepted Answer · 2017-08-14 15:23

Я написал эту простую версию только с pythonСтандартная библиотека, по образовательным соображениям.

Код продукции должен использовать spacy а также pandas

import collections
from operator import itemgetter as at
with open("input.csv",'r') as f:
    data = [l.split(',', 2) for l in f.readlines()]
spaced = lambda t: (t[0][0],' '.join(map(at(1), t))) if t[0][0]==t[1][0] else []
unigrams = [(i,w) for i, d in data for w in d.split()]
bigrams = filter(any, map(spaced, zip(unigrams, unigrams[1:] )))
trigrams = filter(any, map(spaced, zip(unigrams, unigrams[1:], unigrams[2:])))
with open("output.csv", 'w') as f:
    for ngram in [unigrams, bigrams, trigrams]:
        counts = collections.Counter(ngram)
        for t,count in counts.items():
            f.write("{i},{w},{c}\n".format(c=count, i=t[0], w=t[1]))