Данные размещения из телефонных звонков

У меня ежедневно тысячи телефонных звонков, преобразованных из речи в текст. Я попытался сгенерировать коллокационные данные, используя два варианта ниже

ОПЦИЯ 1

corpus.collocations(200,2)

ВАРИАНТ № 2

bigram = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(corpus)
finder.apply_freq_filter(5)
my_bigrams = finder.nbest(bigram.pmi,200)

Когда я использую опцию № 1, мне кажется, что я получаю хорошие данные, но термины, кажется, не очень полные, например, я получаю такие термины, как "доброе утро", "добрый день", "американский экспресс"... это важные термины но слишком часто встречается в телефонных звонках.

вариант № 2, кажется, получает лучшие данные.. пример.. он дает мне марку автомобиля и модели, названия городов.. и т. д...

Мне было интересно, кто-то уже использовал оба эти варианта и решил пойти по любому пути, и если да, то на какой основе.

Я вижу некоторые данные из option1, которые могут быть хорошими... так что я думаю о генерации данных, используя оба варианта..

Есть мысли, пожалуйста?

* немного больше редактируя мой вопрос На основании того, что я видел до сих пор, я в основном собираюсь получить большинство результатов из варианта 2 и объединю их с некоторыми из варианта 1. Мне интересно, может ли кто-то также потерять некоторые из них? свет о том, как два работают по-разному.

0 ответов

Другие вопросы по тегам