Обучить языковой модели с помощью Google Ngrams

Question

Обучить языковой модели с помощью Google Ngrams

Я хочу найти условную вероятность слова, учитывая его предыдущий набор слов. Я планирую использовать Google N-grams для того же. Тем не менее, будучи таким огромным ресурсом, как я есть, я не думаю, что это вычислительно возможно сделать на моем ПК. (Обрабатывать все N-граммы, обучать языковой модели).

Так есть ли способ я могу обучить языковой модели с помощью Google Ngrams? (Четное python NLTK библиотека не поддерживает ngram модель языка больше) Примечание. Я знаю, что модель языка можно обучить с помощью ngrams, но, учитывая огромный размер грамма N Google, как можно обучить модель языка с помощью специально Google Ngrams?

1

python nlp nltk n-gram

Источник

user5047436 08 июл '16 в 10:39

1 ответ

Решение

Другие вопросы по тегам python nlp nltk n-gram

user7303170 13 июл '17 в 02:46 2017-07-13 02:46 · Accepted Answer · 2017-07-13 02:46

Вы должны проверить эту гладкую базу кода из Калифорнийского университета в Беркли: https://github.com/adampauls/berkeleylm

в examples/ папку, вы найдете скрипт bash make-binary-from-google.sh это создает компактную языковую модель из необработанных Google N-Grams. Результирующий LM реализует глупый откат и использует быструю и эффективную структуру данных, описанную в следующей статье: http://nlp.cs.berkeley.edu/pubs/Pauls-Klein_2011_LM_paper.pdf

Если вы просто заинтересованы в окончательном обучении LM, вы можете загрузить его на разных языках с веб-сайта Berkley: http://tomato.banatao.berkeley.edu:8080/berkeleylm_binaries/