Обучить языковой модели с помощью Google Ngrams
Я хочу найти условную вероятность слова, учитывая его предыдущий набор слов. Я планирую использовать Google N-grams
для того же. Тем не менее, будучи таким огромным ресурсом, как я есть, я не думаю, что это вычислительно возможно сделать на моем ПК. (Обрабатывать все N-граммы, обучать языковой модели).
Так есть ли способ я могу обучить языковой модели с помощью Google Ngrams? (Четное python NLTK
библиотека не поддерживает ngram
модель языка больше) Примечание. Я знаю, что модель языка можно обучить с помощью ngrams, но, учитывая огромный размер грамма N Google, как можно обучить модель языка с помощью специально Google Ngrams?
1 ответ
Вы должны проверить эту гладкую базу кода из Калифорнийского университета в Беркли: https://github.com/adampauls/berkeleylm
в examples/
папку, вы найдете скрипт bash make-binary-from-google.sh
это создает компактную языковую модель из необработанных Google N-Grams. Результирующий LM реализует глупый откат и использует быструю и эффективную структуру данных, описанную в следующей статье: http://nlp.cs.berkeley.edu/pubs/Pauls-Klein_2011_LM_paper.pdf
Если вы просто заинтересованы в окончательном обучении LM, вы можете загрузить его на разных языках с веб-сайта Berkley: http://tomato.banatao.berkeley.edu:8080/berkeleylm_binaries/