Описание тега language-model

0 ответов

Проблемы генерации нграмм

У меня есть следующий объект data.table trigramTable_sample ngram queryWord predict 1: the_poststamp_there the_poststamp there 2: seeing_these_big-time seeing_these big-time 3: gainey_is_14-under gainey_is 14-under 4: good_as_notepad good_as notepad…
15 мар '18 в 01:24
1 ответ

Параметр командной строки в word2vec

Я хочу использовать word2vec для создания собственного словесного векторного корпуса с текущей версией английской википедии, но не могу найти объяснение параметра командной строки для использования этой программы. В demp-скрипте вы можете найти след…
08 июн '15 в 13:14
0 ответов

Позиционное кодирование приводит к ухудшению конвергенции, языкового моделирования

Это сложный вопрос, но я мог бы попробовать. Я реализую архитектуру из этой статьи https://arxiv.org/pdf/1503.08895.pdf для языкового моделирования. См. Страницу 2 для схемы и верхнюю часть страницы 5 для раздела о позиционном или "временном" кодиро…
17 май '18 в 21:05
0 ответов

Использование theano для реализации обучения с максимальной вероятностью в языковой модели нейронной вероятности Python

Я пытаюсь реализовать изучение языка максимального правдоподобия для модели языка нейронной вероятности в Python из кода билинейной модели: https://github.com/wenjieguan/Log-bilinear-language-models/blob/master/lbl.py Я использовал функцию grad в th…
27 ноя '14 в 14:41
1 ответ

Получить следующее слово из биграмной модели по максимальной вероятности

Я хочу генерировать сонеты, используя nltk с биграммами. Я сгенерировал биграммы и вычислил вероятность каждой биграммы и сохранил их по умолчанию. [('"Let', defaultdict(<function <lambda>.<locals>.<lambda> at0x1a17f98bf8>, {…
21 сен '18 в 12:50
0 ответов

Учитывая набор документов по определенной теме, как мы можем использовать оценку максимального правдоподобия для создания тематической модели языка униграмм?

Я учусь Data Mining (читаю Управление текстовыми данными и анализ). Я застрял в вопросе, заданном автором, что: учитывая набор документов по определенной теме, как мы можем использовать оценку максимального правдоподобия для создания тематической мо…
04 авг '18 в 09:48
0 ответов

Tensorflow RNN: недоумение за эпоху остается постоянным

Я тренирую языковую модель на основе RNN с использованием Tensorflow. Модель очень похожа на пример модели PTB в разделе учебных пособий по TF. Однако, когда я пытаюсь обучить модель своим собственным данным, недоумение модели не уменьшается; оно ос…
1 ответ

Как рассчитать условное_распределение_распределения и условное_распределение_проблемности для триграмм в nltk python

Я хочу рассчитать условное распределение вероятностей для моей языковой модели, но не могу этого сделать, потому что мне нужно условное распределение частот, которое я не могу сгенерировать. Это мой код: # -*- coding: utf-8 -*- import io import nltk…
09 дек '16 в 10:06
1 ответ

Инкрементальная языковая модель обучения с помощью лингпайпа

Я пытаюсь тренировать DynamicLMClassifier.createNGramProcess(categories,nGram) на большом наборе данных> 20GB. В настоящее время я передаю весь учебный файл в виде строки для методов обучения, и по понятным причинам я получаю java.lang.OutOfMemoryEr…
30 мар '16 в 00:15
0 ответов

Запутанное повторное использование LSTM с сохранением состояния в языковом моделировании

Я видел github-коды базовой языковой модели https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py и пытался реализовать их для моего проекта. Он использует LSTM с сохранением состояния или сохраняет состояния lstm между п…
16 фев '19 в 16:22
3 ответа

Как создать окно / чанк для списка предложений?

У меня есть список предложений, и я хочу создать скипграмму (window size = 3) но я не хочу, чтобы счетчик охватывал предложения, поскольку все они не связаны между собой. Итак, если у меня есть предложения: [["my name is John"] , ["This PC is black"…
26 дек '18 в 07:39
1 ответ

Форма ввода для языковой модели Keras LSTM/GRU

Я пытаюсь обучить языковой модели на уровне слов в Керасе. У меня есть свои X и Y, оба с формой (90582L, 517L) Когда я пытаюсь соответствовать этой модели: print('Build model...') model = Sequential() model.add(GRU(512, return_sequences=True, input_…
07 июл '16 в 08:48
2 ответа

Создание файла языковой модели ARPA с 50000 слов

Я хочу создать файл языковой модели ARPA с почти 50000 слов. Я не могу сгенерировать языковую модель, передав свой текстовый файл в CMU Language Tool. Доступна ли какая-либо другая ссылка, где я могу получить модель языка для этих многих слов?
1 ответ

Как связать оценку языковой модели всего предложения с оценкой составляющих предложения

Я обучил языковой модели KENLM около 5000 английских предложений / параграфов. Я хочу запросить эту модель ARPA с двумя или более сегментами и посмотреть, можно ли их объединить, чтобы сформировать более длинное предложение, возможно, более "граммат…
02 апр '18 в 04:17
1 ответ

Как использовать n-граммы для классификации по нескольким меткам?

Я работаю над проектом по определению гражданства человека на основе того, как он общается на английском языке. У меня 10 национальностей и 1000 файлов, по 100 для каждой национальности. Я использую n-граммы в качестве функций и ищу подтверждения мо…
07 июн '17 в 15:48
3 ответа

Инструментарий языкового моделирования

Я хотел бы построить модель языка для текстового корпуса. Существуют ли хорошие готовые наборы инструментов, которые облегчат мою задачу? Единственный известный мне инструментарий - это набор инструментов для статистического моделирования языков (SL…
21 июл '10 в 13:52
1 ответ

Как настроить модель машинного перевода с огромной языковой моделью?

Moses программное обеспечение для построения моделей машинного перевода А также KenLM это программное обеспечение де-факто языковой модели, которое использует Моисей. У меня есть текстовый файл с 16 ГБ текста, и я использую его для построения языков…
1 ответ

Модель языка nltk TypeError:ngarms() получил неожиданный аргумент ключевого слова 'pad_symbol'

Я выполняю следующий код: from nltk.corpus import brown from nltk.model import Ngram lm = NgramModel(2, brown.words(categories='news'), estimator=None) Но я получил ошибку: Я действительно не знаю, почему у меня есть эта проблема; это ошибка в коде …
28 янв '16 в 01:37
0 ответов

При загрузке языковой модели KenLM для подсчета предложений размер файла LM должен быть меньше размера ОЗУ?

При загрузке языковой модели для оценки предложения должен ли размер файлов LM('bible.klm') быть меньше размера ОЗУ? import kenlm model = kenlm.LanguageModel('bible.klm') model.score('in the beginning was the word')
18 апр '17 в 07:48
1 ответ

TensorFlow: потери восстанавливаются после восстановления сети RNN

Информация об окружающей среде Операционная система: Windows 7 64-разрядная Tensorflow установлен из предварительно построенного пункта (без CUDA): 1.0.1 Python 3.5.2 64-битный проблема У меня проблемы с восстановлением сети (модель базового языка R…