Описание тега language-model

Вопросы с тегом

0 ответов

Проблемы генерации нграмм

У меня есть следующий объект data.table trigramTable_sample ngram queryWord predict 1: the_poststamp_there the_poststamp there 2: seeing_these_big-time seeing_these big-time 3: gainey_is_14-under gainey_is 14-under 4: good_as_notepad good_as notepad…

r language-model

15 мар '18 в 01:24

1 ответ

Параметр командной строки в word2vec

Я хочу использовать word2vec для создания собственного словесного векторного корпуса с текущей версией английской википедии, но не могу найти объяснение параметра командной строки для использования этой программы. В demp-скрипте вы можете найти след…

nlp word2vec language-model

08 июн '15 в 13:14

0 ответов

Позиционное кодирование приводит к ухудшению конвергенции, языкового моделирования

Это сложный вопрос, но я мог бы попробовать. Я реализую архитектуру из этой статьи https://arxiv.org/pdf/1503.08895.pdf для языкового моделирования. См. Страницу 2 для схемы и верхнюю часть страницы 5 для раздела о позиционном или "временном" кодиро…

python keras encoding position language-model

17 май '18 в 21:05

0 ответов

Использование theano для реализации обучения с максимальной вероятностью в языковой модели нейронной вероятности Python

Я пытаюсь реализовать изучение языка максимального правдоподобия для модели языка нейронной вероятности в Python из кода билинейной модели: https://github.com/wenjieguan/Log-bilinear-language-models/blob/master/lbl.py Я использовал функцию grad в th…

python language-model

27 ноя '14 в 14:41

1 ответ

Получить следующее слово из биграмной модели по максимальной вероятности

Я хочу генерировать сонеты, используя nltk с биграммами. Я сгенерировал биграммы и вычислил вероятность каждой биграммы и сохранил их по умолчанию. [('"Let', defaultdict(<function <lambda>.<locals>.<lambda> at0x1a17f98bf8>, {…

python nltk defaultdict language-model

21 сен '18 в 12:50

0 ответов

Учитывая набор документов по определенной теме, как мы можем использовать оценку максимального правдоподобия для создания тематической модели языка униграмм?

Я учусь Data Mining (читаю Управление текстовыми данными и анализ). Я застрял в вопросе, заданном автором, что: учитывая набор документов по определенной теме, как мы можем использовать оценку максимального правдоподобия для создания тематической мо…

data-mining language-model

04 авг '18 в 09:48

0 ответов

Tensorflow RNN: недоумение за эпоху остается постоянным

Я тренирую языковую модель на основе RNN с использованием Tensorflow. Модель очень похожа на пример модели PTB в разделе учебных пособий по TF. Однако, когда я пытаюсь обучить модель своим собственным данным, недоумение модели не уменьшается; оно ос…

tensorflow nlp neural-network recurrent-neural-network language-model

04 май '17 в 08:11

1 ответ

Как рассчитать условное_распределение_распределения и условное_распределение_проблемности для триграмм в nltk python

Я хочу рассчитать условное распределение вероятностей для моей языковой модели, но не могу этого сделать, потому что мне нужно условное распределение частот, которое я не могу сгенерировать. Это мой код: # -*- coding: utf-8 -*- import io import nltk…

python nltk language-model trigram

09 дек '16 в 10:06

1 ответ

Инкрементальная языковая модель обучения с помощью лингпайпа

Я пытаюсь тренировать DynamicLMClassifier.createNGramProcess(categories,nGram) на большом наборе данных> 20GB. В настоящее время я передаю весь учебный файл в виде строки для методов обучения, и по понятным причинам я получаю java.lang.OutOfMemoryEr…

java nlp language-model lingpipe

30 мар '16 в 00:15

0 ответов

Запутанное повторное использование LSTM с сохранением состояния в языковом моделировании

Я видел github-коды базовой языковой модели https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py и пытался реализовать их для моего проекта. Он использует LSTM с сохранением состояния или сохраняет состояния lstm между п…

python tensorflow language-model

16 фев '19 в 16:22

3 ответа

Как создать окно / чанк для списка предложений?

У меня есть список предложений, и я хочу создать скипграмму (window size = 3) но я не хочу, чтобы счетчик охватывал предложения, поскольку все они не связаны между собой. Итак, если у меня есть предложения: [["my name is John"] , ["This PC is black"…

python nlp nltk n-gram language-model

26 дек '18 в 07:39

1 ответ

Форма ввода для языковой модели Keras LSTM/GRU

Я пытаюсь обучить языковой модели на уровне слов в Керасе. У меня есть свои X и Y, оба с формой (90582L, 517L) Когда я пытаюсь соответствовать этой модели: print('Build model...') model = Sequential() model.add(GRU(512, return_sequences=True, input_…

python keras nlp lstm language-model

07 июл '16 в 08:48

2 ответа

Создание файла языковой модели ARPA с 50000 слов

Я хочу создать файл языковой модели ARPA с почти 50000 слов. Я не могу сгенерировать языковую модель, передав свой текстовый файл в CMU Language Tool. Доступна ли какая-либо другая ссылка, где я могу получить модель языка для этих многих слов?

speech-recognition n-gram cmusphinx language-model

21 апр '11 в 11:24

1 ответ

Как связать оценку языковой модели всего предложения с оценкой составляющих предложения

Я обучил языковой модели KENLM около 5000 английских предложений / параграфов. Я хочу запросить эту модель ARPA с двумя или более сегментами и посмотреть, можно ли их объединить, чтобы сформировать более длинное предложение, возможно, более "граммат…

python nlp language-model kenlm

02 апр '18 в 04:17

1 ответ

Как использовать n-граммы для классификации по нескольким меткам?

Я работаю над проектом по определению гражданства человека на основе того, как он общается на английском языке. У меня 10 национальностей и 1000 файлов, по 100 для каждой национальности. Я использую n-граммы в качестве функций и ищу подтверждения мо…

nlp classification n-gram language-model

07 июн '17 в 15:48

3 ответа

Инструментарий языкового моделирования

Я хотел бы построить модель языка для текстового корпуса. Существуют ли хорошие готовые наборы инструментов, которые облегчат мою задачу? Единственный известный мне инструментарий - это набор инструментов для статистического моделирования языков (SL…

python java machine-learning language-model

21 июл '10 в 13:52

1 ответ

Как настроить модель машинного перевода с огромной языковой моделью?

Moses программное обеспечение для построения моделей машинного перевода А также KenLM это программное обеспечение де-факто языковой модели, которое использует Моисей. У меня есть текстовый файл с 16 ГБ текста, и я использую его для построения языков…

nlp n-gram machine-translation language-model moses

25 апр '15 в 19:20

1 ответ

Модель языка nltk TypeError:ngarms() получил неожиданный аргумент ключевого слова 'pad_symbol'

Я выполняю следующий код: from nltk.corpus import brown from nltk.model import Ngram lm = NgramModel(2, brown.words(categories='news'), estimator=None) Но я получил ошибку: Я действительно не знаю, почему у меня есть эта проблема; это ошибка в коде …

python nlp nltk n-gram language-model

28 янв '16 в 01:37

0 ответов

При загрузке языковой модели KenLM для подсчета предложений размер файла LM должен быть меньше размера ОЗУ?

При загрузке языковой модели для оценки предложения должен ли размер файлов LM('bible.klm') быть меньше размера ОЗУ? import kenlm model = kenlm.LanguageModel('bible.klm') model.score('in the beginning was the word')

memory nlp language-model kenlm

18 апр '17 в 07:48

1 ответ

TensorFlow: потери восстанавливаются после восстановления сети RNN

Информация об окружающей среде Операционная система: Windows 7 64-разрядная Tensorflow установлен из предварительно построенного пункта (без CUDA): 1.0.1 Python 3.5.2 64-битный проблема У меня проблемы с восстановлением сети (модель базового языка R…

tensorflow recurrent-neural-network language-model

26 апр '17 в 23:36