Описание тега perplexity

Недоумение - это мера того, насколько хорошо распределение вероятностей или вероятностная модель предсказывает выборку.
0 ответов

Рассчитайте растерянность с Sklearn и NumPy вместо Keras

В чем разница (математически) между этими двумя фрагментами кода? На самом деле я хочу построить функцию недоумения без вызовов функций Keras/Tensorflow. В то время как версия Keras/tf дает хорошие результаты, версия numpy/sklearn не дает. Для того …
1 ответ

Расчет проблем с запутанностью и памятью в Keras/Tensorflow

Я хотел бы оценивать свою модель с недоумением после каждой тренировочной эпохи. Я использую Keras с бэкэндом Tensorflow. Проблема в том, что после каждой оценки все больше и больше памяти используется, но никогда не освобождается. Так что после нес…
30 дек '18 в 14:17
3 ответа

Как вычислить растерянность, используя KenLM?

Допустим, мы строим модель на этом: $ wget https://gist.githubusercontent.com/alvations/1c1b388456dc3760ffb487ce950712ac/raw/86cdf7de279a2b9bceeb3adb481e42691d12fbba/something.txt $ lmplz -o 5 < something.txt > something.arpa Из формулы недоум…
08 май '17 в 06:52
0 ответов

Оценка недоумения на модели Keras LSTM для языка

Я создал языковую модель, используя эту сеть LST: w2v_model = gensim.models.Word2Vec(sentences, size=150, window=4, min_count=2, workers=10) pretrained_weights = w2v_model.wv.syn0 vocab_size, emdedding_size = pretrained_weights.shape keras_lstm_mode…
09 окт '18 в 09:19
1 ответ

Проверьте недоумение языковой модели

Я создал языковую модель с Keras LSTM, и теперь я хочу оценить, хорошо ли это, поэтому я хочу вычислить недоумение. Каков наилучший способ расчета сложности модели в Python?
28 ноя '18 в 08:56
0 ответов

НЛТК каль недоумение биграмма / триграммы

Я тренирую Бграм, триграмму: bgram = bigrams(sentences) trigram = trigrams(sentences) И хочу подсчитать недоумение p = bgram.perplexity Но получите ошибку: AttributeError: объект "генератор" не имеет атрибута "недоумение" Как следует рассчитывать не…
09 окт '18 в 12:02
0 ответов

Sk-Learn LDA для извлечения темы, недоумения и оценки

Всем привет! Помимо проекта, мне нужно создать классификатор текста с помеченными данными, которые у меня есть. Точка данных состоит из одного предложения и одной из 3 категорий для каждого предложения. Я извлек 5 тем из этой базы данных с LDA. Я хо…
2 ответа

Python: обработка больших чисел

Мне нужно посчитать недоумение, и я пытаюсь сделать это с def get_perplexity(test_set, model): perplexity = 1 n = 0 for word in test_set: n += 1 perplexity = perplexity * 1 / get_prob(model, word) perplexity = pow(perplexity, 1/float(n)) return perp…
16 дек '18 в 17:53
0 ответов

Получение ошибки при выполнении функции недоумения для оценки модели LDA

Я пытаюсь оценить тему моделирования (LDA). Получение ошибки при представлении функции недоумения как: Ошибка в (функция (классы, fdef, mtable): невозможно найти унаследованный метод для функции 'недоумение' для подписи '' LDA_Gibbs ',' numeric '', …
28 июл '18 в 00:03
0 ответов

Расчет растерянности с обученными н-граммами

У меня есть несколько натренированных n(2, 3, 4, 5)-грамм, например: Frequency trigrams 43 the more abstract 34 the more accessible 74 the more accurate 56 the more active 131 the more advanced 25 the more adventurous Как рассчитать недоумение новог…
01 июн '17 в 07:03
1 ответ

Расчеты недоумения растут между каждым значительным падением

Я тренирую разговорный агент, используя LSTM и модель перевода tenorflow. Я использую периодическое обучение, что приводит к значительному снижению сложности тренировочных данных после начала каждой эпохи. Это падение можно объяснить тем, как я счит…
1 ответ

Определение log_perplexity с использованием ldamulticore для оптимального количества тем

Я пытаюсь определить оптимальное количество тем для моей модели LDA, используя логику в python. То есть я строю график сложности журнала для ряда тем и определяю минимальную степень сложности. Однако график, который я получил, имеет отрицательные зн…
27 июн '17 в 18:37
0 ответов

Scikit LDA: выбор оптимального количества тем - оценка недоумения

Этот пост рассматривается как вклад и попытка разработать скрипт для выбора оптимального количества тем в модели LDA в Scikit-Learn. По сравнению с gensim, у меня было немного проблем с поиском метода для определения оптимального числа. Согласно лит…
03 авг '18 в 12:07
0 ответов

t-sne растерянность для небольшого набора данных

Я использую t-SNE для визуализации данных цитометрии. Большинство руководств, которые я нашел ( https://distill.pub/2016/misread-tsne/), предупреждают, как выбор гиперпараметра недоумения может повлиять на результат. Тем не менее, мой размер набора …
1 ответ

Как оценка языковой модели работает с неизвестными словами?

Таким образом, для построения языковых моделей менее часто встречающиеся слова, превышающие размер словаря, заменяются на "UNK". У меня вопрос, как оценить такие языковые модели, которые оценивают вероятности на основе "UNK"? Скажем, мы хотим оценит…
12 окт '17 в 15:03
0 ответов

Как рассчитать растерянность для LDA с выборкой Гиббса

Я выполняю тематическую модель LDA в R на коллекции из 200+ документов (всего 65 тыс. Слов). Документы были предварительно обработаны и хранятся в матрице условий документа dtm, Теоретически, я должен ожидать найти 5 различных тем в корпусе, но я хо…
09 июл '18 в 18:04
1 ответ

Как интерпретировать оценку недоумения Sklearn LDA. Почему оно всегда увеличивается по мере увеличения количества тем?

Я пытаюсь найти оптимальное количество тем, используя LDA модель sklearn. Для этого я рассчитываю растерянность, ссылаясь на код на https://gist.github.com/tmylk/b71bf7d3ec2f203bfce2. Но когда я увеличиваю количество тем, растерянность всегда увелич…
13 авг '17 в 07:08
1 ответ

Как может сложность языковой модели быть между 0 и 1?

В Tensorflow я получаю выходные данные, такие как 0,602129 или 0,663941. Похоже, что значения ближе к 0 подразумевают лучшую модель, но кажется, что недоумение предполагается рассчитать как 2^ потери, что означает, что потери являются отрицательными…
0 ответов

Отрицательное бревно в Генсим ldamodel

Я использую ldamodel от gensim в python для создания тематических моделей для моего корпуса. Чтобы оценить мою модель и настроить гиперпараметры, я планирую использовать log_perplexity в качестве метрики оценки. Однако вычисление log_perplexity (с и…
20 авг '18 в 21:49
1 ответ

Разве Tensorflow RNN PTB учебный тест измерения и сброса состояния неправильно?

У меня есть два вопроса по учебному коду Tensorflow PTB RNN ptb_word_lm.py. Блоки кода ниже взяты из кода. Можно ли сбрасывать состояние для каждой партии? self._initial_state = cell.zero_state(batch_size, data_type()) with tf.device("/cpu:0"): embe…