Описание тега attention-model

Вопросы с тегом

Questions regarding attention model mechanism in deep learning

1 ответ

Реализация tenorflow AttentionCellWrapper не выглядит правильным

Я наблюдаю за реализацией AttentionCellWrapper в Tensorflow, но я в замешательстве. Декодер Attention использует скрытые состояния исходной последовательности. Но в реализации Tensorflow ниже, потому что значения внимания, а именно скрытого состояни…

16 июн '17 в 02:33

0 ответов

Реализация иерархического внимания для классификации

Я пытаюсь реализовать документ "Иерархическое внимание" для классификации текста. Одна из проблем, с которыми я сталкиваюсь, заключается в том, как оптимизировать управление пакетами и обновлениями весов сети. Архитектура сети состоит из двух кодеро…

keras pytorch neural-network recurrent-neural-network attention-model

01 мар '18 в 19:59

0 ответов

Получить маску из индекса (top_k) в тензорном потоке

У меня есть два тензора, a и b, a - тензор top-k, b - тензор маски. форма a - это [batch_size, k], форма b - [batch_size * seq_len], dtype - это bool, все инициализируется как False. каждая строка a имеет k целых чисел, каждое целочисленное значение…

python tensorflow attention-model

20 ноя '18 в 16:12

0 ответов

Реализация внимания после слоя CONV и идет не так с большим количеством значений нан

Что-то не так с моей реализацией внимания, потому что я получаю много значений nan. И мое намерение состоит в том, чтобы приложить внимание перед подачей в слой FC после слоя max-pool CNN. Форма ввода -> (10 X 500) <- вывод CNN 2D, а НЕ 3D из RNN Фо…

tensorflow conv-neural-network attention-model

03 дек '18 в 23:59

0 ответов

Пользовательский слой Внимание в Керасе

Я работаю над проблемой, в которой есть пары вопросов и ответов и метка (0,1), обозначающая, имеет ли ответ отношение к вопросу. На каждый вопрос у меня есть 9 ответов с меткой 0 и только 1 ответ с меткой 1. Я пытаюсь реализовать настраиваемую рекур…

python keras rnn attention-model

19 дек '18 в 13:01

0 ответов

Каким должен быть правильный размер вывода слоя внимания?

Я строю модель слоя внимания LSTM+. Согласно моему пониманию слой внимания присваивает веса каждому слову входной последовательности. Следовательно, вывод уровня внимания должен быть (Нет,280). Тем не менее, я получаю (Нет, 240), что означает, что у…

deep-learning attention-model

04 янв '19 в 07:48

0 ответов

Модель внимания Кераса: как динамически выделять векторы из вектора внимания

Я повторяю слово за словом модель внимания, написанную в Керасе. У меня есть два примера ввода, input1 размер: [размер партии *21*100], input2 Размер: [размер партии *2]. По сути, input1 - это пара пар предложений, input2 - список позиций токена, ка…

keras theano attention-model

10 окт '17 в 22:07

2 ответа

Keras: Как отобразить вес внимания в модели LSTM

Я сделал модель классификации текста, используя LSTM со слоем внимания. Я сделал свою модель хорошо, она работает хорошо, но я не могу отобразить вес внимания и важность / внимание каждого слова в обзоре (входной текст). Код, используемый для этой м…

python keras lstm text-classification attention-model

03 сен '18 в 14:50

0 ответов

Точность теста Tensorflow LSTM не сдвинется с места

У меня были проблемы с LSTM в Tensorflow уже несколько недель, и у меня нет идей, как исправить мою ситуацию. Мои данные - это группа групп текстов. В каждой группе есть 3 текста, и я пытаюсь заставить сеть ранжировать тексты внутри группы, использу…

python tensorflow deep-learning lstm attention-model

14 фев '19 в 03:45

2 ответа

Почему softmax получает небольшой градиент, когда значение в бумаге большое "Внимание - это все, что вам нужно"

Это экран оригинальной бумаги: экран бумаги. Я понимаю, что смысл статьи в том, что когда значение точечного произведения велико, градиент softmax будет очень малым.Однако я попытался вычислить градиент softmax с потерей перекрестной энтропии и обна…

deep-learning nlp softmax attention-model

27 фев '19 в 12:42

0 ответов

Взвешенная маска / корректировка веса в керасе

Я хочу предоставить маску того же размера, что и входное изображение, и откорректировать веса, извлеченные из изображения, в соответствии с этой маской (аналогично вниманию, но предварительно рассчитанному для каждого входного изображения). Как я мо…

tensorflow keras conv-neural-network attention-model

27 фев '19 в 13:43

0 ответов

ValueError с вниманием Dimension1 в обеих формах должен быть одинаковым

Привет вместе У меня есть проблема, я использую Python 3.6.5 и tenorflow 1.8.0. Мой ввод 1000 max_textlength * 64 вложения * 4 шага и 3 протоколла = 64007 нейронный номер = 10 нормальный RNN работает, но я хотел улучшить его attentioncellwrapper(neu…

python tensorflow error-handling valueerror attention-model

13 дек '18 в 19:45

0 ответов

Механизм внимания в модели исправления орфографии

Я пытаюсь проверить механизм внимания в этом коде (на основе работы MajorTal): def generate_model(output_len, chars=None): """Generate the model""" print('Build model...') chars = chars or CHARS model = Sequential() # "Encode" the input sequence usi…

keras lstm attention-model encoder-decoder spelling

15 янв '18 в 01:59

1 ответ

Как использовать вывод обертки внимания, примененный к LSTM, в качестве входных данных для слоя TimeDistributed, Keras?

Я пытался реализовать оболочку внимания на выходе модели LSTM, показанной в этом уроке обучения машинного обучения: from numpy import array from keras.models import Sequential from keras.layers import Dense from keras.layers import TimeDistributed f…

python keras lstm valueerror attention-model

02 дек '17 в 13:13

0 ответов

Использование модели Attention-OCR (тензор / исследование) для извлечения конкретной информации из отсканированных документов

У меня есть несколько вопросов относительно модели Attention-OCR, описанной в этом документе: https://arxiv.org/pdf/1704.03549.pdf Некоторый контекст Моя цель - дать возможность Attention-OCR узнать, где искать и читать конкретную информацию в отска…

python tensorflow attention-model

09 ноя '17 в 07:33

1 ответ

AttributeError: у объекта 'Tensor' нет атрибута 'assign' в модели внимания

Я пытаюсь построить модель классификации документов с вниманием, используя керасы (часть модели в бумажных иерархических сетях внимания для классификации документов). Следующие коды являются тестовыми кодами. Я создаю birnn и пользовательский слой в…

tensorflow keras deep-learning recurrent-neural-network rnn attention-model

20 авг '18 в 23:47

0 ответов

Как я могу добавить карту визуального внимания к сети?

У меня есть метод, который показывает, где приблизительно сфокусироваться на данном изображении, то есть это не метки локализации или сегментации, а просто тепловая карта, которая показывает, где, вероятно, находится то, что я ищу на изображении. Я …

neural-network conv-neural-network heatmap attention-model

12 окт '18 в 14:35

0 ответов

Обнаружение объектов с использованием модели внимания

Я использую Attention Model для обнаружения объекта на снимке с камеры. Я следил за шоу-присутствовать-и-рассказать (генерация подписи). Но могу ли я найти точное местоположение объекта на изображении, используя функцию show-автосервис и скажите (ге…

python-3.x machine-learning computer-vision attention-model

31 окт '17 в 14:21

0 ответов

В чем смысл "сети прямой передачи данных" в модели трансформатора?

В настоящее время я читаю Google. Внимание - это все, что вам нужно, и я не могу понять, какую роль играет слой с прямой связью. Я знаю, что это всего лишь два сверточных слоя 1*1, собранные вместе, и эта статья стремилась избежать использования CNN…

machine-learning deep-learning nlp attention-model encoder-decoder

06 ноя '18 в 02:05

0 ответов

Конкатенация скрытых состояний / ячеек / выходов кодировщика из разных источников для расчета внимания - проблемы?

Я использую Pytorch для задачи предсказания последовательности-последовательности LSTM-кодера-декодера. В качестве первого шага я хотел бы прогнозировать двухмерные траектории (траектория x, траектория y) из многомерного ввода - 2-D или более (траек…

deep-learning conv-neural-network recurrent-neural-network attention-model seq2seq

23 июл '18 в 07:38