Описание тега attention-model
Questions regarding attention model mechanism in deep learning
1
ответ
Реализация tenorflow AttentionCellWrapper не выглядит правильным
Я наблюдаю за реализацией AttentionCellWrapper в Tensorflow, но я в замешательстве. Декодер Attention использует скрытые состояния исходной последовательности. Но в реализации Tensorflow ниже, потому что значения внимания, а именно скрытого состояни…
16 июн '17 в 02:33
0
ответов
Реализация иерархического внимания для классификации
Я пытаюсь реализовать документ "Иерархическое внимание" для классификации текста. Одна из проблем, с которыми я сталкиваюсь, заключается в том, как оптимизировать управление пакетами и обновлениями весов сети. Архитектура сети состоит из двух кодеро…
01 мар '18 в 19:59
0
ответов
Получить маску из индекса (top_k) в тензорном потоке
У меня есть два тензора, a и b, a - тензор top-k, b - тензор маски. форма a - это [batch_size, k], форма b - [batch_size * seq_len], dtype - это bool, все инициализируется как False. каждая строка a имеет k целых чисел, каждое целочисленное значение…
20 ноя '18 в 16:12
0
ответов
Реализация внимания после слоя CONV и идет не так с большим количеством значений нан
Что-то не так с моей реализацией внимания, потому что я получаю много значений nan. И мое намерение состоит в том, чтобы приложить внимание перед подачей в слой FC после слоя max-pool CNN. Форма ввода -> (10 X 500) <- вывод CNN 2D, а НЕ 3D из RNN Фо…
03 дек '18 в 23:59
0
ответов
Пользовательский слой Внимание в Керасе
Я работаю над проблемой, в которой есть пары вопросов и ответов и метка (0,1), обозначающая, имеет ли ответ отношение к вопросу. На каждый вопрос у меня есть 9 ответов с меткой 0 и только 1 ответ с меткой 1. Я пытаюсь реализовать настраиваемую рекур…
19 дек '18 в 13:01
0
ответов
Каким должен быть правильный размер вывода слоя внимания?
Я строю модель слоя внимания LSTM+. Согласно моему пониманию слой внимания присваивает веса каждому слову входной последовательности. Следовательно, вывод уровня внимания должен быть (Нет,280). Тем не менее, я получаю (Нет, 240), что означает, что у…
04 янв '19 в 07:48
0
ответов
Модель внимания Кераса: как динамически выделять векторы из вектора внимания
Я повторяю слово за словом модель внимания, написанную в Керасе. У меня есть два примера ввода, input1 размер: [размер партии *21*100], input2 Размер: [размер партии *2]. По сути, input1 - это пара пар предложений, input2 - список позиций токена, ка…
10 окт '17 в 22:07
2
ответа
Keras: Как отобразить вес внимания в модели LSTM
Я сделал модель классификации текста, используя LSTM со слоем внимания. Я сделал свою модель хорошо, она работает хорошо, но я не могу отобразить вес внимания и важность / внимание каждого слова в обзоре (входной текст). Код, используемый для этой м…
03 сен '18 в 14:50
0
ответов
Точность теста Tensorflow LSTM не сдвинется с места
У меня были проблемы с LSTM в Tensorflow уже несколько недель, и у меня нет идей, как исправить мою ситуацию. Мои данные - это группа групп текстов. В каждой группе есть 3 текста, и я пытаюсь заставить сеть ранжировать тексты внутри группы, использу…
14 фев '19 в 03:45
2
ответа
Почему softmax получает небольшой градиент, когда значение в бумаге большое "Внимание - это все, что вам нужно"
Это экран оригинальной бумаги: экран бумаги. Я понимаю, что смысл статьи в том, что когда значение точечного произведения велико, градиент softmax будет очень малым.Однако я попытался вычислить градиент softmax с потерей перекрестной энтропии и обна…
27 фев '19 в 12:42
0
ответов
Взвешенная маска / корректировка веса в керасе
Я хочу предоставить маску того же размера, что и входное изображение, и откорректировать веса, извлеченные из изображения, в соответствии с этой маской (аналогично вниманию, но предварительно рассчитанному для каждого входного изображения). Как я мо…
27 фев '19 в 13:43
0
ответов
ValueError с вниманием Dimension1 в обеих формах должен быть одинаковым
Привет вместе У меня есть проблема, я использую Python 3.6.5 и tenorflow 1.8.0. Мой ввод 1000 max_textlength * 64 вложения * 4 шага и 3 протоколла = 64007 нейронный номер = 10 нормальный RNN работает, но я хотел улучшить его attentioncellwrapper(neu…
13 дек '18 в 19:45
0
ответов
Механизм внимания в модели исправления орфографии
Я пытаюсь проверить механизм внимания в этом коде (на основе работы MajorTal): def generate_model(output_len, chars=None): """Generate the model""" print('Build model...') chars = chars or CHARS model = Sequential() # "Encode" the input sequence usi…
15 янв '18 в 01:59
1
ответ
Как использовать вывод обертки внимания, примененный к LSTM, в качестве входных данных для слоя TimeDistributed, Keras?
Я пытался реализовать оболочку внимания на выходе модели LSTM, показанной в этом уроке обучения машинного обучения: from numpy import array from keras.models import Sequential from keras.layers import Dense from keras.layers import TimeDistributed f…
02 дек '17 в 13:13
0
ответов
Использование модели Attention-OCR (тензор / исследование) для извлечения конкретной информации из отсканированных документов
У меня есть несколько вопросов относительно модели Attention-OCR, описанной в этом документе: https://arxiv.org/pdf/1704.03549.pdf Некоторый контекст Моя цель - дать возможность Attention-OCR узнать, где искать и читать конкретную информацию в отска…
09 ноя '17 в 07:33
1
ответ
AttributeError: у объекта 'Tensor' нет атрибута 'assign' в модели внимания
Я пытаюсь построить модель классификации документов с вниманием, используя керасы (часть модели в бумажных иерархических сетях внимания для классификации документов). Следующие коды являются тестовыми кодами. Я создаю birnn и пользовательский слой в…
20 авг '18 в 23:47
0
ответов
Как я могу добавить карту визуального внимания к сети?
У меня есть метод, который показывает, где приблизительно сфокусироваться на данном изображении, то есть это не метки локализации или сегментации, а просто тепловая карта, которая показывает, где, вероятно, находится то, что я ищу на изображении. Я …
12 окт '18 в 14:35
0
ответов
Обнаружение объектов с использованием модели внимания
Я использую Attention Model для обнаружения объекта на снимке с камеры. Я следил за шоу-присутствовать-и-рассказать (генерация подписи). Но могу ли я найти точное местоположение объекта на изображении, используя функцию show-автосервис и скажите (ге…
31 окт '17 в 14:21
0
ответов
В чем смысл "сети прямой передачи данных" в модели трансформатора?
В настоящее время я читаю Google. Внимание - это все, что вам нужно, и я не могу понять, какую роль играет слой с прямой связью. Я знаю, что это всего лишь два сверточных слоя 1*1, собранные вместе, и эта статья стремилась избежать использования CNN…
06 ноя '18 в 02:05
0
ответов
Конкатенация скрытых состояний / ячеек / выходов кодировщика из разных источников для расчета внимания - проблемы?
Я использую Pytorch для задачи предсказания последовательности-последовательности LSTM-кодера-декодера. В качестве первого шага я хотел бы прогнозировать двухмерные траектории (траектория x, траектория y) из многомерного ввода - 2-D или более (траек…
23 июл '18 в 07:38