Описание тега self-attention

Вопросы с тегом

1 ответ

Подача изображения в сложенные блоки resnet для создания вложения

У вас есть какой-нибудь пример кода или документ, который ссылается на что-то вроде следующей диаграммы? Я хочу знать, почему мы хотим складывать несколько блоков повторной сети, а не несколько сверточных блоков, как в более традиционных архитектура…

24 авг '21 в 07:10

0 ответов

Как использовать опцию Trax SelfAttention с несколькими головками?

Я играю с моделью из библиотеки Самовниманияtrax . когда я установил n_heads=1, все отлично работает. Но когда я установил n_heads=2, мой код ломается. Я использую только активации ввода и один слой SelfAttention. Вот минимальный код: import trax im…

nlp transformer-model attention-model self-attention trax

31 авг '21 в 02:30

1 ответ

Как рассчитать перекрестное внимание между трехмерным тензором и четырехмерным тензором? [закрыто]

В настоящее время я реализую одну из своих идей, которая включает в себя вычисление перекрестного внимания между трехмерным тензором и четырехмерным тензором. Я хочу добавить механизм внимания в установленный модуль абстракции PointNet++ добавьте пр…

python pytorch attention-model self-attention

09 сен '21 в 11:12

0 ответов

Зачем нам нужны «значение», «ключ» и «запрос» в слое внимания?

Я изучаю основные идеи о модели «Трансформатор». Основываясь на документе и учебнике, которые я видел, «Слой внимания» использует нейронную сеть для получения «значения», «ключа» и «запроса». Вот уровень внимания, который я узнал из Интернета. class…

deep-learning attention-model self-attention

11 окт '21 в 15:45

1 ответ

Вопрос о токенах, используемых в слоях внимания декодера Transformer во время логического вывода

Я смотрел на формы, используемые во время декодирования (как блоки самовнимания, так и enc-dec-Внимание), и понял, что есть разница в способе работы декодера во время обучения и во время вывода на и оригинального документа Attention. Inference, он и…

huggingface-transformers matrix-multiplication transformer-model attention-model self-attention

08 ноя '21 в 20:25

1 ответ

Как я могу изменить номера слоев самовнимания и количество многоголовых головок в моей модели с помощью Pytorch?

Я работаю над набором данных сарказма и своей моделью, как показано ниже: Сначала я токенизирую свой вводимый текст: PRETRAINED_MODEL_NAME = "roberta-base" from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained(PRETRAINED_M…

pytorch huggingface-transformers sentiment-analysis bert-language-model self-attention

25 ноя '21 в 17:28

1 ответ

ValueError: формы (None, 5) и (None, 15, 5) несовместимы

Я хочу реализовать механизм иерархического внимания для классификации документов, представленный Янгом. Но я хочу заменить LSTM на Transformer. Я использовал классификацию текста Апоорва Нандана с помощью Transformer:https://keras.io/examples/nlp/te…

python tensorflow keras self-attention

03 дек '21 в 13:50

1 ответ

Как реализовать иерархический преобразователь для классификации документов в Keras?

Механизм иерархического внимания для классификации документов был представлен Yang et al.https://www.cs.cmu.edu/~./hovy/papers/16HLT-hierarchical-attention-networks.pdf Его реализация доступна на https://github.com/ShawnyXiao/TextClassification-Kera…

keras deep-learning nlp transformer-model self-attention

08 дек '21 в 11:13

1 ответ

Какие преобразователи свойств используют для изображения или последовательности?

Сегодня мой учитель задал мне вопрос: он сказал, что CNN использует инвариантность трансляции изображений или матриц. Так какие же свойства использует трансформатор ???

conv-neural-network transformer-model self-attention

05 янв '22 в 10:54

0 ответов

Я хочу спросить вас о структуре «запрос, ключ, значение» «преобразователя»

Я новичок в НЛП. Итак, я пытаюсь воспроизвести самый простой код преобразователя, который вам нужен. Но у меня возник вопрос при выполнении. В слое MultiHeadAttention я распечатал форму «запрос, ключ, значение». Однако были напечатаны разные формы «…

pytorch nlp translation transformer-model self-attention

18 янв '22 в 06:10

1 ответ

Слой Keras MultiHeadAttention выдает IndexError: индекс кортежа вне диапазона

Я получаю эту ошибку снова и снова, пытаясь обратить внимание на 1D-векторы, я действительно не понимаю, почему это происходит, любая помощь будет очень признательна. layer = layers.MultiHeadAttention(num_heads=2, key_dim=2) target = tf.ones(shape=[…

python tensorflow keras attention-model self-attention

25 янв '22 в 17:34

0 ответов

Могут ли многоголовые преобразователи внимания только с одной головкой фокусироваться только на одном положении входа?

Я изучаю трансформер и не понимаю, как одна голова соответствует фокусу трансформера.

deep-learning recurrent-neural-network transformer-model self-attention

05 фев '22 в 12:51

1 ответ

Визуализация карт внимания Swin Transformer

Я использую Swin Transformer для иерархической проблемы классификации нескольких классов с несколькими метками. Я хотел бы визуализировать карты внимания к себе на моем входном изображении, пытаясь извлечь их из модели, к сожалению, мне не удается в…

maps visualization transformer-model explain self-attention

19 янв '22 в 19:11

0 ответов

Когда размеры партий разные, как определить размер wq, Wk и WV собственного внимания

Я планирую использовать самостоятельное внимание на мини-пакете pyG, размер wq, WK, WV должен быть [batch_nodes],[batch_num_nodes],[batch_num_nodes]. Однако сейчас возникла проблема. Поскольку количество узлов на каждой диаграмме Nini-Batch разное, …

batch-processing attention-model self-attention

02 мар '22 в 01:04

0 ответов

Застрял с реализацией самоконтроля

Реализация самоконтроля в тензорном потоке Keras с битовой модификацией (например, остаточное (добавить соединение)). У меня есть следующая форма ввода: мой ввод: KerasTensor(type_spec=TensorSpec(shape=(None, 8, 6, 64), dtype=tf.float32, name=None),…

python tensorflow2.0 tf.keras self-attention

28 янв '22 в 04:22

0 ответов

Почему в трансформаторе чем выше показатель внимания между двумя токенами, тем больше они похожи после последнего слоя?

В последнем слое само-внимания преобразователя кажется, что чем больше показатель внимания между двумя токенами, тем больше они будут похожи после этого слоя, т. е. они очень близки в векторном пространстве. Но я не знаю причины. Может ли кто-нибудь…

transformer-model self-attention

23 фев '22 в 15:25

0 ответов

Разница между прогнозируемыми и реальными значениями очень велика, но потери очень малы.

У меня есть данные трехмерного облака точек, содержащие N траекторий движения ячеек, и я хочу построить регрессионную модель для прогнозирования скорости движения ячеек. Я создал смоделированный набор данных и установил скорость движения ячейки 0,00…

deep-learning pytorch neural-network regression self-attention

03 мар '22 в 22:49

0 ответов

Разный номер узла в mini_batch

Я новичок в графических нейронных сетях, и я тренирую модель GNN, используя внимание к себе, и у меня есть несколько вопросов. Вопрос в том, что количество моих узлов и node_num различаются в каждой партии, так что в первой партии у меня есть: Пакет…

python pytorch-geometric self-attention

02 мар '22 в 02:35

1 ответ

Как обрабатывать тензорное умножение с размерностью Нет

Например, у меня есть 2 тензора A и B с размерностью (None, HWC), когда я использую tf.matmul(tf.transpose(A),B) Размер результата будет (HWC, HWC), это правильно, но я хочу сохранить размер None, чтобы он мог быть (None, HWC, HWC). Есть ли способ д…

python tensorflow computer-vision conv-neural-network self-attention

27 ноя '21 в 22:35

0 ответов

Маскировка MultiHeadAttention с тензорным потоком

Я пытался создать пользовательскую маску для целевых комбинаций запросов и ключей для моего слоя MultiHeadAttention, но не могу понять, как использовать эту маску слоя. Вот пример с фиктивным набором данных (размер пакета 1): key = tf.ones([1, 32 , …

tensorflow masking transformer-model self-attention

26 май '22 в 10:15