Описание тега self-attention

1 ответ

Подача изображения в сложенные блоки resnet для создания вложения

У вас есть какой-нибудь пример кода или документ, который ссылается на что-то вроде следующей диаграммы? Я хочу знать, почему мы хотим складывать несколько блоков повторной сети, а не несколько сверточных блоков, как в более традиционных архитектура…
0 ответов

Как использовать опцию Trax SelfAttention с несколькими головками?

Я играю с моделью из библиотеки Самовниманияtrax . когда я установил n_heads=1, все отлично работает. Но когда я установил n_heads=2, мой код ломается. Я использую только активации ввода и один слой SelfAttention. Вот минимальный код: import trax im…
1 ответ

Как рассчитать перекрестное внимание между трехмерным тензором и четырехмерным тензором? [закрыто]

В настоящее время я реализую одну из своих идей, которая включает в себя вычисление перекрестного внимания между трехмерным тензором и четырехмерным тензором. Я хочу добавить механизм внимания в установленный модуль абстракции PointNet++ добавьте пр…
09 сен '21 в 11:12
0 ответов

Зачем нам нужны «значение», «ключ» и «запрос» в слое внимания?

Я изучаю основные идеи о модели «Трансформатор». Основываясь на документе и учебнике, которые я видел, «Слой внимания» использует нейронную сеть для получения «значения», «ключа» и «запроса». Вот уровень внимания, который я узнал из Интернета. class…
1 ответ

Вопрос о токенах, используемых в слоях внимания декодера Transformer во время логического вывода

Я смотрел на формы, используемые во время декодирования (как блоки самовнимания, так и enc-dec-Внимание), и понял, что есть разница в способе работы декодера во время обучения и во время вывода на и оригинального документа Attention. Inference, он и…
1 ответ

Как я могу изменить номера слоев самовнимания и количество многоголовых головок в моей модели с помощью Pytorch?

Я работаю над набором данных сарказма и своей моделью, как показано ниже: Сначала я токенизирую свой вводимый текст: PRETRAINED_MODEL_NAME = "roberta-base" from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained(PRETRAINED_M…
1 ответ

ValueError: формы (None, 5) и (None, 15, 5) несовместимы

Я хочу реализовать механизм иерархического внимания для классификации документов, представленный Янгом. Но я хочу заменить LSTM на Transformer. Я использовал классификацию текста Апоорва Нандана с помощью Transformer:https://keras.io/examples/nlp/te…
03 дек '21 в 13:50
1 ответ

Как реализовать иерархический преобразователь для классификации документов в Keras?

Механизм иерархического внимания для классификации документов был представлен Yang et al.https://www.cs.cmu.edu/~./hovy/papers/16HLT-hierarchical-attention-networks.pdf Его реализация доступна на https://github.com/ShawnyXiao/TextClassification-Kera…
1 ответ

Какие преобразователи свойств используют для изображения или последовательности?

Сегодня мой учитель задал мне вопрос: он сказал, что CNN использует инвариантность трансляции изображений или матриц. Так какие же свойства использует трансформатор ???
0 ответов

Я хочу спросить вас о структуре «запрос, ключ, значение» «преобразователя»

Я новичок в НЛП. Итак, я пытаюсь воспроизвести самый простой код преобразователя, который вам нужен. Но у меня возник вопрос при выполнении. В слое MultiHeadAttention я распечатал форму «запрос, ключ, значение». Однако были напечатаны разные формы «…
1 ответ

Слой Keras MultiHeadAttention выдает IndexError: индекс кортежа вне диапазона

Я получаю эту ошибку снова и снова, пытаясь обратить внимание на 1D-векторы, я действительно не понимаю, почему это происходит, любая помощь будет очень признательна. layer = layers.MultiHeadAttention(num_heads=2, key_dim=2) target = tf.ones(shape=[…
0 ответов
1 ответ

Визуализация карт внимания Swin Transformer

Я использую Swin Transformer для иерархической проблемы классификации нескольких классов с несколькими метками. Я хотел бы визуализировать карты внимания к себе на моем входном изображении, пытаясь извлечь их из модели, к сожалению, мне не удается в…
0 ответов

Когда размеры партий разные, как определить размер wq, Wk и WV собственного внимания

Я планирую использовать самостоятельное внимание на мини-пакете pyG, размер wq, WK, WV должен быть [batch_nodes],[batch_num_nodes],[batch_num_nodes]. Однако сейчас возникла проблема. Поскольку количество узлов на каждой диаграмме Nini-Batch разное, …
0 ответов

Застрял с реализацией самоконтроля

Реализация самоконтроля в тензорном потоке Keras с битовой модификацией (например, остаточное (добавить соединение)). У меня есть следующая форма ввода: мой ввод: KerasTensor(type_spec=TensorSpec(shape=(None, 8, 6, 64), dtype=tf.float32, name=None),…
28 янв '22 в 04:22
0 ответов

Почему в трансформаторе чем выше показатель внимания между двумя токенами, тем больше они похожи после последнего слоя?

В последнем слое само-внимания преобразователя кажется, что чем больше показатель внимания между двумя токенами, тем больше они будут похожи после этого слоя, т. е. они очень близки в векторном пространстве. Но я не знаю причины. Может ли кто-нибудь…
23 фев '22 в 15:25
0 ответов

Разница между прогнозируемыми и реальными значениями очень велика, но потери очень малы.

У меня есть данные трехмерного облака точек, содержащие N траекторий движения ячеек, и я хочу построить регрессионную модель для прогнозирования скорости движения ячеек. Я создал смоделированный набор данных и установил скорость движения ячейки 0,00…
0 ответов

Разный номер узла в mini_batch

Я новичок в графических нейронных сетях, и я тренирую модель GNN, используя внимание к себе, и у меня есть несколько вопросов. Вопрос в том, что количество моих узлов и node_num различаются в каждой партии, так что в первой партии у меня есть: Пакет…
02 мар '22 в 02:35
1 ответ

Как обрабатывать тензорное умножение с размерностью Нет

Например, у меня есть 2 тензора A и B с размерностью (None, HWC), когда я использую tf.matmul(tf.transpose(A),B) Размер результата будет (HWC, HWC), это правильно, но я хочу сохранить размер None, чтобы он мог быть (None, HWC, HWC). Есть ли способ д…
0 ответов

Маскировка MultiHeadAttention с тензорным потоком

Я пытался создать пользовательскую маску для целевых комбинаций запросов и ключей для моего слоя MultiHeadAttention, но не могу понять, как использовать эту маску слоя. Вот пример с фиктивным набором данных (размер пакета 1): key = tf.ones([1, 32 , …