Описание тега self-attention
1
ответ
Подача изображения в сложенные блоки resnet для создания вложения
У вас есть какой-нибудь пример кода или документ, который ссылается на что-то вроде следующей диаграммы? Я хочу знать, почему мы хотим складывать несколько блоков повторной сети, а не несколько сверточных блоков, как в более традиционных архитектура…
24 авг '21 в 07:10
0
ответов
Как использовать опцию Trax SelfAttention с несколькими головками?
Я играю с моделью из библиотеки Самовниманияtrax . когда я установил n_heads=1, все отлично работает. Но когда я установил n_heads=2, мой код ломается. Я использую только активации ввода и один слой SelfAttention. Вот минимальный код: import trax im…
31 авг '21 в 02:30
1
ответ
Как рассчитать перекрестное внимание между трехмерным тензором и четырехмерным тензором? [закрыто]
В настоящее время я реализую одну из своих идей, которая включает в себя вычисление перекрестного внимания между трехмерным тензором и четырехмерным тензором. Я хочу добавить механизм внимания в установленный модуль абстракции PointNet++ добавьте пр…
09 сен '21 в 11:12
0
ответов
Зачем нам нужны «значение», «ключ» и «запрос» в слое внимания?
Я изучаю основные идеи о модели «Трансформатор». Основываясь на документе и учебнике, которые я видел, «Слой внимания» использует нейронную сеть для получения «значения», «ключа» и «запроса». Вот уровень внимания, который я узнал из Интернета. class…
11 окт '21 в 15:45
1
ответ
Вопрос о токенах, используемых в слоях внимания декодера Transformer во время логического вывода
Я смотрел на формы, используемые во время декодирования (как блоки самовнимания, так и enc-dec-Внимание), и понял, что есть разница в способе работы декодера во время обучения и во время вывода на и оригинального документа Attention. Inference, он и…
08 ноя '21 в 20:25
1
ответ
Как я могу изменить номера слоев самовнимания и количество многоголовых головок в моей модели с помощью Pytorch?
Я работаю над набором данных сарказма и своей моделью, как показано ниже: Сначала я токенизирую свой вводимый текст: PRETRAINED_MODEL_NAME = "roberta-base" from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained(PRETRAINED_M…
25 ноя '21 в 17:28
1
ответ
ValueError: формы (None, 5) и (None, 15, 5) несовместимы
Я хочу реализовать механизм иерархического внимания для классификации документов, представленный Янгом. Но я хочу заменить LSTM на Transformer. Я использовал классификацию текста Апоорва Нандана с помощью Transformer:https://keras.io/examples/nlp/te…
03 дек '21 в 13:50
1
ответ
Как реализовать иерархический преобразователь для классификации документов в Keras?
Механизм иерархического внимания для классификации документов был представлен Yang et al.https://www.cs.cmu.edu/~./hovy/papers/16HLT-hierarchical-attention-networks.pdf Его реализация доступна на https://github.com/ShawnyXiao/TextClassification-Kera…
08 дек '21 в 11:13
1
ответ
Какие преобразователи свойств используют для изображения или последовательности?
Сегодня мой учитель задал мне вопрос: он сказал, что CNN использует инвариантность трансляции изображений или матриц. Так какие же свойства использует трансформатор ???
05 янв '22 в 10:54
0
ответов
Я хочу спросить вас о структуре «запрос, ключ, значение» «преобразователя»
Я новичок в НЛП. Итак, я пытаюсь воспроизвести самый простой код преобразователя, который вам нужен. Но у меня возник вопрос при выполнении. В слое MultiHeadAttention я распечатал форму «запрос, ключ, значение». Однако были напечатаны разные формы «…
18 янв '22 в 06:10
1
ответ
Слой Keras MultiHeadAttention выдает IndexError: индекс кортежа вне диапазона
Я получаю эту ошибку снова и снова, пытаясь обратить внимание на 1D-векторы, я действительно не понимаю, почему это происходит, любая помощь будет очень признательна. layer = layers.MultiHeadAttention(num_heads=2, key_dim=2) target = tf.ones(shape=[…
25 янв '22 в 17:34
0
ответов
Могут ли многоголовые преобразователи внимания только с одной головкой фокусироваться только на одном положении входа?
Я изучаю трансформер и не понимаю, как одна голова соответствует фокусу трансформера.
05 фев '22 в 12:51
1
ответ
Визуализация карт внимания Swin Transformer
Я использую Swin Transformer для иерархической проблемы классификации нескольких классов с несколькими метками. Я хотел бы визуализировать карты внимания к себе на моем входном изображении, пытаясь извлечь их из модели, к сожалению, мне не удается в…
19 янв '22 в 19:11
0
ответов
Когда размеры партий разные, как определить размер wq, Wk и WV собственного внимания
Я планирую использовать самостоятельное внимание на мини-пакете pyG, размер wq, WK, WV должен быть [batch_nodes],[batch_num_nodes],[batch_num_nodes]. Однако сейчас возникла проблема. Поскольку количество узлов на каждой диаграмме Nini-Batch разное, …
02 мар '22 в 01:04
0
ответов
Застрял с реализацией самоконтроля
Реализация самоконтроля в тензорном потоке Keras с битовой модификацией (например, остаточное (добавить соединение)). У меня есть следующая форма ввода: мой ввод: KerasTensor(type_spec=TensorSpec(shape=(None, 8, 6, 64), dtype=tf.float32, name=None),…
28 янв '22 в 04:22
0
ответов
Почему в трансформаторе чем выше показатель внимания между двумя токенами, тем больше они похожи после последнего слоя?
В последнем слое само-внимания преобразователя кажется, что чем больше показатель внимания между двумя токенами, тем больше они будут похожи после этого слоя, т. е. они очень близки в векторном пространстве. Но я не знаю причины. Может ли кто-нибудь…
23 фев '22 в 15:25
0
ответов
Разница между прогнозируемыми и реальными значениями очень велика, но потери очень малы.
У меня есть данные трехмерного облака точек, содержащие N траекторий движения ячеек, и я хочу построить регрессионную модель для прогнозирования скорости движения ячеек. Я создал смоделированный набор данных и установил скорость движения ячейки 0,00…
03 мар '22 в 22:49
0
ответов
Разный номер узла в mini_batch
Я новичок в графических нейронных сетях, и я тренирую модель GNN, используя внимание к себе, и у меня есть несколько вопросов. Вопрос в том, что количество моих узлов и node_num различаются в каждой партии, так что в первой партии у меня есть: Пакет…
02 мар '22 в 02:35
1
ответ
Как обрабатывать тензорное умножение с размерностью Нет
Например, у меня есть 2 тензора A и B с размерностью (None, HWC), когда я использую tf.matmul(tf.transpose(A),B) Размер результата будет (HWC, HWC), это правильно, но я хочу сохранить размер None, чтобы он мог быть (None, HWC, HWC). Есть ли способ д…
27 ноя '21 в 22:35
0
ответов
Маскировка MultiHeadAttention с тензорным потоком
Я пытался создать пользовательскую маску для целевых комбинаций запросов и ключей для моего слоя MultiHeadAttention, но не могу понять, как использовать эту маску слоя. Вот пример с фиктивным набором данных (размер пакета 1): key = tf.ones([1, 32 , …
26 май '22 в 10:15