Реализация иерархического внимания для классификации
Я пытаюсь реализовать документ "Иерархическое внимание" для классификации текста. Одна из проблем, с которыми я сталкиваюсь, заключается в том, как оптимизировать управление пакетами и обновлениями весов сети. Архитектура сети состоит из двух кодеров, расположенных один за другим: кодировщик предложений и кодировщик документов.
Когда набор данных состоит из больших документов, возникает следующая проблема: для каждого прохода через кодировщик документов у вас будет несколько проходов через кодировщик предложений. Когда вычисляется потеря и оптимизатор использует вычисленные градиенты для обновления весов параметров сети, я предполагаю, что весы кодировщика предложений должны обновляться иначе, чем весовые коэффициенты кодировщика документов. Что такое хорошая стратегия для этого? Как эта стратегия может быть реализована в таких библиотеках, как Keras
или же Pytorch
?