Пытаясь понять нейрологический код перевода Pytorch для декодера
Я читаю учебник по нейронному машинному переводу Python Pytorch https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html и могу понять все до первого куска кода для нейронной сети для декодера, особенно я не могу понять forward
функция:
class DecoderRNN(nn.Module):
def __init__(self, hidden_size, output_size):
super(DecoderRNN, self).__init__()
self.hidden_size = hidden_size
self.embedding = nn.Embedding(output_size, hidden_size)
self.gru = nn.GRU(hidden_size, hidden_size)
self.out = nn.Linear(hidden_size, output_size)
self.softmax = nn.LogSoftmax(dim=1)
def forward(self, input, hidden):
output = self.embedding(input).view(1, 1, -1)
output = F.relu(output)
output, hidden = self.gru(output, hidden)
output = self.softmax(self.out(output[0]))
return output, hidden
def initHidden(self):
return torch.zeros(1, 1, self.hidden_size, device=device)
Я понимаю что input
это буквальное слово и self.embedding
преобразует его в одномерный вектор, это может быть одноразовое вложение, или это может быть вложение вектора действительных чисел, но в любом случае это вектор. Но какова роль view(1, 1, -1)
? Что это делает семантически и почему это следует называть? Я понимаю, что я должен продолжить с вектором, но, видимо, это view
как-то переводит этот вектор в многомерный тензор, не правда ли? Я предполагаю, что дальнейшие вызовы нейронных функций активации ожидают 1D вектора, но теперь есть что-то другое. И что делается в очереди output = self.softmax(self.out(output[0]))
? output
должен быть одномерный вектор, но почему я должен брать только первый его элемент? Что происходит с другими элементами?
Это настолько простой пример, но почему-то я не понимаю, что здесь происходит и почему такая сложность вводится, почему я не могу остаться и делать все вычисления с одномерными векторами?