Эффективный способ вычисления якобиана x якобиана.T

Question

Эффективный способ вычисления якобиана x якобиана.T

Предполагать J - якобиан некоторой функции fпо некоторым параметрам. Есть ли эффективные способы (в PyTorch или, возможно, Jax) иметь функцию, которая принимает два входа (x1 а также x2) и вычисляет J(x1)*J(x2).transpose() без создания всегоJ матрицы в памяти?

Я наткнулся на что-то вроде jvp(f, input, v=vjp(f, input)) но не совсем понимаю и не уверен, что хочу.

4

pytorch backpropagation jax autograd

Источник

user298209 24 авг '20 в 13:21

0 ответов

Другие вопросы по тегам pytorch backpropagation jax autograd

user2937831 18 сен '20 в 00:34 2020-09-18 00:34 · Answer 1 · 2020-09-18 00:34

В JAX вы можете вычислить полную матрицу якобиана, используя jax.jacfwd или же jax.jacrev, или вы можете вычислить оператор якобиана и его транспонирование, используя jax.jvp и jax.vjp.

Так, например, предположим, что у вас есть функция Rᴺ → Rᴹ это выглядит примерно так:

import jax.numpy as jnp
import numpy as np

np.random.seed(1701)
N, M = 10000, 5
f_mat = np.array(np.random.rand(M, N))
def f(x):
  return jnp.sqrt(f_mat @ x / N)

Учитывая два вектора x1 и x2, вы можете вычислить матрицу Якоби на каждом, используя jax.jacfwd

import jax
x1 = np.array(np.random.rand(N))
x2 = np.array(np.random.rand(N))
J1 = jax.jacfwd(f)(x1)
J2 = jax.jacfwd(f)(x2)
print(J1 @ J2.T)
# [[3.3123782e-05 2.5001222e-05 2.4946943e-05 2.5180108e-05 2.4940484e-05]
#  [2.5084497e-05 3.3233835e-05 2.4956826e-05 2.5108084e-05 2.5048916e-05]
#  [2.4969209e-05 2.4896170e-05 3.3232871e-05 2.5006309e-05 2.4947023e-05]
#  [2.5102483e-05 2.4947576e-05 2.4906987e-05 3.3327218e-05 2.4958186e-05]
#  [2.4981882e-05 2.5007204e-05 2.4966144e-05 2.5076926e-05 3.3595043e-05]]

Но, как вы заметили, на пути к вычислению этого результата 5x5 мы инстанцируем две матрицы 5x10000. Как мы можем это обойти?

Ответ в jax.jvp и jax.vjp. У них есть несколько неинтуитивные сигнатуры вызовов для целей вашего вопроса, поскольку они предназначены в первую очередь для использования в автоматическом различении в прямом и обратном режимах. Но в широком смысле вы можете думать о них как о способе вычисления J @ v и J.T @ v для вектора v, без необходимости вычислять J явно.

Например, вы можете использовать jax.jvp вычислить эффект J1 работает с вектором, фактически не вычисляя J1:

J1_op = lambda v: jax.jvp(f, (x1,), (v,))[1]

vN = np.random.rand(N)
np.allclose(J1 @ vN, J1_op(vN))
# True

Точно так же вы можете использовать jax.vjp вычислить эффект J2.T работает с вектором, фактически не вычисляя J2:

J2T_op = lambda v: jax.vjp(f, x2)[1](v)[0]

vM = np.random.rand(M)
np.allclose(J2.T @ vM, J2T_op(vM))
# True

Объединение их вместе и работа с единичной матрицей дает вам полный матричный продукт Якоби, который вам нужен:

def direct(f, x1, x2):
  J1 = jax.jacfwd(f)(x1)
  J2 = jax.jacfwd(f)(x2)
  return J1 @ J2.T

def indirect(f, x1, x2, M):
  J1J2T_op = lambda v: jax.jvp(f, (x1,), jax.vjp(f, x2)[1](v))[1]
  return jax.vmap(J1J2T_op)(jnp.eye(M)).T

np.allclose(direct(f, x1, x2), indirect(f, x1, x2, M))
# True

Помимо экономии памяти, этот косвенный метод также немного быстрее прямого метода, в зависимости от размеров задействованных якобианов:

%time direct(f, x1, x2)
# CPU times: user 1.43 s, sys: 14.9 ms, total: 1.44 s
# Wall time: 886 ms
%time indirect(f, x1, x2, M)
# CPU times: user 311 ms, sys: 0 ns, total: 311 ms
# Wall time: 158 ms