Почему нам нужно большее векторное пространство для отображения отношений в моделях встраивания слов?

Я работаю над встраиванием слов и немного смущен количеством измерений вектора слов. Я имею в виду, возьмем Word2vec в качестве примера, мой вопрос, почему мы должны использовать, скажем, 100 скрытых нейронов для нашего скрытого слоя? У этого числа есть какое-то значение или логика позади? или если это произвольно, то почему не 300? или 10? почему не более или менее? Как мы все знаем, самый простой способ отображения векторов - это двухмерное пространство (только X и Y), почему больше измерений? Я прочитал некоторые ресурсы об этом, и в одном примере они выбирают 100 измерений, в другом они выбирают другие числа, такие как 150, 200, 80 и т. Д.

Я знаю, что чем больше число, тем больше пространство для отображения отношений между словами, но мы не можем отобразить отношения в двухмерном векторном пространстве (только X и Y)?! почему нам нужно больше места? каждое слово отображается вектором, так почему мы должны использовать многомерное пространство, когда мы можем отображать векторы в 2 или 3-мерном пространстве? и тогда будет проще использовать методы сходства, такие как косинус, чтобы найти сходства в 2 или 3 измерениях, а не в 100 (с точки зрения времени вычислений), верно?

1 ответ

Ну что ж... Если ваша конечная игра - это просто отображение векторов, вы можете использовать 2-х или 3-х мерные векторы, и это будет работать лучше всего.

Зачастую в НЛП у нас есть четко определенные задачи, такие как тегирование, анализ, понимание смысла и т. Д. Для всех этих целей векторы более высокой размерности ВСЕГДА будут работать лучше, чем 2-й, 3-й векторы. Потому что у него больше степеней свободы, чтобы запечатлеть ваши отношения. Вы можете содержать более подробную информацию через них.

проще использовать методы сходства, такие как косинус, чтобы найти сходства в 2 или 3 измерениях, а не в 100 (с точки зрения времени вычислений), верно?

Нет. Это говорит, что добавить 2 числа проще, чем добавить 100 номеров. Метод (расстояние до консины) точно такой же.

Другие вопросы по тегам