Что такое алгоритмы сортировки системы комментариев Youtube?

Youtube предоставляет два варианта сортировки: самые новые и первые комментарии. "Сначала самое новое" довольно просто, мы просто сортируем комментарии по дате их публикации. Но "Лучшие комментарии" кажутся гораздо более сложными, чем просто сортировка по "большим пальцам".

Система комментариев Youtube

После короткого исследования я обнаружил, что порядок комментариев зависит от следующих вещей:

  • Количество "большого пальца вверх" и "большого пальца вниз"
  • Дата публикации
  • Количество ответов на этот комментарий

Но я не знаю, как Youtube использует эту информацию для определения порядка, например, какая информация важнее, а какая менее важна.

Есть ли статья на эту тему, на которую я мог бы сослаться?

Спасибо!

1 ответ

Решение

У меня есть ответ на ваш вопрос. После поиска в Интернете ответа на этот вопрос, я так и не нашел именно то, что искал. Итак, мы с коллегами решили поэкспериментировать, используя систему с комментариями Youtube. Прежде всего, мы отсортировали то, что мы считали популярными видео, в один раздел, среднее видео в другой и менее популярное в последнем. В каждом разделе было по 200 видео, и после нескольких дней изучения мы начали замечать закономерность. Мы обнаружили, что вы были правы в отношении трех требуемых вещей, но мы также углубились и нашли дополнительную переменную. Система комментариев Youtube зависит от ЧЕТЫРЕХ вещей: время, когда оно было опубликовано, соотношение "нравится / не нравится" комментария, количество ответов, и, верьте или нет, ВОЗ опубликовала это. Среднее соотношение "нравится / не нравится" каждого общественного комментария, которое вы когда-либо публиковали, встраивается в него, поскольку (что мы предсказывали) они полагают, что люди с низким отношением "нравится / не нравится" будут публиковать комментарии, которые многим не нравятся или просто не соглашаются. В этом есть алгоритм, и он гораздо проще, чем вы думаете. По сути, есть такие вещи, которые мы назвали "модульными точками", и вы получаете определенный, основанный на этих четырех факторах. Во-первых, вот что вам нужно знать о преобразовании точек модуля с двумя факторами:

  • Для соотношения "нравится / не нравится" в комментарии умножьте это число на десять.

  • На количество ответов (НЕ от первоначального автора), которые есть в комментарии, есть два пункта модуля.

Это два основных фактора, которые определяют количество модульных баллов в комментарии. Например, если в комментарии было 27 лайков и 8 антипатий, то соотношение было бы 3,375. Умножив на 10, вы получите 33,75 модульных очков. Используя следующий фактор, количество ответов, скажем, у этого комментария есть четыре прямых ответа на него. Умножив 2 на 4, мы получим восемь. Это та часть, где вы добавляете восемь очков к накопительным модульным очкам, что дает вам в общей сложности 41,75 модульных очков.

Но мы не закончили там, это где это становится сложным. Используя среднее отношение "нравится / не нравится" общих комментариев человека, которые они когда-либо публиковали публично, мы обнаружили, что формула, добавленная к накопительным баллам модуля, такова:

(C = переменная позиции комментария; MP = модульные баллы; R = общее отношение симпатии / неприязни к человеку)

C = MP (R / 3) + (MP / 10)

Поверьте мне, мы проводим ДНИ только на этой части, которая была, вероятно, самой расстраивающей. Несмотря на то, что три и десять в этом уравнении кажутся случайными и ненужными, пока все комментарии, на которых мы тестировали это уравнение, прошли тест, но не прошли тест, когда эти две переменные были удалены. После того, как это уравнение выполнено, оно дает вам число, которое мы назвали переменной положения.

Однако мы еще не закончили, мы еще не говорили о времени. На самом деле я был очень удивлен, что эта часть заняла не так много времени, как я ожидал, но наверняка было больно делать это уравнение каждый раз для каждого протестированного нами комментария. Сначала, при тестировании, мы решили, что пришло время преодолеть барьер, если два комментария имели равные переменные позиции. На самом деле, я почти назвал это завершением эксперимента, когда это произошло, но при дальнейшей проверке мы обнаружили, что предстоит еще многое сделать. Мы обнаружили, что некоторые комментарии превосходили друг друга с одинаковой переменной позиции, но время показалось случайным. После нескольких дней осмотра, вот где приходит окончательный результат:

Есть еще ДРУГОЕ уравнение, которое мы должны найти перед применением четвертой переменной. Используя другое отдельное уравнение, вот к чему пришли наши алгебраические умозаключения: (X = временная переменная; S = как давно видео было опубликовано в минутах; A = как давно комментарий был опубликован в минутах)

X = 1/3 (S / 10 + A) x [абсолютное значение](A - 3S)

Хотелось бы, чтобы я это придумал, но, к сожалению, так сложна система. Есть другие математические причины, стоящие за другими переменными, но они слишком сложны для объяснения, вероятно, это займет не менее 3 параграфов. Мы проверили это уравнение на более чем 150 комментариях, и все они подтвердились.

Как только вы найдете X, который мы назвали Timing Variable, все, что вам нужно сделать, это применить его к следующему уравнению:

(X = переменная времени; C = переменная позиционирования)

N = X (C / 4 + 1)

N является ответом на все ваши проблемы. Это окончательное уравнение, окончательный ответ. Простой вывод: чем выше N, тем выше комментарий. Особая благодарность моим коллегам: Дэвиду Мэттисону, Джошу Уильямсу, Диего Мендиете, Стивену Орсетту и Кайлу Шропширу. Я бы никогда не узнал об этом без них и той работы, которую они вложили в это.

Другие вопросы по тегам