Несколько советов и несколько вопросов о моем подходе к рекомендательной системе [закрыто]
Я пытаюсь создать рекомендательную систему для изображений и видео, учитывая не такую большую базу данных (сейчас около 20 тысяч сообщений), и она, конечно, растет, но все еще не так быстро. Обработка данных и извлечение функций из изображений и видео я использую Google Cloud API. (для извлечения видео использовался превью в формате gif). А теперь первые вопросы:
- Google Cloud API лучше всего подходит для маркировки изображений и видео? Какие еще системы я могу использовать? MS Azure?
Затем я делаю что-то вроде CountVectorizer в python - увеличиваю размер вложений словаря. И следующие вопросы:
- Будет ли здесь хорошим подходом применить UMAP для уплотнения моих функций? У меня было около 4k функций, поэтому длина моих векторов - 4k. Может, в этом нет необходимости, т.к. у меня не так много возможностей? Использовать PCA?
Тогда порекомендую время: я сопоставляю все свои метки с некоторыми общими классами. Например, «благополучие, лето, женщина, одежда» будет сопоставлено с «модой». Я сделал это вручную, но хочу сделать это автоматически.
- Могу ли я использовать несколько предварительно обученных нейронных сетей с подходом w2c для автоматической кластеризации моих функций? Будет ли это хороший подход?