Выходные данные кодировщика изображений Visual Transformer CLIP

Я проводил несколько экспериментов с выходом кодера визуального преобразователя CLIP (clip-ViT-B-32). Таким образом, по сути, учитывая одну и ту же сцену или изображение, он должен выводить почти тот же вектор признаков изображения, учитывая, что это семантическая модель. Но похоже, что он очень чувствителен к освещению и условиям освещения, что заставляет меня задуматься, а процент сходства между изображениями ниже намного ниже, чем ожидалось (на удивление, написано, что сходство составляет 89,45%)

Почему это? Есть ли какие-либо способы/модели, которые менее чувствительны к изменениям освещения и более семантически основаны?

      from sentence_transformers import SentenceTransformer, util
#......
model = SentenceTransformer('clip-ViT-B-32')
encoded_image = model.encode(image, batch_size=128, convert_to_tensor=True, show_progress_bar=True)

# Now we run the clustering algorithm. This function compares images aganist 
# all other images and returns a list with the pairs that have the highest 
# cosine similarity score
processed_images = util.paraphrase_mining_embeddings(encoded_image)

0 ответов