Выходные данные кодировщика изображений Visual Transformer CLIP
Я проводил несколько экспериментов с выходом кодера визуального преобразователя CLIP (clip-ViT-B-32
). Таким образом, по сути, учитывая одну и ту же сцену или изображение, он должен выводить почти тот же вектор признаков изображения, учитывая, что это семантическая модель. Но похоже, что он очень чувствителен к освещению и условиям освещения, что заставляет меня задуматься, а процент сходства между изображениями ниже намного ниже, чем ожидалось (на удивление, написано, что сходство составляет 89,45%)
Почему это? Есть ли какие-либо способы/модели, которые менее чувствительны к изменениям освещения и более семантически основаны?
from sentence_transformers import SentenceTransformer, util
#......
model = SentenceTransformer('clip-ViT-B-32')
encoded_image = model.encode(image, batch_size=128, convert_to_tensor=True, show_progress_bar=True)
# Now we run the clustering algorithm. This function compares images aganist
# all other images and returns a list with the pairs that have the highest
# cosine similarity score
processed_images = util.paraphrase_mining_embeddings(encoded_image)