Преобразование изображения в текст с использованием Azure OpenAI GPT4.
У меня есть открытая учетная запись AI Azure и развернутая модель GPT4. Могу ли я использовать его API для описания изображения в тексте? Если да, то как я передам ему изображение? Я использую этот код. Но это выдает мне ошибку.
import openai
# open ai key
openai.api_type = "azure"
openai.api_version = "2023-03-15-preview"
openai.api_base = 'https://xxxxxx.openai.azure.com/'
openai.api_key = "xxxxxxxxxxxxx"
image_url="https://cdn.repliers.io/IMG-X5925532_9.jpg"
def generate_image_description(image_url):
prompt = f"What is in this image? {image_url}"
print(prompt)
response = openai.ChatCompletion.create(
engine="GPT4v0314",
prompt=prompt,
max_tokens=1024,
n=1,
stop=None,
temperature=0.0,
)
description = response.choices[0].text.strip()
return description
Ошибка такая: Ошибка API: неверный объект ответа от API: «Неподдерживаемый тип данных\n» (код ответа HTTP — 400).
Я упомянул об этом в объяснении.
1 ответ
На данный момент модели Azure OpenAI GPT-4 не являются мультимодальными: вы не можете передать изображение напрямую, поэтому не сможете достичь того, что ищете.
См. официальную документацию здесь