Преобразование изображения в текст с использованием Azure OpenAI GPT4.

У меня есть открытая учетная запись AI Azure и развернутая модель GPT4. Могу ли я использовать его API для описания изображения в тексте? Если да, то как я передам ему изображение? Я использую этот код. Но это выдает мне ошибку.

      import openai
# open ai key
openai.api_type = "azure"
openai.api_version = "2023-03-15-preview"
openai.api_base = 'https://xxxxxx.openai.azure.com/'
openai.api_key = "xxxxxxxxxxxxx"

image_url="https://cdn.repliers.io/IMG-X5925532_9.jpg"

def generate_image_description(image_url):
    prompt = f"What is in this image? {image_url}"
    print(prompt)
    response = openai.ChatCompletion.create(
        engine="GPT4v0314",
        prompt=prompt,
        max_tokens=1024,
        n=1,
        stop=None,
        temperature=0.0,
    )
    description = response.choices[0].text.strip()
    return description

Ошибка такая: Ошибка API: неверный объект ответа от API: «Неподдерживаемый тип данных\n» (код ответа HTTP — 400).

Я упомянул об этом в объяснении.

1 ответ

На данный момент модели Azure OpenAI GPT-4 не являются мультимодальными: вы не можете передать изображение напрямую, поэтому не сможете достичь того, что ищете.

См. официальную документацию здесь

Другие вопросы по тегам