Загрузить PDF-файл в чат GPT с помощью API?

Question

Загрузить PDF-файл в чат GPT с помощью API?

Веб-интерфейс ChatGPT позволяет легко загружать PDF-файлы. Есть ли API от openAI, который может получать PDF-файлы?

Я знаю, что существуют сторонние библиотеки, которые могут читать PDF-файлы, но, учитывая, что в PDF-файле есть изображения и другая важная информация, было бы лучше, если бы такая модель, как GPT 4 Turbo, получала настоящий PDF-файл.

Я изложу свой вариант использования, чтобы добавить больше контекста. Я собираюсь сделать RAG. Вот мой pdf, вот подсказка. Обычно я добавляю текст в конце приглашения. Я все еще мог бы сделать это с PDF-файлом, если бы извлек его сам.

Это то, как я должен это сделать? Код отсюда https://platform.openai.com/docs/assistants/tools/code-interpreter

      # Upload a file with an "assistants" purpose
file = client.files.create(
  file=open("example.pdf", "rb"),
  purpose='assistants'
)

# Create an assistant using the file ID
assistant = client.beta.assistants.create(
  instructions="You are a personal math tutor. When asked a math question, write and run code to answer the question.",
  model="gpt-4-1106-preview",
  tools=[{"type": "code_interpreter"}],
  file_ids=[file.id]
)

Также есть конечная точка загрузки, но, похоже, они предназначены для тонкой настройки и помощников. Я думаю, что вариант использования RAG является обычным и не обязательно связан с помощниками.

5

pdf openai-api chat-gpt-4

Источник

user6907703 12 ноя '23 в 13:25

1 ответ

Другие вопросы по тегам pdf openai-api chat-gpt-4

user6907703 17 ноя '23 в 13:16 2023-11-17 13:16 · Answer 1 · 2023-11-17 13:16

Одно из решений: преобразовать PDF-файл в изображения и передать его в модель видения в виде входных данных с несколькими изображениями https://platform.openai.com/docs/guides/vision .

GPT-4 со зрением — это не другая модель, которая хуже справляется с текстовыми задачами из-за наличия зрения, это просто GPT-4 с добавленным зрением.

Поскольку это та же самая модель с возможностями машинного зрения, этого должно быть достаточно для анализа текста и изображений.

Вы также можете извлечь изображения из PDF-файла и передать их отдельно, создавая многомодельную архитектуру. Я отдаю предпочтение первому. В идеале следует проводить эксперименты, чтобы увидеть, что дает лучшие результаты.

Только текст + только изображения или изображения (содержащие оба)

PDF в изображение можно выполнить локально в Python, как и отделить img от pdf. Это несложная задача, требующая поддержки со стороны кого-то вроде openAI.