Загрузить PDF-файл в чат GPT с помощью API?
Веб-интерфейс ChatGPT позволяет легко загружать PDF-файлы. Есть ли API от openAI, который может получать PDF-файлы?
Я знаю, что существуют сторонние библиотеки, которые могут читать PDF-файлы, но, учитывая, что в PDF-файле есть изображения и другая важная информация, было бы лучше, если бы такая модель, как GPT 4 Turbo, получала настоящий PDF-файл.
Я изложу свой вариант использования, чтобы добавить больше контекста. Я собираюсь сделать RAG. Вот мой pdf, вот подсказка. Обычно я добавляю текст в конце приглашения. Я все еще мог бы сделать это с PDF-файлом, если бы извлек его сам.
Это то, как я должен это сделать? Код отсюда https://platform.openai.com/docs/assistants/tools/code-interpreter
# Upload a file with an "assistants" purpose
file = client.files.create(
file=open("example.pdf", "rb"),
purpose='assistants'
)
# Create an assistant using the file ID
assistant = client.beta.assistants.create(
instructions="You are a personal math tutor. When asked a math question, write and run code to answer the question.",
model="gpt-4-1106-preview",
tools=[{"type": "code_interpreter"}],
file_ids=[file.id]
)
Также есть конечная точка загрузки, но, похоже, они предназначены для тонкой настройки и помощников. Я думаю, что вариант использования RAG является обычным и не обязательно связан с помощниками.
1 ответ
Одно из решений: преобразовать PDF-файл в изображения и передать его в модель видения в виде входных данных с несколькими изображениями https://platform.openai.com/docs/guides/vision .
GPT-4 со зрением — это не другая модель, которая хуже справляется с текстовыми задачами из-за наличия зрения, это просто GPT-4 с добавленным зрением.
Поскольку это та же самая модель с возможностями машинного зрения, этого должно быть достаточно для анализа текста и изображений.
Вы также можете извлечь изображения из PDF-файла и передать их отдельно, создавая многомодельную архитектуру. Я отдаю предпочтение первому. В идеале следует проводить эксперименты, чтобы увидеть, что дает лучшие результаты.
Только текст + только изображения или изображения (содержащие оба)
PDF в изображение можно выполнить локально в Python, как и отделить img от pdf. Это несложная задача, требующая поддержки со стороны кого-то вроде openAI.