Описание тега unstructured-data

0 ответов

Тессеракт в неструктурированном не распознает греческие символы в PDF на смешанном языке

Я работаю с PDF-файлами, содержащими таблицы, содержащие греческие и английские буквы (например, химические формулы, такие как α-пинен). Я использую Tesseract OCR для извлечения текста, но, похоже, он распознает только английские буквы, хотя я устан…
06 окт '23 в 09:27
1 ответ

Выдает ошибку INVALID_ARGUMENT при отправке новых неструктурированных данных в хранилище данных.

Привет всем! Итак, я новичок в поиске Google Vertex AI, поэтому я немного попрактиковался в создании нового неструктурированного документа (в моем случае PDF) и отправил этот документ в уже созданное хранилище данных, в котором уже есть некоторые н…
0 ответов

Ошибка типа инициализации UnstructuredDetectronModel

Я пытаюсь использовать предварительно обученную модель из зоопарка моделей на Python и сталкиваюсь с ошибкой.TypeErrorво время процесса инициализации. Я следил за этим руководством , где упоминается, чтоUnstructuredDetectronModelпредставляет собой л…
0 ответов

Переформатировать неструктурированный DataFrame Pandas

Мне нужно прочитать несколько PDF-файлов через tabula-py. Это работает хорошо, возвращает фрейм данных или список фреймов данных, если установлено несколько диапазонов интересов. Проблема в том, что базовый PDF-файл не имеет структурированного форма…