Описание тега unstructured-data
0
ответов
Тессеракт в неструктурированном не распознает греческие символы в PDF на смешанном языке
Я работаю с PDF-файлами, содержащими таблицы, содержащие греческие и английские буквы (например, химические формулы, такие как α-пинен). Я использую Tesseract OCR для извлечения текста, но, похоже, он распознает только английские буквы, хотя я устан…
06 окт '23 в 09:27
1
ответ
Выдает ошибку INVALID_ARGUMENT при отправке новых неструктурированных данных в хранилище данных.
Привет всем! Итак, я новичок в поиске Google Vertex AI, поэтому я немного попрактиковался в создании нового неструктурированного документа (в моем случае PDF) и отправил этот документ в уже созданное хранилище данных, в котором уже есть некоторые н…
26 окт '23 в 18:47
0
ответов
Ошибка типа инициализации UnstructuredDetectronModel
Я пытаюсь использовать предварительно обученную модель из зоопарка моделей на Python и сталкиваюсь с ошибкой.TypeErrorво время процесса инициализации. Я следил за этим руководством , где упоминается, чтоUnstructuredDetectronModelпредставляет собой л…
05 окт '23 в 06:44
0
ответов
Переформатировать неструктурированный DataFrame Pandas
Мне нужно прочитать несколько PDF-файлов через tabula-py. Это работает хорошо, возвращает фрейм данных или список фреймов данных, если установлено несколько диапазонов интересов. Проблема в том, что базовый PDF-файл не имеет структурированного форма…
23 окт '23 в 14:32