Использование функции documentParser в Teradata Aster

Я работаю с Aster от Teradata и пытаюсь разобрать файл pdf (или html) так, чтобы он был вставлен в таблицу в базе данных Beehive в Aster. Весь PDF должен соответствовать одной строке данных в таблице.

Это должно быть сделано с помощью одной из функций Aster SQL-MR, называемой documentParser, Это создаст текстовый файл (.rtf), содержащий одну строку, созданную путем анализа всех глав из PDF-файла, который затем будет загружен в таблицу в Beehive.

Мне дали этот скрипт, который показывает использование documentParser и другие шаги, связанные с этим процессом анализа -

/* SHELL INSTRUCTIONS */
--transform file in b64 (change file names to your relevant file)

base64 pp.pdf>pp.b64

--prepare a loadfile
rm my_load_file.txt


-- get the content of the file
var=$(cat pp.b64)

-- put in file
echo \""pp.b64"\"","\""$var"\" >> "my_load_file.txt"


-- create staging table 
act -U db_superuser -w db_superuser -d beehive -c "drop table if exists public.cf_load_file;"
act -U db_superuser -w db_superuser -d beehive -c "create dimension table public.cf_load_file(file_name varchar, content varchar);"


-- load into staging table
ncluster_loader -U db_superuser -w db_superuser -d beehive --csv --verbose public.cf_load_file my_load_file.txt


-- use document parser to load the clean text (you will need to create the table beforehand)

act -U db_superuser -w db_superuser -d beehive -c "INSERT INTO got_data.cf_got_text_data (file_name, content) SELECT * FROM documentParser (ON public.cf_load_file documentCol ('content') mode ('text'));"

--done

Тем не менее, я застрял на последнем шаге скрипта, потому что похоже, что нет функции с именем documentParser в списке функций, доступных в Aster. Это ошибка, которую я получаю -

ERROR:  function "documentparser" does not exist

Я пытался найти эту функцию несколько раз с помощью команды \dF, но не получил ни одного совпадения.

Я приложил картину, которая представляет суть того, что я пытаюсь сделать.

Анализатор документов SQL-MR

Буду признателен за любую помощь, если кто-либо имеет опыт работы с этим.

1 ответ

Случилось так, что кто-то рассказал вам об этой функции documentParser но никогда не давал вам файл архива функции (documentParser.zip) для установки в Aster. Эта функция существует, но она не является частью официального фонда Aster Analytics Foundation (AAF). Пожалуйста, свяжитесь с человеком, который дал вам эту информацию для помощи.

documentParser принадлежит к так называемым полевым функциям, которые разрабатываются и используются только полевой командой Aster. Не то чтобы вы не могли его использовать, но не ожидайте, что вам поможет поддержка - только тот, кто дал вам доступ к нему.

Если у вас нет контактов, то в следующий раз я бы порекомендовал обратиться в Aster Community Network и там задать вопрос.

Другие вопросы по тегам