Использование функции documentParser в Teradata Aster
Я работаю с Aster от Teradata и пытаюсь разобрать файл pdf (или html) так, чтобы он был вставлен в таблицу в базе данных Beehive в Aster. Весь PDF должен соответствовать одной строке данных в таблице.
Это должно быть сделано с помощью одной из функций Aster SQL-MR, называемой documentParser
, Это создаст текстовый файл (.rtf), содержащий одну строку, созданную путем анализа всех глав из PDF-файла, который затем будет загружен в таблицу в Beehive.
Мне дали этот скрипт, который показывает использование documentParser
и другие шаги, связанные с этим процессом анализа -
/* SHELL INSTRUCTIONS */
--transform file in b64 (change file names to your relevant file)
base64 pp.pdf>pp.b64
--prepare a loadfile
rm my_load_file.txt
-- get the content of the file
var=$(cat pp.b64)
-- put in file
echo \""pp.b64"\"","\""$var"\" >> "my_load_file.txt"
-- create staging table
act -U db_superuser -w db_superuser -d beehive -c "drop table if exists public.cf_load_file;"
act -U db_superuser -w db_superuser -d beehive -c "create dimension table public.cf_load_file(file_name varchar, content varchar);"
-- load into staging table
ncluster_loader -U db_superuser -w db_superuser -d beehive --csv --verbose public.cf_load_file my_load_file.txt
-- use document parser to load the clean text (you will need to create the table beforehand)
act -U db_superuser -w db_superuser -d beehive -c "INSERT INTO got_data.cf_got_text_data (file_name, content) SELECT * FROM documentParser (ON public.cf_load_file documentCol ('content') mode ('text'));"
--done
Тем не менее, я застрял на последнем шаге скрипта, потому что похоже, что нет функции с именем documentParser
в списке функций, доступных в Aster. Это ошибка, которую я получаю -
ERROR: function "documentparser" does not exist
Я пытался найти эту функцию несколько раз с помощью команды \dF
, но не получил ни одного совпадения.
Я приложил картину, которая представляет суть того, что я пытаюсь сделать.
Буду признателен за любую помощь, если кто-либо имеет опыт работы с этим.
1 ответ
Случилось так, что кто-то рассказал вам об этой функции documentParser
но никогда не давал вам файл архива функции (documentParser.zip) для установки в Aster. Эта функция существует, но она не является частью официального фонда Aster Analytics Foundation (AAF). Пожалуйста, свяжитесь с человеком, который дал вам эту информацию для помощи.
documentParser
принадлежит к так называемым полевым функциям, которые разрабатываются и используются только полевой командой Aster. Не то чтобы вы не могли его использовать, но не ожидайте, что вам поможет поддержка - только тот, кто дал вам доступ к нему.
Если у вас нет контактов, то в следующий раз я бы порекомендовал обратиться в Aster Community Network и там задать вопрос.