Создание DTM в Alteryx Designer

Я новичок в Alteryx и пытаюсь использовать его для анализа неструктурированных данных. У меня есть столбец описания в текстовом виде, и я собираюсь использовать инструмент кластеризации K-Means для моделирования тем. Чтобы K-средства работали с текстом, мне нужно будет преобразовать мой текст в матрицу терминов документа (DTM), чтобы они выглядели как непрерывные переменные для инструмента кластеризации. Однако я изо всех сил пытаюсь найти способ, которым я могу преобразовать свой текст в DTM.

Кто-нибудь знает способ сделать это? В настоящее время я смотрю на инструмент R, но не совсем уверен, с чего начать. Надеюсь, что вы все эксперты здесь можете помочь мне!

Я просмотрел сообщения по анализу текста и понял, что большинство из них обратились к макросу анализа текста Microsoft Azure ML. Тем не менее, я хотел бы избежать использования макроса (чтобы не ограничиваться ограниченным количеством прогонов каждый месяц для масштабируемости) и вместо этого использовать инструменты, которые доступны в Alteryx.

Спасибо всем заранее!

1 ответ

Решение

Поскольку Alteryx представляет собой скорее рабочий процесс перетаскивания изображений, объяснять здесь нетривиально, однако я создал следующий рабочий процесс и включил сам фактический рабочий процесс в форум Alteryx здесь. В рабочем процессе используются частоты терминов из речей Инаугурации, но они должны применяться к любой коллекции документов. Он просто разбивает слова на основе различных нечисловых символов и делает резюме. Вот как выглядит рабочий процесс:

Другие вопросы по тегам