Ресурс Azure для обработки неструктурированных источников данных

У нас есть требование извлекать темные данные из неструктурированных источников, таких как письма, отчеты рад и т. д. Пожалуйста, предложите ресурс Azure для извлечения данных из распространенных форматов документов: DOC, DOCX, PDF, RTF, TXT, HTML и т. д., а затем выполните анализ на извлеченных данных.

1 ответ

Похоже, вы просто хотите извлечь необработанный текст или изображения из этих документов форматированного текста. Если только сделать это, некоторые библиотеки анализа различных документов - это ваши реальные потребности.

Вот некоторые библиотеки на Java или Python для этого. Если вы используете.NET, с которым я не знаком, вы можете выполнить поиск в Google или Bing, чтобы найти альтернативу.NET.

  1. Разобрать офисный документ, такой как DOC, DOCX: для Java, Apache POIхорошая библиотека для извлечения данных из файлов MS Office; для Python, похоже, нет никакого пакета для этого, кроме использования COM-объекта, такого как Word.Application или же IronPython ( Чтение / запись файлов MS Word на Python) в.NET на Windows.
  2. Для разбора файлов PDF: есть Apache PDFBox, jPDFText для Java и PyPDF2 для Python.
  3. Чтобы прочитать файл формата RTF: Java изначально поддерживает через javax.swing.text.rtf.RTFEditorKit который вы можете получить образец кода с помощью поиска; как #1, также, кажется, нет для Python.
  4. Для анализа файлов HTML: jsoup для Java и BeautifulSoup & HTMLParser для Python лучше всего подходят для извлечения данных из HTML.
  5. Для чтения файлов формата TXT, я думаю, это просто для любых языков. Но чтобы извлечь ценную информацию из текстового контента, Stanford NLP для Java и NLTK для Python полезны, также с помощью API Azure Text Analytics Cognitive Service могут помочь некоторые, такие как извлечение ключевых фраз и обнаружение языка.
  6. Набор инструментов Apache Tika для анализа контента также является хорошим решением. Даже вы можете развернуть его в одиночку и вызывать его REST API через Python, другие языки.
  7. Если вы хотите извлечь текст из изображений, вы можете использовать Azure Computer Vision API Cognitive Services для извлечения печатного текста или рукописного текста или использовать стороннюю библиотеку, такую ​​как Tess4J или другие, которые вы искали в GitHub.

Все вышеперечисленное практически зависит от сторонних комплектов разработчика без ресурсов Azure. Однако вы можете хранить эти документы в хранилище Azure и обрабатывать их на виртуальной машине Azure или в пакетных службах, даже для анализа данных извлечения в Azure Jupyter Notebook или использования Azure ML для проведения более глубоких исследований.

Другие вопросы по тегам