Ресурс Azure для обработки неструктурированных источников данных
У нас есть требование извлекать темные данные из неструктурированных источников, таких как письма, отчеты рад и т. д. Пожалуйста, предложите ресурс Azure для извлечения данных из распространенных форматов документов: DOC, DOCX, PDF, RTF, TXT, HTML и т. д., а затем выполните анализ на извлеченных данных.
1 ответ
Похоже, вы просто хотите извлечь необработанный текст или изображения из этих документов форматированного текста. Если только сделать это, некоторые библиотеки анализа различных документов - это ваши реальные потребности.
Вот некоторые библиотеки на Java или Python для этого. Если вы используете.NET, с которым я не знаком, вы можете выполнить поиск в Google или Bing, чтобы найти альтернативу.NET.
- Разобрать офисный документ, такой как DOC, DOCX: для Java,
Apache POI
хорошая библиотека для извлечения данных из файлов MS Office; для Python, похоже, нет никакого пакета для этого, кроме использования COM-объекта, такого какWord.Application
или жеIronPython
( Чтение / запись файлов MS Word на Python) в.NET на Windows. - Для разбора файлов PDF: есть
Apache PDFBox
,jPDFText
для Java иPyPDF2
для Python. - Чтобы прочитать файл формата RTF: Java изначально поддерживает через
javax.swing.text.rtf.RTFEditorKit
который вы можете получить образец кода с помощью поиска; как #1, также, кажется, нет для Python. - Для анализа файлов HTML:
jsoup
для Java иBeautifulSoup
&HTMLParser
для Python лучше всего подходят для извлечения данных из HTML. - Для чтения файлов формата TXT, я думаю, это просто для любых языков. Но чтобы извлечь ценную информацию из текстового контента,
Stanford NLP
для Java иNLTK
для Python полезны, также с помощью API Azure Text Analytics Cognitive Service могут помочь некоторые, такие как извлечение ключевых фраз и обнаружение языка. - Набор инструментов Apache Tika для анализа контента также является хорошим решением. Даже вы можете развернуть его в одиночку и вызывать его REST API через Python, другие языки.
- Если вы хотите извлечь текст из изображений, вы можете использовать Azure Computer Vision API Cognitive Services для извлечения печатного текста или рукописного текста или использовать стороннюю библиотеку, такую как
Tess4J
или другие, которые вы искали в GitHub.
Все вышеперечисленное практически зависит от сторонних комплектов разработчика без ресурсов Azure. Однако вы можете хранить эти документы в хранилище Azure и обрабатывать их на виртуальной машине Azure или в пакетных службах, даже для анализа данных извлечения в Azure Jupyter Notebook или использования Azure ML для проведения более глубоких исследований.