Описание тега extraction
Извлечение данных - это действие или процесс извлечения данных из (обычно неструктурированных или плохо структурированных) источников данных для дальнейшей обработки или хранения данных (миграция данных). Таким образом, за импортом в промежуточную систему извлечения обычно следует преобразование данных и, возможно, добавление метаданных перед экспортом на другой этап рабочего процесса данных.
Типичные источники неструктурированных данных включают веб-страницы, электронные письма, документы, PDF-файлы, отсканированный текст, отчеты мэйнфреймов, файлы спула и т. Д. Извлечение данных из этих неструктурированных источников превратилось в серьезную техническую задачу, тогда как исторически извлечение данных должно было иметь дело с физическими изменениями. аппаратных форматов, большая часть текущих операций по извлечению данных связана с извлечением данных из этих неструктурированных источников данных и из различных форматов программного обеспечения. Этот растущий процесс извлечения данных из Интернета называется извлечением данных из Интернета.
Акт добавления структуры к неструктурированным данным принимает несколько форм:
- Использование сопоставления текстовых шаблонов, таких как регулярные выражения, для определения мелкой или крупномасштабной структуры, например, записей в отчете и связанных с ними данных из верхних и нижних колонтитулов;
- Использование табличного подхода для определения общих разделов в ограниченном домене, например, в резюме по электронной почте, определение навыков, предыдущего опыта работы, квалификации и т. Д. С использованием стандартного набора часто используемых заголовков (они будут отличаться от языка к языку), например, образование может находится в разделе "Образование / Квалификация / Курсы";
- Использование текстовой аналитики, чтобы попытаться понять текст и связать его с другой информацией