AWS Glue Crawler Невозможно классифицировать файлы CSV
Я не могу получить классификатор сканера по умолчанию или пользовательский классификатор для работы со многими моими файлами CSV. Классификация указана как "НЕИЗВЕСТНО". Я попытался перезапустить существующие классификаторы, а также создать новые. Кто-нибудь знает о конкретной конфигурации для пользовательского классификатора для файлов CSV, который работает для файлов любого размера?
Я также не могу найти какие-либо ошибки, специфичные для этой проблемы в журналах.
Хотя я видел ссылки на проблемы для файлов JSON размером более 1 МБ, я не могу найти ничего, детализирующего эту же проблему для файлов CSV, ни решения проблемы.
1 ответ
Классификаторы CSV по умолчанию, поддерживаемые Glue Crawler:
CSV - Проверяет следующие разделители: запятая (,), труба (|), табуляция (\t), точка с запятой (;) и Ctrl-A (\u0001). Ctrl-A - управляющий символ Unicode для начала заголовка.
Если у вас есть какой-либо другой разделитель, он не будет работать с классификатором CSV по умолчанию. В этом случае вам придется написать шаблон Grok.