Каковы лучшие практики анализа данных, предоставленных пользователями? [закрыто]
Я собрал данные с помощью веб-опроса об интересах пользователей. Целевая аудитория - инженеры машинного обучения, специалисты по данным, аналитики данных и инженеры искусственного интеллекта. После сбора данных я построил гистограмму, показывающую интересы пользователей за неделю. Более того, я сгруппировал каждый столбец гистограммы с учетом интересов пользователей.
Например, 15 июня было
- 15 человек, которых интересовал "Временной ряд"
- 20 человек в «НЛП»
- 4 человека в "nlp, разговорный ИИ"
- 8 человек в «НЛП»
- 5 человек в «автоматике»
- 4 человека по направлению «Автоматизация, прогнозирование, MLOps»
так далее...
Проблема в том, что одни и те же проценты (например, «Nlp») вводятся несколькими пользователями с использованием разных заглавных букв. Другая проблема заключается в том, что я не знаю, как управлять пользователями, которые указали несколько интересов, например («Временные ряды, Nlp, аудио-музыка»). Наконец, как мне сгруппировать данные, чтобы они имели смысл?
Я не уверен, с чего начать, я подумал об использовании библиотеки pythonpandas для редактирования ввода, но основная проблема в том, что я не знаю, что мне делать, чтобы получить полезные результаты? Итак, как мне обработать введенные данные, чтобы они были пригодны для дальнейшего анализа? Надеюсь, ты сможешь помочь. Спасибо.
PS это теги, которые я включил в сообщение: «data-analysis», «python», «data-science», «data-science-experience», «исследовательский-data-analysis». Скажите, пожалуйста, любой другой тег, который будет соответствовать контексту моего вопроса.