Анализ настроений Twitter
Сэр, я хочу провести анализ настроений в твиттере, используя Apache Hive, flume. Теперь у меня есть твиттер-аккаунт, и я установил файл conf. Но проблема в формате данных. это не загружается в улье. Пожалуйста, помогите мне, я работаю в этом в течение месяца.
2 ответа
Вы можете попробовать добавить этот файл JAR
hive-serdes-1.0-SNAPSHOT.jar
Вы можете следить за блогом ниже для получения полной информации о проведении анализа настроений с помощью Hive.
https://acadgild.com/blog/sentiment-analysis-on-tweets-with-apache-hive-using-afinn-dictionary/
Я думаю, что вы можете настроить агент Flume для получения данных из Twitter. Ваша проблема - формат данных.
Apache Flume предлагает несколько типов раковин. Два из них полезны для вашего требования.
- Раковина HDFS
- Улей раковина
Использование HDFS Sink:
- Настройте агент Flume с помощью TwitterSource и HDFS Sink.
- Укажите ваши данные OAuth в Twitter, т. Е. Ключи к Flume Agent.
- Как только конфигурация Агента завершена, запустите ее.
- Этот агент извлекает данные, т. Е. Отправляет твиты из Твиттера и сохраняет их по пути HDFS в виде JSON-документов.
- Как только данные станут доступны в HDFS, создайте внешнюю таблицу Hive с JSON SerDe с предложением location.
Ссылка на код JSON SerDe: https://github.com/cloudera/cdh-twitter-example/blob/master/hive-serdes/src/main/java/com/cloudera/hive/serde/JSONSerDe.java
Использование Hive Sink:
Flume позволяет записывать данные в Hive Table с помощью Hive Sink. Поэтому нам нужно настроить агент Flume следующим образом:
TwiiterSource -> Channel ->Hive Sink
- Настройте агент Flume с помощью TwitterSource и Hive Sink.
- Укажите ваши данные OAuth в Twitter, т. Е. Ключи к Flume Agent.
- Как только конфигурация Агента завершена, запустите ее.
- Этот агент будет извлекать данные, например, твиты из Твиттера и сохранять их в таблице Hive. Это использует JSON SerDe.
В Hive Sink есть параметр serializer, который сообщает тип SerDe.
Поддерживаемые сериализаторы: DELIMITED и JSON
Поэтому, пожалуйста, сконфигурируйте ваш агент Flume, используя любое из указанных выше решений.
Пожалуйста, используйте эту ссылку документации, чтобы получить более подробную информацию о параметрах Sink (HDFS + Hive)