Анализ настроений Twitter

Сэр, я хочу провести анализ настроений в твиттере, используя Apache Hive, flume. Теперь у меня есть твиттер-аккаунт, и я установил файл conf. Но проблема в формате данных. это не загружается в улье. Пожалуйста, помогите мне, я работаю в этом в течение месяца.

2 ответа

Вы можете попробовать добавить этот файл JAR

hive-serdes-1.0-SNAPSHOT.jar

Вы можете следить за блогом ниже для получения полной информации о проведении анализа настроений с помощью Hive.

https://acadgild.com/blog/sentiment-analysis-on-tweets-with-apache-hive-using-afinn-dictionary/

Я думаю, что вы можете настроить агент Flume для получения данных из Twitter. Ваша проблема - формат данных.

Apache Flume предлагает несколько типов раковин. Два из них полезны для вашего требования.

  1. Раковина HDFS
  2. Улей раковина

Использование HDFS Sink:

  1. Настройте агент Flume с помощью TwitterSource и HDFS Sink.
  2. Укажите ваши данные OAuth в Twitter, т. Е. Ключи к Flume Agent.
  3. Как только конфигурация Агента завершена, запустите ее.
  4. Этот агент извлекает данные, т. Е. Отправляет твиты из Твиттера и сохраняет их по пути HDFS в виде JSON-документов.
  5. Как только данные станут доступны в HDFS, создайте внешнюю таблицу Hive с JSON SerDe с предложением location.

Ссылка на код JSON SerDe: https://github.com/cloudera/cdh-twitter-example/blob/master/hive-serdes/src/main/java/com/cloudera/hive/serde/JSONSerDe.java

Использование Hive Sink:

Flume позволяет записывать данные в Hive Table с помощью Hive Sink. Поэтому нам нужно настроить агент Flume следующим образом:

TwiiterSource -> Channel ->Hive Sink
  1. Настройте агент Flume с помощью TwitterSource и Hive Sink.
  2. Укажите ваши данные OAuth в Twitter, т. Е. Ключи к Flume Agent.
  3. Как только конфигурация Агента завершена, запустите ее.
  4. Этот агент будет извлекать данные, например, твиты из Твиттера и сохранять их в таблице Hive. Это использует JSON SerDe.

В Hive Sink есть параметр serializer, который сообщает тип SerDe.

Поддерживаемые сериализаторы: DELIMITED и JSON

Поэтому, пожалуйста, сконфигурируйте ваш агент Flume, используя любое из указанных выше решений.

Пожалуйста, используйте эту ссылку документации, чтобы получить более подробную информацию о параметрах Sink (HDFS + Hive)

https://flume.apache.org/FlumeUserGuide.html

Другие вопросы по тегам