Описание тега bigdata

Большие данные - это концепция, которая имеет дело с наборами данных экстремальных объемов. Вопросы могут быть связаны с инфраструктурой, алгоритмами, статистикой и структурами данных.
1 ответ

Где я могу найти ресурсы Google Szl (Sawzall)?

Я работаю над устаревшим кодом, связанным с Google szl (Sawzall). Кажется, на их веб-странице не так много ресурсов (даже здесь нет тега для szl в stackru..lol) https://code.google.com/p/szl/ Есть ли какие-либо внешние ресурсы для пользователей, что…
16 июл '13 в 20:55
1 ответ

PySpark: несоответствие в преобразовании метки времени в целое число в кадре данных

У меня есть датафрейм с грубой структурой, подобной следующей: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | 2017-05-31 15:30:48…
08 сен '17 в 18:48
1 ответ

Как визуализировать данные в видеопотоке?

Я хотел бы визуализировать данные в видеопотоке. Я могу представить себе, что нужно делать что-то вроде создания изображений с записанными данными каждую секунду и объединять их в поток. Но я хотел бы узнать о возможностях размещения текста поверх в…
1 ответ

Как создать визуализацию как приложение Chrome

Я очень впечатлен тем, как было построено это приложение, https://chrome.google.com/webstore/detail/visual-history/emnpecigdjglcgfabfnmlphhgfdifaan Интересно, участвовал ли в этом приложении SAP Lumira, чтобы живые визуализации работали нормально?, …
1 ответ

Pig - загружать документы Word (.doc & .docx) с помощью pig

Я не могу загрузить документы Microsoft Word (.doc или.docx) с поросенком. Действительно, когда я пытаюсь это сделать, используя TextLoader(), PigStorage() или вообще не загружая, это не работает. На выходе получаются странные символы. Я слышал, что…
29 авг '13 в 09:03
2 ответа

Почему я не могу создавать дочерние папки в структуре родительских папок в hadoop hdfs?

У меня возникают проблемы при создании дочерних (рекурсивных) папок в структуре родительских папок в HDFS. Использование Hadoop версии 2.7.1 sample: hadoop fs -mkdir /test/sample / logfiles Если я введу вышеупомянутую команду в терминале, я не смогу…
16 фев '16 в 07:30
1 ответ

Как удалить всех участников в R, которые встречаются только с одним уровнем переменной, а не со вторым?

Я анализирую набор данных интернет-сообщества с R. Я буду очень признателен за вашу помощь, так как застрял в одной проблеме. Вот схема: Набор данных: имя пользователя каждого пользователя доступно. Каждая строка представляет активность одного польз…
31 мар '16 в 15:58
1 ответ

Более быстрое сообщение, где источник Mysql

У нас есть Mysql Master Slave архитектура. У нас около 1000 столов. 5 или 6 таблиц в нашей базе данных составляют от 30 до 40 ГБ каждая. Мы не можем объединить одну таблицу 30 ГБ с другой таблицей 30 ГБ, поскольку она никогда не возвращает результат…
3 ответа

Perl манипулирует большими файлами

Я работаю над файлом 16 ГБ и небольшим файлом. Я пытался загрузить оба файла в память. Затем я переместился на каждую строку в большом файле и проверил что-то в маленьком файле (для каждой строки в большом файле, который я перебрал в маленьком). Это…
26 мар '15 в 22:21
1 ответ

Таблица Cassandra - выберите запрос с предложением where

I am trying to create a table in Cassandra. CREATE TABLE users ( user_name varchar PRIMARY KEY, password varchar, gender varchar, session_token varchar, state varchar, birth_year bigint ); Теперь, если я хочу запросить имя пользователя и пароль табл…
27 апр '17 в 08:08
1 ответ

Таблицы кустов в нескольких узлах - обработка

У меня есть концептуальные сомнения в улье. Я знаю, что Hive - это инструмент для хранения данных, работающий поверх Hadoop. Мы знаем, что Hadoop имеет распределенную файловую систему -HDFS. Предположим, у меня есть один хозяин и три раба. Теперь я …
18 мар '16 в 07:05
1 ответ

Google Bigquery API: как добавить результат запроса в таблицу?

Я уже прочитал некоторое введение по этой теме, но этот код не работал. Я создал таблицу 'product_flat_index' в проекте, и эта функция добавляет результат запроса к этой таблице. Но это не сработало. def insertValues(service): project_id = "59833004…
21 июн '16 в 09:04
0 ответов

Хранилище Microsoft Windows Azure: удаленный сервер вернул ошибку 404 не найдена

Я постоянно получаю сообщение об ошибке "404 not found". Я создал кластер и учетную запись хранения и контейнер. Подробная ошибка, которую я получаю: Необработанное исключение: System.AggregateException: произошла одна или несколько ошибок. --- Micr…
09 сен '16 в 20:55
1 ответ

Является ли реализация Parse Array оптимизацией для больших объемов данных?

Допустим, мы объявили класс "Видео", и один из столбцов в этом классе - "Комментарии". Каждый комментарий представляет собой строку, а столбец комментариев представляет собой массив с множеством строк. Конечно, это архитектура, которая работает, но …
09 июн '17 в 14:17
3 ответа

Как эффективно хранить миллионы статистических записей?

У нас в интернет-магазине около 1,7 миллиона продуктов, мы хотим вести учет того, сколько просмотров было у этих продуктов в течение 1 года, мы хотим записывать просмотры каждые 2 часа, вопрос в том, какую структуру использовать для этой задачи? Пря…
19 дек '16 в 17:18
1 ответ

Сборка проекта GITHUB с использованием Maven

Я на самом деле из БОЛЬШОГО фона данных хочу помочь в Maven. Я пытаюсь получить JSON-jar отсюда для использования в моих таблицах json. У меня есть некоторый код сериализации / десерилизации на Github по этому https://github.com/rcongiu/Hive-JSON-Se…
21 янв '17 в 17:48
1 ответ

FileNotFoundException при использовании DistributedCache для доступа к MapFile

Я использую hadoop cdf4.7 запустить в режиме пряжи. В MapFile есть hdfs://test1:9100/user/tagdict_builder_output/part-00000и у него есть два файла index а также data Я использовал следующий код, чтобы добавить его в distribCache: Configuration conf …
2 ответа

Sentry & Laravel, получение пользователей в группе. изменение findAllUsers с доступом к нумерации страниц

Я пытаюсь найти всех пользователей с определенным списком разрешений в Sentry с помощью laravel. Проблема в том, что Sentry::findAllUsersWithAccess() возвращает array(), как указано в их репозитории GitHub я определил их код, чтобы быть public funct…
09 май '14 в 21:33
2 ответа

Что такое SparkSQL?

Я очень новичок во всем мире технологий "больших данных", и недавно начал читать о Spark. Одной вещью, которая продолжает появляться, является SparkSQL, но я постоянно не могу понять, что это было именно так. Предполагается ли конвертировать SQL-зап…
2 ответа

Комплексная концепция обработки URL

В настоящее время я борюсь со сложным вопросом о концепции обработки URL. Приложение имеет таблицу / коллекцию базы данных свойств продукта со всеми различными типами продуктов (т.е. категориями, цветами, производителями, материалами и т. Д.). {_id:…
25 янв '13 в 09:46