Описание тега partitioner

Разделители - это программные компоненты, которые разделяют, возможно, очень большие группы данных на некоторое количество меньших групп данных, предположительно равного размера.
2 ответа

Разница между объединителем и разделителем

Я новичок в MapReduce и просто не могу понять разницу в разделителях и объединителях. Я знаю, что оба выполняются на промежуточном этапе между картой и сокращают задачи, и оба уменьшают объем данных, которые должны обрабатываться задачей сокращения.…
25 июл '16 в 08:26
2 ответа

Ошибка пользовательского разделителя

Я пишу свой собственный Partitioner(Old Api) ниже, это код, где я расширяю класс Partitioner: public static class WordPairPartitioner extends Partitioner<WordPair,IntWritable> { @Override public int getPartition(WordPair wordPair, IntWritable …
30 мар '13 в 06:16
1 ответ

Springbatch динамический множественный писатель XML-файлов

Я должен сделать партию, которая:читать некоторые данные из БД (каждая строка является элементом, это нормально)затем выполните некоторый процесс, чтобы добавить больше данных (больше данных всегда лучше;))тогда вот моя проблема, я должен записать к…
19 янв '15 в 10:45
0 ответов

Как я могу использовать 100% мощности машины при использовании [Parallel.ForEach]?

long lngSum = 0; Parallel.ForEach(Partitioner.Create(0L, lngMax + 1), range => { long local = 0; //4cores : 9 ranges //64cores : 97 ranges for (long i = range.Item1; i <= range.Item2 - 1; i++) { if (i % 2 == 0) { local += i; } else { local -=…
21 сен '17 в 04:35
1 ответ

Как работает "обмен хэш-секционированием" в spark

У меня есть набор данных, который я хочу записать, отсортированный в файлы паркета, чтобы впоследствии получить выгоду от запроса этих файлов через Spark, включая Predicate Pushdown. В настоящее время я использовал перераспределение по столбцам и ко…
3 ответа

В чем разница между фазой перемешивания и фазой объединителя?

Я довольно запутался насчет MapReduce Framework. Я запутался, читая об этом разные источники. Кстати, это моя идея работы MapReduce 1. Map()-->emit <key,value> 2. Partitioner (OPTIONAL) --> divide intermediate output from mapper and assi…
06 окт '16 в 10:09
2 ответа

Разделитель Hadoop

Я хочу спросить о разделителе Hadoop, реализован ли он в Mappers? Как измерить производительность при использовании стандартного хеш-разделителя - Есть ли лучший разделитель для уменьшения перекоса данных? Спасибо
22 дек '14 в 00:14
0 ответов

Как избежать увеличения входного трафика для брокеров Kafka при использовании пользовательского разделителя?

Чтобы сгладить трафик между всеми разделами Kafka, я попытался создать собственный разделитель (расширение kafka.producer.Partitioner) для моих производителей, чтобы заменить разделитель по умолчанию, который изменяет разделы каждые 10 минут. Мой ра…
01 июн '15 в 12:30
1 ответ

Почему параллельная обработка намного медленнее для первого вызова в C#?

Я пытаюсь обработать числа как можно быстрее с приложением C#. Я использую Thread.Sleep() моделировать обработку и случайные числа. Я использую 3 разных метода. Это тестовый код, который я использовал: using System; using System.Collections.Concurre…
0 ответов

Spark даже распределение данных

Я пытаюсь решить проблему перекоса данных в кадре данных. Я ввел новый столбец, основанный на алгоритме упаковки бинов, который должен равномерно распределять данные между бинами (в моем случае это разделы). Мой счетчик для 500 000 строк. Я назначил…
1 ответ

Могу ли я иметь разные разделители в конфигурации с несколькими центрами обработки данных в Кассандре?

Могу ли я иметь RandomPartitioner в кластере в центре обработки данных1 и Murmur3Partitioner в кластере в центре обработки данных2?
18 сен '13 в 16:22
0 ответов

Пользовательский разделитель Spark для СДР путей S3

У меня есть RDD[(Long, String)] дорожек S3 (ведро + ключ) с их размерами. Я хочу разделить его так, чтобы каждый раздел получал пути, размеры которых суммируются примерно до одного и того же значения. Таким образом, когда я читаю контент для этих пу…
21 мар '16 в 01:31
1 ответ

Настройте Partitioner для балансировки входов с редукторами

Предположим, мои преобразователи выдают N ключей (эти ключи разные), и у меня есть K редукторов. Как написать собственный Paritioner, чтобы каждый редуктор получал примерно N/K ключей? Какие ключи идут на какие получает, не важно. Пример: предположи…
22 июн '18 в 03:07
0 ответов

Почему разделитель hadoop выполняет двоичное И?

Я совершенно новичок в Hadoop и довольно новичок в Map/Reduce, так что терпите меня, если это очень простой вопрос. В хеш-секционере hadoop, почему он делает хеш (ключ) & Integer.MAX_VALUE, прежде чем делать по модулю число редукторов? Какой смысл д…
12 окт '16 в 07:14
2 ответа

Почему Partitioner вызывается даже с одним редуктором

Если у нас есть задание MR, настроенное для работы только с одним редуктором, кажется логичным, что Partitioner не нужно вызывать. Однако я только что сделал это, и похоже, что Partitioner вызывается, даже если задание настроено с одним редуктором. …
15 апр '14 в 11:56
0 ответов

Конфигурация задания раздела с использованием конфигурации Java

Пожалуйста, помогите мне, как сделать Spring Partition работу с использованием Java-конфигурации. Я должен написать работу раздела на основе номера учетной записи. Я не уверен, как настроить следующий bean-компонент XML в конфигурации Java. <int:…
20 сен '18 в 21:16
4 ответа

Вывод одного файла для разделителя

Попытка получить столько редуктора, сколько нет ключей public class CustomPartitioner extends Partitioner<Text, Text> { public int getPartition(Text key, Text value,int numReduceTasks) { System.out.println("In CustomP"); return (key.toString()…
17 июн '14 в 10:26
0 ответов

Как разделитель диапазона обрабатывает родительские разделы между исполнителями?

В Apache Spark разделители используются для определения того, как данные будут перетасовываться. У них всех есть getPartition(key: Any): Int способ сделать это. В частности в RangePartitionerразработчики должны передавать информацию о RDD чтобы нача…
07 янв '18 в 02:01
0 ответов

Как реализовать пользовательский Partitioner<T>

Я пытаюсь понять, как реализовать Partitioner&lt;T&gt;, Мое дело: Читаем из файла и вставляем в хранилище таблицы Azure. Мы используем задачи, чтобы ускорить процесс. Файл имеет около 10 000 000 строк. Я попытался реализовать более элегантное решени…
2 ответа

Hadoop порядок операций

В соответствии с приложенным изображением, найденным в уроке по Yahoo, у вас есть следующий порядок действий: карта> объединение> раздел, за которым следует уменьшение Вот мой пример ключа, испускаемого операцией карты LongValueSum:geo_US|1311722400…
05 авг '11 в 20:58