Описание тега partitioner

Описание тега Вопросы с тегом

Разделители - это программные компоненты, которые разделяют, возможно, очень большие группы данных на некоторое количество меньших групп данных, предположительно равного размера.

2 ответа

Разница между объединителем и разделителем

Я новичок в MapReduce и просто не могу понять разницу в разделителях и объединителях. Я знаю, что оба выполняются на промежуточном этапе между картой и сокращают задачи, и оба уменьшают объем данных, которые должны обрабатываться задачей сокращения.…

hadoop mapreduce partitioner

25 июл '16 в 08:26

2 ответа

Ошибка пользовательского разделителя

Я пишу свой собственный Partitioner(Old Api) ниже, это код, где я расширяю класс Partitioner: public static class WordPairPartitioner extends Partitioner<WordPair,IntWritable> { @Override public int getPartition(WordPair wordPair, IntWritable …

hadoop partitioner

30 мар '13 в 06:16

1 ответ

Springbatch динамический множественный писатель XML-файлов

Я должен сделать партию, которая:читать некоторые данные из БД (каждая строка является элементом, это нормально)затем выполните некоторый процесс, чтобы добавить больше данных (больше данных всегда лучше;))тогда вот моя проблема, я должен записать к…

xml output spring-batch partitioner

19 янв '15 в 10:45

0 ответов

Как я могу использовать 100% мощности машины при использовании [Parallel.ForEach]?

long lngSum = 0; Parallel.ForEach(Partitioner.Create(0L, lngMax + 1), range => { long local = 0; //4cores : 9 ranges //64cores : 97 ranges for (long i = range.Item1; i <= range.Item2 - 1; i++) { if (i % 2 == 0) { local += i; } else { local -=…

c# foreach parallel-processing cpu partitioner

21 сен '17 в 04:35

1 ответ

Как работает "обмен хэш-секционированием" в spark

У меня есть набор данных, который я хочу записать, отсортированный в файлы паркета, чтобы впоследствии получить выгоду от запроса этих файлов через Spark, включая Predicate Pushdown. В настоящее время я использовал перераспределение по столбцам и ко…

scala apache-spark apache-spark-sql partition partitioner

16 янв '19 в 11:00

3 ответа

В чем разница между фазой перемешивания и фазой объединителя?

Я довольно запутался насчет MapReduce Framework. Я запутался, читая об этом разные источники. Кстати, это моя идея работы MapReduce 1. Map()-->emit <key,value> 2. Partitioner (OPTIONAL) --> divide intermediate output from mapper and assi…

hadoop mapreduce combiners partitioner

06 окт '16 в 10:09

2 ответа

Разделитель Hadoop

Я хочу спросить о разделителе Hadoop, реализован ли он в Mappers? Как измерить производительность при использовании стандартного хеш-разделителя - Есть ли лучший разделитель для уменьшения перекоса данных? Спасибо

hadoop mapreduce partitioner

22 дек '14 в 00:14

0 ответов

Как избежать увеличения входного трафика для брокеров Kafka при использовании пользовательского разделителя?

Чтобы сгладить трафик между всеми разделами Kafka, я попытался создать собственный разделитель (расширение kafka.producer.Partitioner) для моих производителей, чтобы заменить разделитель по умолчанию, который изменяет разделы каждые 10 минут. Мой ра…

apache-kafka partitioner

01 июн '15 в 12:30

1 ответ

Почему параллельная обработка намного медленнее для первого вызова в C#?

Я пытаюсь обработать числа как можно быстрее с приложением C#. Я использую Thread.Sleep() моделировать обработку и случайные числа. Я использую 3 разных метода. Это тестовый код, который я использовал: using System; using System.Collections.Concurre…

c# parallel-processing task parallel.foreach partitioner

31 окт '17 в 12:33

0 ответов

Spark даже распределение данных

Я пытаюсь решить проблему перекоса данных в кадре данных. Я ввел новый столбец, основанный на алгоритме упаковки бинов, который должен равномерно распределять данные между бинами (в моем случае это разделы). Мой счетчик для 500 000 строк. Я назначил…

scala apache-spark apache-spark-sql partitioner

30 ноя '18 в 13:41

1 ответ

Могу ли я иметь разные разделители в конфигурации с несколькими центрами обработки данных в Кассандре?

Могу ли я иметь RandomPartitioner в кластере в центре обработки данных1 и Murmur3Partitioner в кластере в центре обработки данных2?

cassandra partitioner

18 сен '13 в 16:22

0 ответов

Пользовательский разделитель Spark для СДР путей S3

У меня есть RDD[(Long, String)] дорожек S3 (ведро + ключ) с их размерами. Я хочу разделить его так, чтобы каждый раздел получал пути, размеры которых суммируются примерно до одного и того же значения. Таким образом, когда я читаю контент для этих пу…

scala apache-spark amazon-s3 rdd partitioner

21 мар '16 в 01:31

1 ответ

Настройте Partitioner для балансировки входов с редукторами

Предположим, мои преобразователи выдают N ключей (эти ключи разные), и у меня есть K редукторов. Как написать собственный Paritioner, чтобы каждый редуктор получал примерно N/K ключей? Какие ключи идут на какие получает, не важно. Пример: предположи…

hadoop mapreduce reducers partitioner

22 июн '18 в 03:07

0 ответов

Почему разделитель hadoop выполняет двоичное И?

Я совершенно новичок в Hadoop и довольно новичок в Map/Reduce, так что терпите меня, если это очень простой вопрос. В хеш-секционере hadoop, почему он делает хеш (ключ) & Integer.MAX_VALUE, прежде чем делать по модулю число редукторов? Какой смысл д…

hadoop mapreduce partitioner

12 окт '16 в 07:14

2 ответа

Почему Partitioner вызывается даже с одним редуктором

Если у нас есть задание MR, настроенное для работы только с одним редуктором, кажется логичным, что Partitioner не нужно вызывать. Однако я только что сделал это, и похоже, что Partitioner вызывается, даже если задание настроено с одним редуктором. …

hadoop mapreduce partitioner

15 апр '14 в 11:56

0 ответов

Конфигурация задания раздела с использованием конфигурации Java

Пожалуйста, помогите мне, как сделать Spring Partition работу с использованием Java-конфигурации. Я должен написать работу раздела на основе номера учетной записи. Я не уверен, как настроить следующий bean-компонент XML в конфигурации Java. <int:…

spring-batch partitioner

20 сен '18 в 21:16

4 ответа

Вывод одного файла для разделителя

Попытка получить столько редуктора, сколько нет ключей public class CustomPartitioner extends Partitioner<Text, Text> { public int getPartition(Text key, Text value,int numReduceTasks) { System.out.println("In CustomP"); return (key.toString()…

java hadoop mapreduce partitioner

17 июн '14 в 10:26

0 ответов

Как разделитель диапазона обрабатывает родительские разделы между исполнителями?

В Apache Spark разделители используются для определения того, как данные будут перетасовываться. У них всех есть getPartition(key: Any): Int способ сделать это. В частности в RangePartitionerразработчики должны передавать информацию о RDD чтобы нача…

apache-spark shuffle partitioner

07 янв '18 в 02:01

0 ответов

Как реализовать пользовательский Partitioner<T>

Я пытаюсь понять, как реализовать Partitioner<T>, Мое дело: Читаем из файла и вставляем в хранилище таблицы Azure. Мы используем задачи, чтобы ускорить процесс. Файл имеет около 10 000 000 строк. Я попытался реализовать более элегантное решени…

c# multithreading partitioning plinq partitioner

25 ноя '14 в 00:14

2 ответа

Hadoop порядок операций

В соответствии с приложенным изображением, найденным в уроке по Yahoo, у вас есть следующий порядок действий: карта> объединение> раздел, за которым следует уменьшение Вот мой пример ключа, испускаемого операцией карты LongValueSum:geo_US|1311722400…

hadoop combiners partitioner

05 авг '11 в 20:58