Описание тега large-data
Large data is data that is difficult to process and manage because its size is usually beyond the limits of the software being used to perform the analysis.
2
ответа
Как импортировать уникальные данные с Talend?
У меня есть 100M наборов данных в Oracle, и я пытаюсь импортировать все эти наборы данных в Neo4j с Talend. Мой вопрос заключается в том, что, поскольку 100M наборы данных обновляются каждый день, как я могу убедиться, что Talend будет импортировать…
14 май '14 в 21:14
2
ответа
Чтение матрицы терминов-документов из CSV с использованием Python
Причина, по которой классический csv reader не работает с массивами терминов, заключается в том, что первый столбец файла csv - это термины, а не значения. Таким образом, файл имеет следующий синтаксис: "";"label1";"label2";"label3" ... "term1";1;0;…
08 май '13 в 17:06
0
ответов
Очень длинный список ".asc" файлов в R и применяется do.call. Как с этим бороться?
Надеюсь, вы можете помочь мне с этим. Я работаю над кодом, который позволяет мне собрать очень длинный список файлов.asc (они содержат 307200 (640*480) пикселей с информацией о температуре от тепловой ИК-камеры каждого из файлов). Я разработал код, …
03 мар '16 в 15:32
0
ответов
Нужен быстрый набор данных 2D-просмотрщик / плоттер для больших наборов данных
Я ищу средство просмотра данных / плоттер для некоторых данных, которые я сгенерировал. факты Сначала несколько фактов о данных, которые я сгенерировал: Существует несколько наборов данных с примерно 3 миллионами точек данных в каждом. Каждый набор …
21 авг '12 в 11:13
0
ответов
Android: случайный сбой или размер кучи
Я столкнулся со случайным сбоем в моем приложении, разработанном для "GlassDesign" Цель состоит в том, чтобы продемонстрировать свои очки своим клиентам, а также агентам. Размер приложения составляет 150 МБ Когда я прохожу приложение, для которого т…
25 ноя '13 в 06:32
3
ответа
Python большие файлы, как найти конкретные строки с определенной строкой
Я использую Python для обработки данных из очень больших текстовых файлов (~52 ГБ, 800 миллионов строк каждая с 30 столбцами данных). Я пытаюсь найти эффективный способ найти конкретные строки. К счастью, строка всегда находится в первом столбце. Вс…
23 окт '13 в 17:17
0
ответов
Как читать и записывать очень большие данные из таблицы Excel, используя Apache Poi?
У меня есть задача прочитать 2 файла Excel, содержащих по одному листу в каждом, и создать одну выходную книгу, содержащую 2 листа. Я работаю с файлами.xlsx и Apache POI, в настоящее время я могу записать данные из одного входного файла в выходной ф…
04 июл '17 в 11:32
1
ответ
Профилирующий код Scala для Spark
Я новичок в Scala и программировании больших наборов данных. Мне нужно использовать профилировщик в локальной среде, чтобы проверить, какая операция / функция слишком медленная в моем коде Scala, я пробовал интерфейс Spark как на локальном узле, так…
06 янв '17 в 17:25
0
ответов
MongoDb "Рабочий набор" превышает ОЗУ
Я собираю временные ряды в mongoDb. В конце концов, мой рабочий набор будет больше, чем моя оперативная память. Однако мне в основном нужно получить доступ к последним данным. Если бы я положил все в одну таблицу, можно ли было бы это сделать? Потом…
31 мар '17 в 09:01
0
ответов
SVD на большой и разреженной матрице (24 x 4G) на R
Мне нужно SVD на очень большой матрице (24 x 2^32) на R. Эта матрица разрежена менее чем на 0,01%. Я мог бы сохранить эту матрицу с помощью simple_sparse_array класс в slam пакет. Сначала я пытался использовать sparseMatrix(в Matrix пакет) и irlba, …
08 май '15 в 15:38
4
ответа
Удаление дубликатов на очень больших наборах данных
Я работаю над 13,9 ГБ CSV-файла, который содержит около 16 миллионов строк и 85 столбцов. Я знаю, что потенциально есть несколько сотен тысяч строк, которые являются дубликатами. Я запустил этот код, чтобы удалить их import pandas concatDf=pandas.re…
19 сен '18 в 13:49
1
ответ
Иметь несколько копий таблиц в базах данных для простого запроса на объединение или данные связаны в программе?
В большой системе, которая использует несколько баз данных. например: db_trade используется для хранения торговой информации db_fund используется для хранения учетной записи пользователя db_auth используется для аутентификации и авторизации В этом с…
20 янв '16 в 18:01
3
ответа
Создание двоичной матрицы в R с большим набором данных
Я работаю с версией R 3.2.3 на машине с Linux. У меня есть набор данных с 1374,439 наблюдениями по 145 переменным. Мне нужно преобразовать этот кадр данных в двоичную матрицу. Я посмотрел на разных форумах и нашел решение с пакетом reshape2 и функци…
11 июл '16 в 14:23
0
ответов
Как можно объединить все разделы Dask Data-frame
Я хочу использовать Dask Dataframe, и я использовал Sales = dd.read_csv('Sales.txt',blocksize=500000, storage_options=dict(anon=True)) Product = dd.read_csv('Product.txt') для моих двух файлов, и я объединил две таблицы df = sales_location = Sales.m…
14 май '18 в 23:25
3
ответа
Медленный поиск в большой таблице SQL по нескольким столбцам
Я ищу более высокую производительность при поиске большой (>200000 строк) таблицы SQL-сервера по нескольким столбцам. Текущий код генерирует запрос что-то вроде ( SELECT Person._pk FROM dbo.R_Person as Person WHERE Person._pk > 0 AND Person.first…
14 авг '14 в 22:52
1
ответ
WPF ListView с миллионами строк
Мне нужно отобразить очень большой объем данных в виде списка, до 5 миллионов и более строк. Я пытаюсь найти решение, в котором я могу показать все 5 миллионов элементов, не имея все 5 миллионов элементов в памяти своих приложений. Таким образом, в …
18 мар '14 в 09:22
2
ответа
Jqgrid огромные проблемы с загрузкой данных
Я провожу некоторое исследование jqgrid, все работает нормально, пока я не загружу огромные данные, которые содержат около 1M строк в базе данных, jqgrid не отображается сейчас, когда я уменьшаю размер строк базы данных до 100K, данные будут отображ…
02 июн '11 в 07:21
0
ответов
Заполнение SELECT большим набором данных JSON через ColdFusion (Lucee) очень медленно
Пожалуйста, прости меня, если я предоставил больше информации, чем требуется для этого вопроса.:D Я создаю приложение, которое извлекает большие наборы данных JSON с удаленного компьютера. Тем не менее, я работаю в безопасной среде, которая разделяе…
09 июн '16 в 18:27
2
ответа
Как использовать потоковую передачу со службами WCF, возвращающими большой набор данных?
Я довольно новичок в WCF и пытаюсь выяснить, как работает потоковая передача. У меня в основном есть веб-сервис, который должен возвращать некоторую информацию из базы данных. Возвращаемые данные потенциально очень велики. Укажите хороший пример тог…
18 июл '11 в 18:27
2
ответа
Лучший способ использовать RandomAccessFile - Java
Я создаю утилиту, которая записывает табличный бланк MSSQL в файл диска данных, используя RandomAccessFile. Это слишком медленно, потому что нам нужно всегда искать последнюю позицию и записывать содержимое потока. Пожалуйста, дайте мне знать любую …
06 сен '18 в 05:06