При запуске PL/R на PostgreSQL может ли R обрабатывать данные больше, чем ОЗУ?

Question

При запуске PL/R на PostgreSQL может ли R обрабатывать данные больше, чем ОЗУ?

Когда я использую R с открытым исходным кодом, если не использую определенный пакет, невозможно обрабатывать наборы данных больше, чем объем оперативной памяти. Поэтому я хотел бы знать, возможно ли обрабатывать большие наборы данных, применяя функции PL/R внутри PostgreSQL.

Я не нашел никаких документов по этому поводу.

5

r postgresql bigdata plr

Источник

user1760525 17 май '13 в 15:04

2 ответа

Решение

Нет. PL/R просто запускает отдельный R-процесс для запуска вашего R-кода. При этом используются те же двоичные файлы и исполняемые файлы, что и в командной строке, поэтому все стандартные ограничения по-прежнему применяются.

1

Источник

user474349 17 май '13 в 17:22

Другие вопросы по тегам r postgresql bigdata plr

user1822337 18 май '13 в 00:16 2013-05-18 00:16 · Accepted Answer · 2013-05-18 00:16

Как упомянул Хонг Оои, PL/R загружает интерпретатор R в бэкэнд-процесс PostgreSQL. Таким образом, ваш код R работает "в базе данных".

Не существует универсального способа справиться с ограничениями памяти, но есть как минимум два возможных варианта:

определить пользовательский агрегат PostgreSQL и использовать вашу PL / R-функцию в качестве "конечной" функции. Таким образом, вы обрабатываете в группах, и, следовательно, меньше проблем с памятью. Для получения более подробной информации смотрите онлайн-документацию по PostgreSQL и документацию по PL / R (я не часто публикую в stackru, поэтому, к сожалению, он не позволит мне публиковать реальные URL-адреса для вас)
Используйте функции pg.spi.cursor_open и pg.spi.cursor_fetch, установленные PL / R в интерпретаторе R, чтобы выложить данные в вашу функцию R порциями.

См. PL / R документы здесь: http://www.joeconway.com/plr/doc/index.html

Я предполагаю, что вы действительно хотели бы иметь data.frame, в котором данные перемещаются в и из базовой базы данных курсора прозрачно в ваш R-код. Это на моем долгосрочном TODO, но, к сожалению, я не смог найти время, чтобы решить это. Мне сказали, что Oracle R-коннектор имеет эту функцию, так что, кажется, это можно сделать. Патчи приветствуются;-)