Как использовать pandas_profiling с большой таблицей базы данных

Я пытаюсь использовать pandas_profiling для профилирования таблицы. В нем около 20 столбцов, большинство из которых являются плавающими и почти 3 миллиона записей.

Я получил следующую ошибку:

Traceback (последний вызов был последним): файл "V:\Python\prof.py", строка 53, если имя == "main": main () файл "V:\Python\prof.py", строка 21, в основном файле df = pd.read_sql(запрос, sql_conn) файл "C:\Users\linus\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\sql.py", строка 380, в read_sql chunksize=chunksize) Файл "C:\Users\linus\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\sql.py", строка 1477, в файле read_query data = self._fetchall_as_list(курсор) Файл "C:\Users\linus\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\sql.py", строка 1486, в списке _fetchall_as_ result = cur.fetchall() MemoryError

Я попытался с меньшим количеством записи это сработало.

Есть ли способ обойти эту ошибку? Похоже, это ограничение памяти. Можем ли мы сделать это по-другому? Или это невозможно с Python?

Спасибо за помощь

1 ответ

Если вы в состоянии предоставить информацию, чтобы мы могли повторить ошибку, мы можем ее устранить. Я бы порекомендовал открыть вопрос на странице GitHub.

Раскрыть: я являюсь соавтором этого пакета.

Другие вопросы по тегам