Как использовать pandas_profiling с большой таблицей базы данных
Я пытаюсь использовать pandas_profiling для профилирования таблицы. В нем около 20 столбцов, большинство из которых являются плавающими и почти 3 миллиона записей.
Я получил следующую ошибку:
Traceback (последний вызов был последним): файл "V:\Python\prof.py", строка 53, если имя == "main": main () файл "V:\Python\prof.py", строка 21, в основном файле df = pd.read_sql(запрос, sql_conn) файл "C:\Users\linus\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\sql.py", строка 380, в read_sql chunksize=chunksize) Файл "C:\Users\linus\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\sql.py", строка 1477, в файле read_query data = self._fetchall_as_list(курсор) Файл "C:\Users\linus\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\sql.py", строка 1486, в списке _fetchall_as_ result = cur.fetchall() MemoryError
Я попытался с меньшим количеством записи это сработало.
Есть ли способ обойти эту ошибку? Похоже, это ограничение памяти. Можем ли мы сделать это по-другому? Или это невозможно с Python?
Спасибо за помощь
1 ответ
Если вы в состоянии предоставить информацию, чтобы мы могли повторить ошибку, мы можем ее устранить. Я бы порекомендовал открыть вопрос на странице GitHub.
Раскрыть: я являюсь соавтором этого пакета.