Как работать с большим файлом TSV
У меня есть файл 5GB+ TSV. Мне нужно визуализировать данные, которые он содержит, но Excel не может открыть файл (по-видимому, слишком большой). Tableau не работает с файлами TSV и Access. Я попытался с 010 Editor, который может открыть файл, но не экспортировать его в полезный формат. Как я могу открыть / экспортировать / преобразовать его?
1 ответ
Согласитесь с Дэном, такие данные нужно загружать в базу данных и выполнять по ней запросы. Один из удобных инструментов для этого - Браузер БД для SQLite. Вы можете импортировать туда файлы csv, tsv в виде таблиц и выполнять на них SQL-запросы. Он использует подчеркивание sqlite и поддерживает большинство функций SQL. Также работает на Mac и Windows.
Я сталкивался с этой проблемой раньше. Проблема в том, что для открытия файла в Excel обычно требуется загрузить весь файл в память. Это нормально, когда размер файла составляет 50 или 500 КБ, но когда он равен 5 ГБ, система не может загрузить его в память.
Чтобы работать с таким большим количеством данных, вам действительно необходимо загрузить их в базу данных и выполнить запросы к ним. Базы данных оптимизированы для работы с большими объемами данных (даже более 5 ГБ).
Сложная часть будет загружать эти данные в базу данных. Вам нужна программа, которая может анализировать ваш файл (читать построчно) и вставлять каждое значение TSV в соответствующий столбец базы данных. Написание приложения, чтобы сделать это самостоятельно, может быть лучше. Если вы работаете в Windows, вы можете использовать C# ( http://www.microsoft.com/visualstudio/eng/products/visual-studio-2010-express) и MSSQL Express ( http://www.microsoft.com/en-us/download/details.aspx?id=29062). Вот полезный ресурс для разбора ( измените CSV Parser для работы с файлами TSV C#). Вот ресурс для вставки строк в MSSQL ( Как вставить данные в SQL Server)