Что такое накладные расходы от разбора строк до чисел
Я исследую форматы хранения данных для числовых данных. Я рассматриваю различия между по существу разделенными значениями форматами и двоичными форматами, такими как HDF5. В первом случае текстовое представление значения необходимо проанализировать в формате двоичных чисел (скажем, double), прежде чем его можно будет манипулировать программным обеспечением для обработки данных. Для последних эти значения по существу сохраняются и, таким образом, считываются непосредственно с диска в формате двоичного числа.
Интересно, что накладные расходы от разбора. Иными словами, насколько эффективны такие процедуры, как strtod
, Я не смог найти результаты об этом онлайн, хотя я полагаю, что это, должно быть, изучено. Поэтому мне интересны указатели на такие исследования, а также прямые ответы здесь.
Я знаю, что другие аспекты также могут играть роль. Например, наборы данных основаны на массивах, и такие форматы, как HDF5, хранят эти массивы напрямую, готовые для чтения программным обеспечением. Также здесь может быть дополнительный этап обработки, начиная с текстовых представлений. Вероятно, есть и другие соображения. Мне также было бы интересно узнать о них.