STXXL проигрывает при использовании очень быстрых SSD
В настоящее время я пишу инструмент, который использует STXXL, чтобы найти сходство между большим файлом на жестком диске и векторами, расположенными в оперативной памяти. Я написал пример (для Windows) ниже, чтобы показать, что я имею в виду. Ссылочный файл имеет размер около 38 ГБ и был создан с помощью указанного инструмента.
На обычных HDD и SATA-SSD он работает довольно хорошо, но на M.2 или более быстрых SSD он использует не более трети полосы пропускания, хотя он может получить больше.
Профилировщик VS2017 указывает, что
const_reference const_element(const blocked_index_type& offset) const
функция STXXL, которая косвенно вызывает
https://stxxl.org/tags/1.4.1/group__reqlayer.html
кажется, самая медленная часть. У кого-нибудь есть идея относительно того, почему он не работает и что нужно изменить?
Заранее спасибо.
РЕДАКТИРОВАТЬ: Таблица производительности для нового кода:
Threads CPU% SSD MB/s Time in s
8 72 450 265
6 64 560 286
4 52 720 329
2 29 790 600
1 17 900 1051
Код:
#include <inttypes.h>
#include <vector>
#include <random>
#include <ctime>
#include <limits>
#include <algorithm>
#include <tuple>
#include <chrono>
#include <stxxl/vector>
#include <stxxl/bits/io/wincall_file.h>
#include <omp.h>
using namespace std;
typedef stxxl::VECTOR_GENERATOR<tuple<uint32_t, uint32_t>, 16U, 16U, 4096 * 8, stxxl::RC>::result contentVecType;
int main() {
auto start = std::chrono::high_resolution_clock::now();
const string& sLibFile = "I:/DA/merged_s_80_h";
const int32_t& iNumOfThreads = 1, iNumOfVecs = 24;
const int32_t& iDiv = iNumOfVecs / iNumOfThreads;
omp_set_num_threads(iNumOfThreads);
ifstream fLibInfo(sLibFile + "_info.txt");
uint64_t iSizeOfLib = 0;
fLibInfo >> iSizeOfLib;
stxxl::wincall_file* stxxlLibFile = new stxxl::wincall_file(sLibFile, stxxl::file::RDONLY);
const contentVecType** vLib = new const contentVecType*[iNumOfThreads];
for (int32_t i = 0; i < iNumOfThreads; ++i) {
vLib[i] = new const contentVecType(stxxlLibFile, iSizeOfLib);
}
mt19937_64 rng(time(0));
uniform_int_distribution<uint32_t> unii(1, numeric_limits<uint32_t>::max());
vector<tuple<uint32_t,uint32_t>> vInput[24];
for (int32_t i = 0; i < iNumOfVecs; ++i) {
for (int32_t j = 0; j < 100000; ++j) {
vInput[i].push_back(make_tuple(unii(rng),0));
}
}
#pragma omp parallel for
for (int32_t i = 0; i < iNumOfVecs; ++i) {
sort(vInput[i].begin(), vInput[i].end());
}
#pragma omp parallel for
for (int32_t i = 0; i < iNumOfThreads; ++i) {
for (int32_t j = i* iDiv; j < (i+1)*iDiv; ++j) {
vector<tuple<uint32_t, uint32_t>> vDummy(vInput[j].size());
set_intersection(vInput[j].cbegin(), vInput[j].cend(), vLib[i]->cbegin(), vLib[i]->cend(), vDummy.begin(), [](const tuple<uint32_t, uint32_t>& a, const tuple<uint32_t, uint32_t>& b) { return get<0>(a) < get<0>(b); });
}
}
for (int32_t i = 0; i < iNumOfThreads; ++i) {
delete vLib[i];
}
delete[] vLib;
delete stxxlLibFile;
auto end = std::chrono::high_resolution_clock::now();
cout << "Time: " << chrono::duration_cast<std::chrono::seconds>(end - start).count() << endl;
return 0;
}