Импортировать данные в кассандру с помощью команды копирования

Мне всего лишь неделя до мира C*. Я загружаю данные из файла CSV около (23 ГБ) с помощью команды копирования.

Мне нужно получить количество строк семейства столбцов, чтобы убедиться, что строки вставляются успешно. Я прочитал о двух способах сделать это:

выберите количество (*) от лимита 2000000; Используя инструмент nodestats woth cfstas и проверив 'Number of Keys (эстимейт)', в результате я попробовал вариант (1), но долго ждал без каких-либо результатов. Затем я попробовал вариант (2). Однако я считаю, что количество ключей (оценка) уменьшается со временем. Это часть вывода команды моего узла:

nodetool --host 54.225.108.245 cfstats

O / P:

Keyspace: cookie_udp_ja_meta
    Read Count: 0
    Read Latency: NaN ms.
    Write Count: 215724
    Write Latency: 1.1088440368248316 ms.
    Pending Tasks: 0
            Column Family: rpt_true_metric
            SSTable count: 7
            Space used (live): 741159354
            Space used (total): 741160083
            Number of Keys (estimate): 896
            Memtable Columns Count: 437886
            Memtable Data Size: 61865984
            Memtable Switch Count: 9
            Read Count: 0
            Read Latency: NaN ms.
            Write Count: 215725
            Write Latency: 1.074 ms.
            Pending Tasks: 0
            Bloom Filter False Positives: 0
            Bloom Filter False Ratio: 0.00000
            Bloom Filter Space Used: 7792

Количество ключей (оценка) было 896 5 минут назад, когда я запускал команду, и 1024 3 минуты до этого. Однако я заметил, что значение "Количество записей: 324654" для пространства ключей увеличивается.

Я запутался, если моя команда копирования правильно импортирует данные, так как операция не завершается даже через 30 минут. Добрый совет..

1 ответ

Вам нужно подождать, пока загрузка не будет завершена, альтернативные способы получения количества строк описаны в этом внешнем потоке: http://www.datastax.com/support-forums/topic/row-count-for-a-given-column-family

В моем случае команда SELECT COUNT(*) cqlsh выдаст тайм-аут команды RPC даже после завершения загрузки. Это связано с тем, что в Cassandra очень дорогая операция, и ее успех в основном зависит от того, насколько надежна ваша машина и какова величина тайм-аута RPC в cassandra.yaml.

Другие вопросы по тегам