Как загрузить большой файл CSV в WSO2 ML

Я пытался загрузить CSV-файл 10 ГБ в WSO2 ML, но я не смог этого сделать, он дал мне ошибки, я перешел по этой ссылке, чтобы изменить ограничение размера моего набора данных в WSO2 ML ( https://docs.wso2.com / display / ML100 / FAQ # FAQ-Isthereafilesizelimittomydataset? Isthereafilesizelimittomydataset?)

Я использую wso2 ML на ПК со следующими характеристиками: - 50 ГБ ОЗУ - 8 ядер

Спасибо

2 ответа

Для тех, кто хочет использовать HDP (Hortonworks) как часть вашего решения HDFS для загрузки набора данных большого размера для WSO2 ML, используя порт NameNode 8020 через IPC, т.е. hdfs://hostname:8020/samples/data/wdbcSample.csv Вам также может понадобиться сначала вставить такой файл данных в HDFS, используя следующий клиент Java:

public static void main(String[] args) throws Exception {

    Configuration configuration = new Configuration();

    FileSystem hdfs = FileSystem.get(new URI("hdfs://hostname:8020"), configuration);
    Path dstPath = new Path("hdfs://hostname:8020/samples/data/wdbcSample.csv");

    if (hdfs.exists(dstPath)) {
        hdfs.delete(dstPath, true);
    } else {
        System.out.println("No such destination ...");
    }
    Path srcPath = new Path("wdbcSample.csv"); // a local file path on the client side

    try {
        hdfs.copyFromLocalFile(srcPath, dstPath);
        System.out.println("Done successfully ...");
    } catch (Exception ex) {
        ex.printStackTrace();
    } finally {
        hdfs.close();
    }
}

Когда дело доходит до загрузки наборов данных в WSO2 Machine Learner, у нас есть три варианта.

  1. Загрузка файлов из вашей локальной файловой системы. Как вы уже упоминали, максимальный лимит загрузки поддерживается до 100 МБ, и вы можете увеличить лимит, установив -Dog.apache.cxf.io.CachedOutputStream.Threshold вариант твой wso2server.dat файл. Мы протестировали эту функцию с файлом 1 ГБ. Однако для больших файлов мы не рекомендуем эту опцию. Основной вариант использования этой функции - позволить пользователям быстро опробовать некоторый алгоритм машинного обучения с небольшими наборами данных.

Поскольку вы работаете с большим набором данных, мы хотели бы рекомендовать следующие два подхода для загрузки вашего набора данных на сервер WSO2 ML.

  1. Загрузка данных с использованием файловой системы Hadoop (HDFS). Мы дали подробное описание того, как использовать файлы HDFS в WSO2 ML в нашей документации [1].

  2. Если у вас есть и работает экземпляр WSO2 DAS, интегрируя WSO2 ML с WSO2 DAS, вы можете легко указать таблицу DAS в качестве типа источника в мастере WSO2 ML "Создать набор данных". Для получения более подробной информации об интеграции WSO2 ML с WSO2 DAS, пожалуйста, обратитесь к [2].

Если вам нужна дополнительная помощь по этому вопросу, пожалуйста, дайте мне знать.

[1]. https://docs.wso2.com/display/ML100/HDFS+Support

[2]. https://docs.wso2.com/display/ML110/Integration+with+WSO2+Data+Analytics+Server

Другие вопросы по тегам