Как загрузить большой файл CSV в WSO2 ML
Я пытался загрузить CSV-файл 10 ГБ в WSO2 ML, но я не смог этого сделать, он дал мне ошибки, я перешел по этой ссылке, чтобы изменить ограничение размера моего набора данных в WSO2 ML ( https://docs.wso2.com / display / ML100 / FAQ # FAQ-Isthereafilesizelimittomydataset? Isthereafilesizelimittomydataset?)
Я использую wso2 ML на ПК со следующими характеристиками: - 50 ГБ ОЗУ - 8 ядер
Спасибо
2 ответа
Для тех, кто хочет использовать HDP (Hortonworks) как часть вашего решения HDFS для загрузки набора данных большого размера для WSO2 ML, используя порт NameNode 8020 через IPC, т.е. hdfs://hostname:8020/samples/data/wdbcSample.csv Вам также может понадобиться сначала вставить такой файл данных в HDFS, используя следующий клиент Java:
public static void main(String[] args) throws Exception {
Configuration configuration = new Configuration();
FileSystem hdfs = FileSystem.get(new URI("hdfs://hostname:8020"), configuration);
Path dstPath = new Path("hdfs://hostname:8020/samples/data/wdbcSample.csv");
if (hdfs.exists(dstPath)) {
hdfs.delete(dstPath, true);
} else {
System.out.println("No such destination ...");
}
Path srcPath = new Path("wdbcSample.csv"); // a local file path on the client side
try {
hdfs.copyFromLocalFile(srcPath, dstPath);
System.out.println("Done successfully ...");
} catch (Exception ex) {
ex.printStackTrace();
} finally {
hdfs.close();
}
}
Когда дело доходит до загрузки наборов данных в WSO2 Machine Learner, у нас есть три варианта.
- Загрузка файлов из вашей локальной файловой системы. Как вы уже упоминали, максимальный лимит загрузки поддерживается до 100 МБ, и вы можете увеличить лимит, установив
-Dog.apache.cxf.io.CachedOutputStream.Threshold
вариант твойwso2server.dat
файл. Мы протестировали эту функцию с файлом 1 ГБ. Однако для больших файлов мы не рекомендуем эту опцию. Основной вариант использования этой функции - позволить пользователям быстро опробовать некоторый алгоритм машинного обучения с небольшими наборами данных.
Поскольку вы работаете с большим набором данных, мы хотели бы рекомендовать следующие два подхода для загрузки вашего набора данных на сервер WSO2 ML.
Загрузка данных с использованием файловой системы Hadoop (HDFS). Мы дали подробное описание того, как использовать файлы HDFS в WSO2 ML в нашей документации [1].
Если у вас есть и работает экземпляр WSO2 DAS, интегрируя WSO2 ML с WSO2 DAS, вы можете легко указать таблицу DAS в качестве типа источника в мастере WSO2 ML "Создать набор данных". Для получения более подробной информации об интеграции WSO2 ML с WSO2 DAS, пожалуйста, обратитесь к [2].
Если вам нужна дополнительная помощь по этому вопросу, пожалуйста, дайте мне знать.
[1]. https://docs.wso2.com/display/ML100/HDFS+Support
[2]. https://docs.wso2.com/display/ML110/Integration+with+WSO2+Data+Analytics+Server