Невозможно массово импортировать текст свободного потока MonetDB.R
Я пытаюсь импортировать набор данных из 217 000 записей (набор данных Jeopardy) в MonetDB через интерфейс MonetDB.R.
Файл представляет собой файл CSV с двумя верхними строками в виде следующих строк:
show_nos, air_dt, rnd, category, prize, ques, ans,x1,x2,x3
4680,12/31/2004,Jeopardy!,THE COMPANY LINE,$200 ,"In 1963, live on ""The Art Linkletter Show"", this company served its billionth burger",McDonald's,,,
4680,12/31/2004,Jeopardy!,EPITAPHS & TRIBUTES,$200 ,"Signer of the Dec. of Indep., framer of the Constitution of Mass., second President of the United States",John Adams,,,
Проблема, с которой я сталкиваюсь, заключается в импорте ques
столбец (данные между " "). Этот столбец содержит несколько запятых и знаков препинания, и monet.read.csv не может импортировать этот столбец.
Я попытался импортировать несколько записей без ques
колонка, и работает отлично.
Можете ли вы предложить, как импортировать такие столбцы со свободным потоком текста в monetdb? После импорта я собираюсь выполнить анализ текста в столбце.
1 ответ
Использование monet.read.csv
я тоже предпочитаю MonetDBLite
для более легкой настройки, но monet.read.csv
работает только с MonetDB.R
Спасибо
mylines <-
c("show_nos, air_dt, rnd, category, prize, ques, ans,x1,x2,x3",
"4680,12/31/2004,Jeopardy!,THE COMPANY LINE,$200 ,\"In 1963, live on \"\"The Art Linkletter Show\"\", this company served its billionth burger\",McDonald's,,,",
"4680,12/31/2004,Jeopardy!,EPITAPHS & TRIBUTES,$200 ,\"Signer of the Dec. of Indep., framer of the Constitution of Mass., second President of the United States\",John Adams,,,")
tf <- tempfile()
dbfolder <- tempdir()
writeLines( mylines , tf )
library(MonetDBLite)
library(MonetDB.R)
db <- dbConnect( MonetDBLite() , dbfolder )
monet.read.csv( db , tf , 'mytable' )
# looks ok to me
dbReadTable( db , 'mytable' )