Невозможно массово импортировать текст свободного потока MonetDB.R

Я пытаюсь импортировать набор данных из 217 000 записей (набор данных Jeopardy) в MonetDB через интерфейс MonetDB.R.

Файл представляет собой файл CSV с двумя верхними строками в виде следующих строк:

show_nos, air_dt, rnd, category, prize, ques, ans,x1,x2,x3
4680,12/31/2004,Jeopardy!,THE COMPANY LINE,$200 ,"In 1963, live on ""The Art Linkletter Show"", this company served its billionth burger",McDonald's,,,

4680,12/31/2004,Jeopardy!,EPITAPHS & TRIBUTES,$200 ,"Signer of the Dec. of Indep., framer of the Constitution of Mass., second President of the United States",John Adams,,,

Проблема, с которой я сталкиваюсь, заключается в импорте ques столбец (данные между " "). Этот столбец содержит несколько запятых и знаков препинания, и monet.read.csv не может импортировать этот столбец.

Я попытался импортировать несколько записей без ques колонка, и работает отлично.

Можете ли вы предложить, как импортировать такие столбцы со свободным потоком текста в monetdb? После импорта я собираюсь выполнить анализ текста в столбце.

1 ответ

Использование monet.read.csv

я тоже предпочитаю MonetDBLite для более легкой настройки, но monet.read.csv работает только с MonetDB.R Спасибо

mylines <-
    c("show_nos, air_dt, rnd, category, prize, ques, ans,x1,x2,x3", 
    "4680,12/31/2004,Jeopardy!,THE COMPANY LINE,$200 ,\"In 1963, live on \"\"The Art Linkletter Show\"\", this company served its billionth burger\",McDonald's,,,", 
    "4680,12/31/2004,Jeopardy!,EPITAPHS & TRIBUTES,$200 ,\"Signer of the Dec. of Indep., framer of the Constitution of Mass., second President of the United States\",John Adams,,,")

tf <- tempfile()
dbfolder <- tempdir()

writeLines( mylines , tf )

library(MonetDBLite)
library(MonetDB.R)

db <- dbConnect( MonetDBLite() , dbfolder )

monet.read.csv( db , tf , 'mytable' )

# looks ok to me
dbReadTable( db , 'mytable' )
Другие вопросы по тегам