Синтаксис SPSS для импорта RFC-файла RFC 4180 с двойными кавычками
Как прочитать CSV-файл стандарта RFC4180 в SPSS? В частности, как обрабатывать строковые значения со встроенными двойными кавычками, которые (правильно) экранируются второй двойной кавычкой?
Вот один экземпляр записи с проблемным значением:
2985909844,,3,3,3,3,3,3,1,2,2,"I recall an ad for ""RackSpace"", but I don't recall if this was here or in another page.",200,1,1,1,0,1,0,Often
Синтаксис SPSS, который я использовал, выглядит следующим образом:
GET DATA
/TYPE=TXT
/FILE="/Users/pieter/Work/Stackru/2013_StackruRecoded.csv"
/IMPORTCASE=ALL
/ARRANGEMENT=DELIMITED
/DELCASE=LINE
/FIRSTCASE=2
/DELIMITERS=","
/QUALIFIER='"'
/VARIABLES= ... list of column names...
Импорт успешен, но сбивается с пути и выдает предупреждения после обнаружения таких значений.
2 ответа
Я боюсь, что это ошибка в SPSS и, следовательно, невозможно решить.
Возможно, вы захотите спросить службу поддержки IBM об этой проблеме и опубликуйте их ответ здесь, если сочтете это полезным.
Одним из обходных путей может быть изменение двойных кавычек в ваших *.csv-файлах на другой тип кавычек. Это должно быть совсем немного, если вы используете расширенный текстовый редактор, такой как notepad++ или инструмент командной строки "sed" в UNIX-подобных операционных системах.
При использовании примера в текущей версии Statistics (22) дублированные идентификаторы обрабатываются правильно, однако, если вы генерируете синтаксис с помощью мастера текста, поля в сгенерированном синтаксисе слишком короткие, поэтому вам придется увеличить ширину.