Синтаксис SPSS для импорта RFC-файла RFC 4180 с двойными кавычками

Как прочитать CSV-файл стандарта RFC4180 в SPSS? В частности, как обрабатывать строковые значения со встроенными двойными кавычками, которые (правильно) экранируются второй двойной кавычкой?

Вот один экземпляр записи с проблемным значением:

2985909844,,3,3,3,3,3,3,1,2,2,"I recall an ad for ""RackSpace"", but I don't recall if this was here or in another page.",200,1,1,1,0,1,0,Often

Синтаксис SPSS, который я использовал, выглядит следующим образом:

GET DATA
  /TYPE=TXT
  /FILE="/Users/pieter/Work/Stackru/2013_StackruRecoded.csv"
  /IMPORTCASE=ALL
  /ARRANGEMENT=DELIMITED
  /DELCASE=LINE
  /FIRSTCASE=2
  /DELIMITERS=","
  /QUALIFIER='"'
  /VARIABLES=  ... list of column names...

Импорт успешен, но сбивается с пути и выдает предупреждения после обнаружения таких значений.

2 ответа

Решение

Я боюсь, что это ошибка в SPSS и, следовательно, невозможно решить.

Возможно, вы захотите спросить службу поддержки IBM об этой проблеме и опубликуйте их ответ здесь, если сочтете это полезным.

Одним из обходных путей может быть изменение двойных кавычек в ваших *.csv-файлах на другой тип кавычек. Это должно быть совсем немного, если вы используете расширенный текстовый редактор, такой как notepad++ или инструмент командной строки "sed" в UNIX-подобных операционных системах.

При использовании примера в текущей версии Statistics (22) дублированные идентификаторы обрабатываются правильно, однако, если вы генерируете синтаксис с помощью мастера текста, поля в сгенерированном синтаксисе слишком короткие, поэтому вам придется увеличить ширину.

Другие вопросы по тегам