Импорт текстового файла с разделителями табуляции в openrefine

Question

Импорт текстового файла с разделителями табуляции в openrefine

У меня есть.txt файл среднего размера с разделителями табуляции - около 40 тыс. Строк. Когда я импортирую в Openrefine, строка 406 помещает все остальное содержимое - целые 40000 строк в одну ячейку в столбце 13 этой строки.

Я пробовал grep-serching невидимых в двух разных текстовых редакторах (Sublime Text 2 и TextWrangler), и все выглядит так, как должно.

Я также пытался использовать Excel для преобразования в CSV, и это на самом деле работает, но:

это неумелый обходной путь,
у него проблемы с диакритическими знаками, и
В любом случае я не хочу тратить больше времени на его решение в Excel

Я попытался исключить оскорбительную строку с 10 строками с каждой стороны, и это бросает ту же проблему.

Вот эти 21 строка, скопированные непосредственно из TextWrangler. (Я могу скопировать с терминала вывода, если это имеет какое-либо значение.)

Любая помощь, как всегда, очень ценится!

0

text line-breaks openrefine

Источник

user4001398 03 авг '17 в 15:12

2 ответа

Другие вопросы по тегам text line-breaks openrefine

user5383863 03 авг '17 в 16:13 2017-08-03 16:13 · Answer 1 · 2017-08-03 16:13

Понимаю. Проблема связана с кавычками. Попробуйте импортировать файл, сняв флажок "Кавычки используются для включения ячеек, содержащих разделители столбцов".

Пустые столбцы на моем скриншоте связаны с тем, что в вашем файле иногда есть две или три вкладки в качестве разделителя. Вы можете легко удалить их после импорта, используя "переупорядочить / удалить столбцы"

user4001398 03 авг '17 в 23:48 2017-08-03 23:48 · Answer 2 · 2017-08-03 23:48

Решил это! Ну вроде как. Оказывается, что в столбце 13 был текст, который содержал двойные кавычки внутри самого текста (другими словами, вообще не имел отношения к разделителям).

Сейчас я просто собираюсь удалить эти кавычки во всем файле, и это работает - я проверял это. ** Я бы предпочел выяснить, как сохранить кавычки как часть текста. Пытался убежать от них с помощью /, но это не сработало.

Спасибо, Сообщество. Особенно @Ettore.