Описание тега openrefine
OpenRefine is the new name for the data cleaning tool which used to be called Google Refine (and was born as Freebase Gridworks)
1
ответ
Как сохранить только определенные элементы JSON в новом столбце OpenRefine
{ "business_id": "SQ0j7bgSTazkVQlF5AnqyQ", "full_address": "214 E Main St\nCarnegie\nCarnegie, PA 15106", "hours": {}, "open": true, ** "categories": ["Chinese", "Restaurants"] ** , "city": "Carnegie", "review_count": 9, "name": "Don Don Chinese Res…
21 апр '16 в 20:53
1
ответ
Google Refine: Могу ли я использовать переменную в регулярном выражении?
Я пытаюсь сделать что-то подобное в Open/Google Refine: forEach(["foo", "bar"], regex, value.match(/.*(regex).*/)) То есть цикл массив ключевых слов, чтобы проверить, содержит ли ячейка любое из них. Как я могу использовать эти ключевые слова для со…
03 янв '14 в 09:57
2
ответа
OpenRefine Regex и GREL совпадают с ошибкой
Внутри openRefine Я хочу запустить приведенное ниже регулярное выражение для источника веб-сайта, который находит адреса электронной почты с mailto ссылка на сайт. Моя проблема при запуске value.match, я получаю эту ошибку: Ошибка синтаксического ан…
05 июл '16 в 17:08
1
ответ
Openrefine: cross.cell для похожих, но не идентичных значений
У меня есть два набора данных: один набор данных имеет названия стран, но грязные, такие как Gaule Cisalpine (провинция Ромейн) Gaule Belgique Gaule, Histoire Gaule ЕСС. второй набор данных имеет два столбца с названиями стран (чистый) и с кодом Gau…
20 май '16 в 13:34
1
ответ
Grel для применения ко ВСЕМ столбцам или текущему столбцу
У меня есть транспозиция, которую я хотел бы применить к нескольким столбцам. Сгенерированный Grel показывает columnName или Base name, но это означает, что мне нужно редактировать код для каждого столбца. Мысль, что есть способ найти индекс столбца…
07 мар '14 в 21:36
5
ответов
Преобразование даты в эпоху в clojure или jython
Я ищу формулу для преобразования даты в эпоху времени в OpenRefine. Я знаю, что язык GREL не поддерживает это, но мне интересно, работает ли clojure или jython, и если да, то как? Я не знаком с этими языками вообще. Сейчас я использую вызов API с эт…
25 фев '13 в 22:05
1
ответ
Специальные символы в функции замены
Функция замены GREL ожидает 3 строки или строку, регулярное выражение и строку. В третьей строке, используемой для замены, некоторые символы имеют специальное поведение: \, \, \t, \n, \', \"и, возможно, некоторые другие комбинации. \ Ничего не делае…
22 сен '18 в 12:10
2
ответа
Можно ли использовать OpenRefine/ Google уточнение для страниц за логином?
И если нет, то есть ли сопоставимая альтернатива, которая может? Я посмотрел в документации, но ничего не увидел по этому вопросу, хотя это должно быть общим требованием. И чтобы быть ясным, я имею в виду форму входа в систему через Интернет, а не б…
10 апр '15 в 12:14
0
ответов
Объединить кластеры и повторный кластер
Я использую различные алгоритмы, доступные для колонки в последней версии openrefine. Я получаю очень хорошее представление о кластерах через веб-интерфейс, но моя проблема в том, что я вижу некоторые кластеры, которые должны быть объединены с преды…
17 янв '19 в 16:09
1
ответ
Можно ли запустить скрипт OpenRefine в фоновом режиме?
Могу ли я запустить скрипт OpenRefine для запуска в фоновом режиме без взаимодействия с пользователем? Возможно, использовать службу Windows для загрузки файла конфигурации OpenRefine или запустить веб-сервер OpenRefine с параметрами и сохранить рез…
01 июн '16 в 00:23
1
ответ
openrefine извлекает число из текстового столбца с помощью регулярных выражений
Я пытаюсь проанализировать столбец данных из набора данных OpenFoodFacts, который я нашел через Kaggle. Существует атрибут с названием "serve_size", который содержит любую информацию о размере порции, представленную на упаковке для продукта питания.…
08 фев '16 в 18:36
1
ответ
Удалить стоп-слова, используя открытое уточнение
После этого примера https://github.com/OpenRefine/OpenRefine/wiki/Recipes Я пытаюсь удалить стоп-слова, перечисленные в файле, используя открытое уточнение Пример: вы хотите удалить из текста все стоп-слова, содержащиеся в файле на вашем рабочем сто…
10 апр '18 в 15:34
1
ответ
Возврат нескольких результатов в OpenRefine с использованием Python / Jython RegEx
Итак, я пытаюсь извлечь несколько дат, отображаемых как dd.mm.yyyy. Некоторые ячейки содержат только одну дату, некоторые содержат несколько дат (например, от dd.mm.yyyy до dd.mm.yyyy) вместе с другими текстами, которые меня не интересуют. Мне нужно…
16 май '17 в 19:05
1
ответ
Openrefine: key collision-fingerprint clustering + diacritics
Я думаю, что есть ошибка (или очень удивительная особенность...) в том, как openrefine управляет диакритическими знаками в кластеризации "столкновение ключей": ряд 1: школа ряд 2: школа школа -> кластеризация -> 0 кластеров та же проблема с строка 1…
26 сен '17 в 16:11
2
ответа
OpenRefine - кластеризация между столбцами
Как представляется, кластеризация между столбцами пока не поддерживается с помощью OpenRefine. Есть ли у кого-нибудь предложения о том, как кластеризовать "модели" на основе "производителей", подобно тому, как "город" будет основан на "штате" (многи…
26 фев '14 в 02:53
0
ответов
Как использовать перекрестную функцию с числовыми значениями в Openrefine
Мне нужно объединить 2 набора данных, используя общий столбец, содержащий цифры (5 345,22 и т. Д.). Можно ли использовать перекрестную функцию? Похоже, что он работает только с текстовыми значениями, а не числами. Например: я бы хотел (45,"project2"…
11 авг '18 в 14:11
1
ответ
Редактирование / извлечение выражения столбца в Google уточнение / OpenRefine
Я использую Google Refine v2.5. Я создал столбец, который использует некоторую сложную логику для извлечения информации из URL, но я понял, что мне нужно настроить его. Можно ли как-нибудь отредактировать или извлечь выражение, которое я использовал…
24 апр '13 в 21:43
1
ответ
OpenRefine - добавить порядковый номер, сбросить для каждой записи
У меня есть несколько записей, содержащих несколько строк. Я хочу дать каждой строке в записи уникальный идентификатор, основанный на строке в первой строке, содержащей исходный идентификатор + _01 _02 _03 и так далее. Затем я хотел бы сбросить счет…
11 дек '15 в 22:23
2
ответа
Импорт текстового файла с разделителями табуляции в openrefine
У меня есть.txt файл среднего размера с разделителями табуляции - около 40 тыс. Строк. Когда я импортирую в Openrefine, строка 406 помещает все остальное содержимое - целые 40000 строк в одну ячейку в столбце 13 этой строки. Я пробовал grep-serching…
03 авг '17 в 15:12
1
ответ
Функция forNonBlank в OpenRefine
Я получаю сообщение об ошибке при использовании forNonBlank в функции экспорта шаблонов OpenRefine. У меня есть ячейки с несколькими субъектами, которые я хочу записать в отдельных элементах dcterms: subject xml. Пример:Geology--Alberta--Coal Valley…
25 сен '15 в 22:10