Удалить стоп-слова, используя открытое уточнение
После этого примера https://github.com/OpenRefine/OpenRefine/wiki/Recipes
Я пытаюсь удалить стоп-слова, перечисленные в файле, используя открытое уточнение
Пример: вы хотите удалить из текста все стоп-слова, содержащиеся в файле на вашем рабочем столе. В этом случае используйте Jython.
with open(r"C:\Users\ettor\Desktop\stopwords.txt",'r') as f :
stopwords = [name.rstrip() for name in f]
return " ".join([x for x in value.split(' ') if x not in stopwords])
К сожалению получил внутреннюю ошибку
1 ответ
Решение
Да, этот скрипт работает, как вы можете видеть в этом скринкасте.
Я немного изменил его, чтобы игнорировать регистр букв.
with open(r"~\Desktop\stopwords.txt",'r') as f :
stopwords = [name.rstrip().lower() for name in f]
return " ".join([x for x in value.split(' ') if x.lower() not in stopwords])
В скрипте Python Open Refine "внутренняя ошибка" часто означает синтаксическую ошибку, такую как забытая скобка или неверный отступ.