Описание тега tokenize
Токенизация - это процесс разделения строки на дискретные элементы, называемые токенами.
3
ответа
Лучший метод для токенизации / извлечения информации из строки
Я пытаюсь преобразовать дату-время, которое я получаю, в определенный формат для вставки в базу данных MySQL. Программа написана на C++, и следующее решение работает, но я чувствую, что оно ужасно неэффективно. Ввод: Пн Ноя 08 17:41:23 +0000 2010Жел…
20 янв '11 в 21:09
2
ответа
register_printf_function в PHP
Мне нужно позволить пользователю указать пользовательский формат для функции, которая использует vsprintf, и, поскольку в PHP нет glibc' register_printf_function(), мне придется делать это с PCRE. Мой вопрос в том, что будет лучшим REGEXP, чтобы соо…
25 сен '09 в 16:04
1
ответ
Расщепление строки после пунктуации, включая пунктуацию
Я пытаюсь разбить строку слов в список слов с помощью регулярных выражений. Я все еще немного новичок с регулярными выражениями. Я использую nltk.regex_tokenize, который дает близкие результаты, но не совсем то, что я хочу. Это то, что я до сих пор:…
17 дек '11 в 06:29
1
ответ
Токенайзер предложений nltk дает AttributeError
Я очень новичок в Python и NLTK. Одна проблема сбивает меня с толку: Когда я делаю tokenized = custom_sent_tokenizer.tokenize("some long text") Это дает мне идеальный результат. Но когда я изменяю эту жестко закодированную строку на переменную, соде…
12 май '16 в 12:52
1
ответ
Как найти слово в XML-файле и распечатать его на Python
Я хочу найти определенное слово (которое вводится пользователем) в XML-файле. Это мой XML-файл. <?xml version="1.0" encoding="UTF-8"?> <words> <entry> <word>John</word> <pron>()</pron> <gram>[Noun]<…
20 окт '18 в 18:46
1
ответ
Python 2.7 Реализация токенов в Regex не работает
Я создал регулярное выражение для сопоставления токенов на немецком text который имеет тип string, Мое регулярное выражение работает, как и ожидалось, используя https://regex101.com/. Вот ссылка на мое регулярное выражение с примером предложения: Мо…
24 июн '17 в 13:19
2
ответа
Почему Python не удаляет все строки, которые приветствуются из списка?
. Удалить не работает правильно! Я делаю Ai, и я пытаюсь удалить любые слова, которые являются именем Ai или приветствием! Но он удаляет только первое, что находит, если даже это. Если кто-то знает, что происходит, я бы очень признателен за помощь. …
23 июл '17 в 01:53
1
ответ
Новичок в clojure: токенизация списков разных персонажей
Так что я знаю, что это не лучший метод решения этой проблемы, но я пытаюсь просмотреть список строк из входного файла, который в конечном итоге является выражением. У меня есть список выражений, и у каждого выражения есть свой собственный список бл…
16 ноя '15 в 08:31
1
ответ
Запрещение токенов содержать пробел в Stanford CoreNLP
Есть ли опция в токенайзере Stanford CoreNLP, чтобы токены не содержали пробел? Например, если предложение "мой телефон 617 1555-6644", подстрока "617 1555" должна быть в двух разных токенах. Я знаю о возможности normalizeSpace: normalizeSpace: прев…
06 апр '16 в 02:36
1
ответ
Как написать файл lex для ввода, как "{\"a\":1,\"b\":2}"
Я хочу реализовать синтаксический анализатор json, но возникли проблемы с объектом синтаксического анализа, например "{\"a\":1,\"b\":2}", в настоящее время парсер выводит что-то вроде этого '(json (object "{" (kvpair "\"a\":1,\"b\"" ":" (json (numbe…
15 май '15 в 11:32
2
ответа
Java/clojure: разделитель из нескольких символов и его разделитель
Я работаю над проектом в clojure, который может взаимодействовать с любыми java-классами, поэтому ответ на мой вопрос может быть для java или clojure. По сути, мне нужно иметь возможность разбивать строку на компоненты на основе заданного разделител…
08 мар '13 в 04:25
0
ответов
(C) Использование строк для чтения значений, а затем для их разделения и токенизации
У меня проблема с преобразованием сканирования моего кода для использования строк, и в настоящее время это приводит к сбою командной строки. Если есть какая-то дополнительная информация, которая облегчит эту задачу, дайте мне знать. Спасибо за любую…
30 мар '15 в 18:36
3
ответа
Ошибка сегментации буфера токенизации
Итак, я предполагаю, что здесь упускаю что-то довольно простое, но я пытаюсь прочитать файл построчно, разбивая буфер по ходу. Я вставил основы того, что я пытаюсь сделать с моим кодом. У меня никогда не было проблем со strtok, поэтому я предполагаю…
06 июл '15 в 18:23
0
ответов
nltk.tokenize.casual and emojis
Я пытаюсь токенизировать простую строку: Вот улыбающееся лицо: Мой код: #!/usr/bin/python # -*- coding: utf-8 -*- from nltk.tokenize.casual import TweetTokenizer s = u"Here is a smiling face: !" s1 = TweetTokenizer().tokenize(s) print (s1) И вот что…
25 апр '17 в 05:53
1
ответ
Как искать как числа, так и мое слово, используя встроенный или настраиваемый анализатор в упругом поиске
Этот вопрос является продолжением моего предыдущего вопроса. У меня есть текст, по которому я хочу выполнить поиск как по цифрам, так и по тексту. Мой текст: - 8080 amit.foobar.getFooLabelFrombar (test.java:91) И я хочу искать на getFooLabelFrombar,…
22 окт '17 в 10:28
1
ответ
Кастомный токенизатор для apache lucene 4
У меня есть токенизированный текст (разделенные предложения и разделенные слова). И собираюсь создать индекс Apache Lucene, основанный на этой структуре. Какой самый простой способ расширить или заменить стандартный токенизатор для использования пол…
25 сен '12 в 20:30
2
ответа
Как разбить строку в C с помощью /
У меня есть строка со следующим рисунком: char *str = "ai/aj/module_mat.mod"; и я хочу выбрать module_mat в качестве моей последней строки для дальнейшей логики. Я попытался использовать rindex(), чтобы я мог получить последнюю часть строки. Но я не…
03 апр '17 в 00:40
1
ответ
Поиск в списке python для совпадений с пользовательским списком основных слов различной длины
Я пытаюсь найти аннотации в словаре для пользовательских слов с помощью Python. Следующий код - почти то, что я хочу. То есть, появляется ли какое-либо из значений в stem_words один или несколько раз в word_tokenized_abstract? if(any(word in stem_wo…
09 май '17 в 16:25
2
ответа
Лучший способ использовать сканер для нескольких токенов на линию?
Я пытаюсь проанализировать файл со строками, которые состоят из ключа, пробела, числа и затем новой строки. Мой код работает, но он мне не пахнет. Есть ли лучший способ использовать сканер? В частности, мне не нравится, когда Scan() находится внутри…
25 июн '16 в 08:28
1
ответ
Как создать токенизирующий элемент управления для UWP, как известно из Outlook, при использовании To, Cc и Bcc
Здесь есть отличная статья о том, как написать Tokenizing Control для WPF: Tokenizing control - конвертировать текст в токены Но как это сделать в приложении UWP? Почтовый клиент Windows 10 UWP прекрасно справляется с этой задачей, поэтому я знаю, ч…
26 мар '16 в 16:16