Описание тега tokenize

Описание тега Вопросы с тегом

Токенизация - это процесс разделения строки на дискретные элементы, называемые токенами.

3 ответа

Лучший метод для токенизации / извлечения информации из строки

Я пытаюсь преобразовать дату-время, которое я получаю, в определенный формат для вставки в базу данных MySQL. Программа написана на C++, и следующее решение работает, но я чувствую, что оно ужасно неэффективно. Ввод: Пн Ноя 08 17:41:23 +0000 2010Жел…

20 янв '11 в 21:09

2 ответа

register_printf_function в PHP

Мне нужно позволить пользователю указать пользовательский формат для функции, которая использует vsprintf, и, поскольку в PHP нет glibc' register_printf_function(), мне придется делать это с PCRE. Мой вопрос в том, что будет лучшим REGEXP, чтобы соо…

php regex tokenize pcre

25 сен '09 в 16:04

1 ответ

Расщепление строки после пунктуации, включая пунктуацию

Я пытаюсь разбить строку слов в список слов с помощью регулярных выражений. Я все еще немного новичок с регулярными выражениями. Я использую nltk.regex_tokenize, который дает близкие результаты, но не совсем то, что я хочу. Это то, что я до сих пор:…

python regex nltk tokenize punctuation

17 дек '11 в 06:29

1 ответ

Токенайзер предложений nltk дает AttributeError

Я очень новичок в Python и NLTK. Одна проблема сбивает меня с толку: Когда я делаю tokenized = custom_sent_tokenizer.tokenize("some long text") Это дает мне идеальный результат. Но когда я изменяю эту жестко закодированную строку на переменную, соде…

python python-3.x nltk tokenize text-mining

12 май '16 в 12:52

1 ответ

Как найти слово в XML-файле и распечатать его на Python

Я хочу найти определенное слово (которое вводится пользователем) в XML-файле. Это мой XML-файл. <?xml version="1.0" encoding="UTF-8"?> <words> <entry> <word>John</word> <pron>()</pron> <gram>[Noun]<…

python xml nlp nltk tokenize

20 окт '18 в 18:46

1 ответ

Python 2.7 Реализация токенов в Regex не работает

Я создал регулярное выражение для сопоставления токенов на немецком text который имеет тип string, Мое регулярное выражение работает, как и ожидалось, используя https://regex101.com/. Вот ссылка на мое регулярное выражение с примером предложения: Мо…

regex python-2.7 tokenize

24 июн '17 в 13:19

2 ответа

Почему Python не удаляет все строки, которые приветствуются из списка?

. Удалить не работает правильно! Я делаю Ai, и я пытаюсь удалить любые слова, которые являются именем Ai или приветствием! Но он удаляет только первое, что находит, если даже это. Если кто-то знает, что происходит, я бы очень признателен за помощь. …

python python-3.x for-loop tokenize

23 июл '17 в 01:53

1 ответ

Новичок в clojure: токенизация списков разных персонажей

Так что я знаю, что это не лучший метод решения этой проблемы, но я пытаюсь просмотреть список строк из входного файла, который в конечном итоге является выражением. У меня есть список выражений, и у каждого выражения есть свой собственный список бл…

regex clojure tokenize

16 ноя '15 в 08:31

1 ответ

Запрещение токенов содержать пробел в Stanford CoreNLP

Есть ли опция в токенайзере Stanford CoreNLP, чтобы токены не содержали пробел? Например, если предложение "мой телефон 617 1555-6644", подстрока "617 1555" должна быть в двух разных токенах. Я знаю о возможности normalizeSpace: normalizeSpace: прев…

nlp stanford-nlp tokenize

06 апр '16 в 02:36

1 ответ

Как написать файл lex для ввода, как "{\"a\":1,\"b\":2}"

Я хочу реализовать синтаксический анализатор json, но возникли проблемы с объектом синтаксического анализа, например "{\"a\":1,\"b\":2}", в настоящее время парсер выводит что-то вроде этого '(json (object "{" (kvpair "\"a\":1,\"b\"" ":" (json (numbe…

json parsing racket tokenize lex

15 май '15 в 11:32

2 ответа

Java/clojure: разделитель из нескольких символов и его разделитель

Я работаю над проектом в clojure, который может взаимодействовать с любыми java-классами, поэтому ответ на мой вопрос может быть для java или clojure. По сути, мне нужно иметь возможность разбивать строку на компоненты на основе заданного разделител…

java string split clojure tokenize

08 мар '13 в 04:25

0 ответов

(C) Использование строк для чтения значений, а затем для их разделения и токенизации

У меня проблема с преобразованием сканирования моего кода для использования строк, и в настоящее время это приводит к сбою командной строки. Если есть какая-то дополнительная информация, которая облегчит эту задачу, дайте мне знать. Спасибо за любую…

c string token tokenize

30 мар '15 в 18:36

3 ответа

Ошибка сегментации буфера токенизации

Итак, я предполагаю, что здесь упускаю что-то довольно простое, но я пытаюсь прочитать файл построчно, разбивая буфер по ходу. Я вставил основы того, что я пытаюсь сделать с моим кодом. У меня никогда не было проблем со strtok, поэтому я предполагаю…

c buffer tokenize strtok

06 июл '15 в 18:23

0 ответов

nltk.tokenize.casual and emojis

Я пытаюсь токенизировать простую строку: Вот улыбающееся лицо: Мой код: #!/usr/bin/python # -*- coding: utf-8 -*- from nltk.tokenize.casual import TweetTokenizer s = u"Here is a smiling face: !" s1 = TweetTokenizer().tokenize(s) print (s1) И вот что…

python tokenize

25 апр '17 в 05:53

1 ответ

Как искать как числа, так и мое слово, используя встроенный или настраиваемый анализатор в упругом поиске

Этот вопрос является продолжением моего предыдущего вопроса. У меня есть текст, по которому я хочу выполнить поиск как по цифрам, так и по тексту. Мой текст: - 8080 amit.foobar.getFooLabelFrombar (test.java:91) И я хочу искать на getFooLabelFrombar,…

elasticsearch lucene tokenize elasticsearch-analyzers

22 окт '17 в 10:28

1 ответ

Кастомный токенизатор для apache lucene 4

У меня есть токенизированный текст (разделенные предложения и разделенные слова). И собираюсь создать индекс Apache Lucene, основанный на этой структуре. Какой самый простой способ расширить или заменить стандартный токенизатор для использования пол…

java apache lucene tokenize

25 сен '12 в 20:30

2 ответа

Как разбить строку в C с помощью /

У меня есть строка со следующим рисунком: char *str = "ai/aj/module_mat.mod"; и я хочу выбрать module_mat в качестве моей последней строки для дальнейшей логики. Я попытался использовать rindex(), чтобы я мог получить последнюю часть строки. Но я не…

c string tokenize

03 апр '17 в 00:40

1 ответ

Поиск в списке python для совпадений с пользовательским списком основных слов различной длины

Я пытаюсь найти аннотации в словаре для пользовательских слов с помощью Python. Следующий код - почти то, что я хочу. То есть, появляется ли какое-либо из значений в stem_words один или несколько раз в word_tokenized_abstract? if(any(word in stem_wo…

python list nlp tokenize

09 май '17 в 16:25

2 ответа

Лучший способ использовать сканер для нескольких токенов на линию?

Я пытаюсь проанализировать файл со строками, которые состоят из ключа, пробела, числа и затем новой строки. Мой код работает, но он мне не пахнет. Есть ли лучший способ использовать сканер? В частности, мне не нравится, когда Scan() находится внутри…

go tokenize

25 июн '16 в 08:28

1 ответ

Как создать токенизирующий элемент управления для UWP, как известно из Outlook, при использовании To, Cc и Bcc

Здесь есть отличная статья о том, как написать Tokenizing Control для WPF: Tokenizing control - конвертировать текст в токены Но как это сделать в приложении UWP? Почтовый клиент Windows 10 UWP прекрасно справляется с этой задачей, поэтому я знаю, ч…

xaml win-universal-app winrt-xaml tokenize

26 мар '16 в 16:16