Описание тега nltokenizer

1 ответ

Определите индийские имена в заданной строке объединенных именных токенов

У меня есть набор различных токенов имен, а также данные, в которых объединены разные имена. Например. Если в имени есть 3 токена, например "abc def ghi", и дано имя "abcdef" или "abcdefghi", я хотел бы идентифицировать разные действительные токены …
31 янв '20 в 09:40
2 ответа

Ошибка Python: TypeError: ожидаемая строка или байтовый объект

В настоящее время я работаю над проектом анализа настроений с использованием nltk в python. Я не могу заставить свой скрипт передавать строки текста из моего csv для выполнения токенизации. Однако, если я передаю текст по одной записи, он работает н…
0 ответов

Как удалить пробелы в столбце токенизированного фрейма данных в Python?

Я токенизировал свои столбцы из фрейма данных. Я токенизировал свой фрейм данных: for col_name in ['WORK_ACTIVITY', 'WORK_ACTIVITY_SUM', 'WORK_ACTIVITY_SECOND', 'WORK_ACTIVITY_SCEOND_SUM', 'COMPUTER', 'DEVELOPMENT_AND_DESIGN', 'MANAGEMENT_SALES', 'R…
2 ответа

Отображение индекса, токенов NLTokenizer в Swift

Я использую NLTokenizer для отображения списка токенов на быстрой игровой площадке. htt ps:https://stackru.com/images/25b74ef041de11b3cd5dca8b3844b8c579e570f1.png Как я могу отобразить порядковые номера перед токенами? Подобно: 1.Introduction 2.to 3…
04 дек '19 в 08:12
0 ответов

NLTokenizer не может перечислить слова, если текст содержит эмодзи или другие специальные символы

Я пытаюсь преобразовать строку в слова в приложении Какао, но столкнулся с проблемой NLTokenizer. Когда входная строка содержит эмодзи или \uFFFC (OBJECT REPLACEMENT CHARACTER, используемый как NSTextAttachment.character), токенизатор полностью отка…
12 апр '21 в 14:13
0 ответов

Создание кастомного токенизатора

Мне нужно создать собственный токенизатор, используя CountVectorizer(), который будет делать следующее: Разделение текста на токены с помощью word_tokenizer из nltk Удаление жетонов с пунктуацией, цифрами и жетонами из nltk.corpus.stopwords('russian…
0 ответов

Напишите код с помощью NLTK, который будет находить фразы с указанной пользователем последовательностью частей речи

Пример: пользователь запрашивает ADJ+NOUN, и программа дает ("Wonderful", "ADJ", "World", "Noun")
22 ноя '21 в 02:11
1 ответ

Не удалось найти слово, которое я добавил в словарь токенизатора Huggingface Bert.

Я попытался добавить новые слова в Bert tokenizer vocab. Я вижу, что длина словаря увеличивается, однако я не могу найти новое добавленное слово в словаре. tokenizer.add_tokens(['covid', 'wuhan']) v = tokenizer.get_vocab() print(len(v)) 'covid' in t…
1 ответ

модуль «tensorflow_datasets.core.features» не имеет атрибута «текст»

Всем добрый день, я разрабатываю Sentiment Analysis с помощью Tensorflow, используя некоторые обзоры, основанные на электронике на Amazon. В коде я столкнулся с ошибкой. Я использовал наборы данных tensorflow для извлечения некоторых текстов, но не …
0 ответов

Колесо сборки токенизаторов (pyproject.toml) не запустилось успешно

Я пытаюсь установить Questgen.ai (https://github.com/ramsrigouthamg/Questgen.ai) на свой MacOS 11.6. Одним из требований являются трансформаторы 3.0.2. При работе pip3 install transformers==3.0.2, я получаю эту ошибку: Building wheel for tokenizers …
09 май '22 в 14:23
0 ответов

Чат-бот с NLTK с типом запроса и параметрами

Я новичок в NLTK и пытаюсь создать чат-бот с типом запроса и параметром. Например, corpus = [ { name: "appt-count", text: "How many appointments I have for today?" }, { name: "appt-count", text: "What is my total appointments for today?" }, { name: …
07 ноя '22 в 04:16
1 ответ

Не могу разделить текст на слова, когда выполняю очистку данных в НЛП.

Я пытаюсь выполнить упражнение НЛП в Kaggle, и когда я выполняю очистку данных текста, который мне нужно использовать для прогнозирования вывода, я не могу разделить его по словам, вместо этого я получаю одно предложение. со всеми приписанными слова…
07 июл '23 в 19:41
1 ответ

Проблема с токенизатором Nltk

from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') dataset['text'] = dataset['text'].apply(lambda word_list: [tokenizer.tokenize(word) for word in word_list]) dataset['text'].head() Приведенный выше код показывает ошибку …
26 авг '23 в 16:09
0 ответов

Как изменить обученный токенизатор SentencePiece, чтобы прекратить разделение токенов Chatml?

Мы используем предварительно обученный токенизатор SentencePiece (токенизатор SentencePiece от Google, а не Huggingface), и мы хотели бы сохранитьchatMLжетоны: <|im_start|>и<|im_end|> Мы не хотим разделять токены, а хотим, чтобы токениза…
28 ноя '23 в 16:44