Описание тега nltokenizer
1
ответ
Определите индийские имена в заданной строке объединенных именных токенов
У меня есть набор различных токенов имен, а также данные, в которых объединены разные имена. Например. Если в имени есть 3 токена, например "abc def ghi", и дано имя "abcdef" или "abcdefghi", я хотел бы идентифицировать разные действительные токены …
31 янв '20 в 09:40
2
ответа
Ошибка Python: TypeError: ожидаемая строка или байтовый объект
В настоящее время я работаю над проектом анализа настроений с использованием nltk в python. Я не могу заставить свой скрипт передавать строки текста из моего csv для выполнения токенизации. Однако, если я передаю текст по одной записи, он работает н…
17 мар '20 в 16:14
0
ответов
Как удалить пробелы в столбце токенизированного фрейма данных в Python?
Я токенизировал свои столбцы из фрейма данных. Я токенизировал свой фрейм данных: for col_name in ['WORK_ACTIVITY', 'WORK_ACTIVITY_SUM', 'WORK_ACTIVITY_SECOND', 'WORK_ACTIVITY_SCEOND_SUM', 'COMPUTER', 'DEVELOPMENT_AND_DESIGN', 'MANAGEMENT_SALES', 'R…
07 авг '20 в 04:02
2
ответа
Отображение индекса, токенов NLTokenizer в Swift
Я использую NLTokenizer для отображения списка токенов на быстрой игровой площадке. htt ps:https://stackru.com/images/25b74ef041de11b3cd5dca8b3844b8c579e570f1.png Как я могу отобразить порядковые номера перед токенами? Подобно: 1.Introduction 2.to 3…
04 дек '19 в 08:12
0
ответов
NLTokenizer не может перечислить слова, если текст содержит эмодзи или другие специальные символы
Я пытаюсь преобразовать строку в слова в приложении Какао, но столкнулся с проблемой NLTokenizer. Когда входная строка содержит эмодзи или \uFFFC (OBJECT REPLACEMENT CHARACTER, используемый как NSTextAttachment.character), токенизатор полностью отка…
12 апр '21 в 14:13
0
ответов
Создание кастомного токенизатора
Мне нужно создать собственный токенизатор, используя CountVectorizer(), который будет делать следующее: Разделение текста на токены с помощью word_tokenizer из nltk Удаление жетонов с пунктуацией, цифрами и жетонами из nltk.corpus.stopwords('russian…
16 апр '21 в 00:15
0
ответов
Напишите код с помощью NLTK, который будет находить фразы с указанной пользователем последовательностью частей речи
Пример: пользователь запрашивает ADJ+NOUN, и программа дает ("Wonderful", "ADJ", "World", "Noun")
22 ноя '21 в 02:11
1
ответ
Не удалось найти слово, которое я добавил в словарь токенизатора Huggingface Bert.
Я попытался добавить новые слова в Bert tokenizer vocab. Я вижу, что длина словаря увеличивается, однако я не могу найти новое добавленное слово в словаре. tokenizer.add_tokens(['covid', 'wuhan']) v = tokenizer.get_vocab() print(len(v)) 'covid' in t…
24 дек '20 в 15:03
1
ответ
модуль «tensorflow_datasets.core.features» не имеет атрибута «текст»
Всем добрый день, я разрабатываю Sentiment Analysis с помощью Tensorflow, используя некоторые обзоры, основанные на электронике на Amazon. В коде я столкнулся с ошибкой. Я использовал наборы данных tensorflow для извлечения некоторых текстов, но не …
21 дек '20 в 17:09
0
ответов
Колесо сборки токенизаторов (pyproject.toml) не запустилось успешно
Я пытаюсь установить Questgen.ai (https://github.com/ramsrigouthamg/Questgen.ai) на свой MacOS 11.6. Одним из требований являются трансформаторы 3.0.2. При работе pip3 install transformers==3.0.2, я получаю эту ошибку: Building wheel for tokenizers …
09 май '22 в 14:23
0
ответов
Чат-бот с NLTK с типом запроса и параметрами
Я новичок в NLTK и пытаюсь создать чат-бот с типом запроса и параметром. Например, corpus = [ { name: "appt-count", text: "How many appointments I have for today?" }, { name: "appt-count", text: "What is my total appointments for today?" }, { name: …
07 ноя '22 в 04:16
1
ответ
Не могу разделить текст на слова, когда выполняю очистку данных в НЛП.
Я пытаюсь выполнить упражнение НЛП в Kaggle, и когда я выполняю очистку данных текста, который мне нужно использовать для прогнозирования вывода, я не могу разделить его по словам, вместо этого я получаю одно предложение. со всеми приписанными слова…
07 июл '23 в 19:41
1
ответ
Проблема с токенизатором Nltk
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') dataset['text'] = dataset['text'].apply(lambda word_list: [tokenizer.tokenize(word) for word in word_list]) dataset['text'].head() Приведенный выше код показывает ошибку …
26 авг '23 в 16:09
0
ответов
Как изменить обученный токенизатор SentencePiece, чтобы прекратить разделение токенов Chatml?
Мы используем предварительно обученный токенизатор SentencePiece (токенизатор SentencePiece от Google, а не Huggingface), и мы хотели бы сохранитьchatMLжетоны: <|im_start|>и<|im_end|> Мы не хотим разделять токены, а хотим, чтобы токениза…
28 ноя '23 в 16:44