Альтернатива Python (эквивалент) Wink Tokenizer JS
У меня есть несколько JS-функций, которые помогли мне маркировать мои строки с помощью Wink Tokenizer.
Я переношу некоторые сервисы на Python, и теперь я хотел бы получить эквивалентную функцию токенизатора. Я много исследовал, и кажется, что токенизатор Wink доступен только для JS. Я также не знаю о тонких различиях между Wink и другими токенизаторами Python, такими как, например, spaCY.
В основном я хотел бы получить те же результаты, что и:
var tokenizer = require( 'wink-tokenizer' );
// Create it's instance.
var myTokenizer = tokenizer();
// Tokenize a tweet.
var s = '@superman: hit me up on my email r2d2@gmail.com, 2 of us plan party🎉 tom at 3pm:) #fun';
myTokenizer.tokenize( s );
На Питоне
Может ли кто-нибудь помочь мне, указав мне правильное направление того, как я могу продолжить репликацию функций токенизации, которые Wink предлагает на Python? Какие параметры, конфигурации, регулярные выражения мне нужно проверить, чтобы получить эквивалентное поведение?
1 ответ
Есть много способов. Python имеет богатое сообщество по науке о данных. Существует множество пакетов НЛП. Вот разумный список простых в реализации способов токенизации текста:
https://towardsdatascience.com/5-simple-ways-to-tokenize-text-in-python-92c6804edfc4
Я лично использую https://github.com/stanfordnlp/stanza
Все эти ресурсы были на первой странице в гугле для
"python" "tokenization"