Альтернатива Python (эквивалент) Wink Tokenizer JS

У меня есть несколько JS-функций, которые помогли мне маркировать мои строки с помощью Wink Tokenizer.

Я переношу некоторые сервисы на Python, и теперь я хотел бы получить эквивалентную функцию токенизатора. Я много исследовал, и кажется, что токенизатор Wink доступен только для JS. Я также не знаю о тонких различиях между Wink и другими токенизаторами Python, такими как, например, spaCY.

В основном я хотел бы получить те же результаты, что и:

      var tokenizer = require( 'wink-tokenizer' );
// Create it's instance.
var myTokenizer = tokenizer();
 
// Tokenize a tweet.
var s = '@superman: hit me up on my email r2d2@gmail.com, 2 of us plan party🎉 tom at 3pm:) #fun';
myTokenizer.tokenize( s );

На Питоне

Может ли кто-нибудь помочь мне, указав мне правильное направление того, как я могу продолжить репликацию функций токенизации, которые Wink предлагает на Python? Какие параметры, конфигурации, регулярные выражения мне нужно проверить, чтобы получить эквивалентное поведение?

1 ответ

Есть много способов. Python имеет богатое сообщество по науке о данных. Существует множество пакетов НЛП. Вот разумный список простых в реализации способов токенизации текста:

https://towardsdatascience.com/5-simple-ways-to-tokenize-text-in-python-92c6804edfc4

Я лично использую https://github.com/stanfordnlp/stanza

Все эти ресурсы были на первой странице в гугле для "python" "tokenization"

Другие вопросы по тегам