Где я могу найти список слов, таких как ['Dr.', 'Mrs', 'DC', 'Inc.','. Com'], которые следует игнорировать при разбиении текста по Периоду (пунктуация)?

У меня есть текст из огромного текста /PDF-файла. Я работаю над текстом, чтобы сделать токенизацию предложений, используя точку (пунктуация). Но я сталкиваюсь с такими проблемами, как ['Dr.', 'Mrs', 'DC', 'Inc.', '. Com']. Чтобы разобраться с этим, я ищу полный список таких слов. Где я могу найти корпус всех этих префиксов / аббревиатур / суффиксов? Благодарю.

1 ответ

Вероятно, было бы лучше использовать библиотеку сегментации, а не пытаться что-то писать самостоятельно. Сегментация включает в себя больше, чем просто разделение на период.

Чтобы ответить на ваш вопрос, вот список английских сокращений.

Этот README содержит дополнительную информацию о сегментации и ссылки на различные исследовательские работы, а также на различные библиотеки сегментации.

Другие вопросы по тегам