Где я могу найти список слов, таких как ['Dr.', 'Mrs', 'DC', 'Inc.','. Com'], которые следует игнорировать при разбиении текста по Периоду (пунктуация)?
У меня есть текст из огромного текста /PDF-файла. Я работаю над текстом, чтобы сделать токенизацию предложений, используя точку (пунктуация). Но я сталкиваюсь с такими проблемами, как ['Dr.', 'Mrs', 'DC', 'Inc.', '. Com']. Чтобы разобраться с этим, я ищу полный список таких слов. Где я могу найти корпус всех этих префиксов / аббревиатур / суффиксов? Благодарю.
1 ответ
Вероятно, было бы лучше использовать библиотеку сегментации, а не пытаться что-то писать самостоятельно. Сегментация включает в себя больше, чем просто разделение на период.
Чтобы ответить на ваш вопрос, вот список английских сокращений.
Этот README содержит дополнительную информацию о сегментации и ссылки на различные исследовательские работы, а также на различные библиотеки сегментации.