Разделение текстовых данных, таких как тексты в наборе данных NIPS, на три части

Я хочу объяснить всю идею, которая у меня есть, так как будет несколько двусмысленно, если я просто скажу, что хочу.

Я использую набор данных NIPS, как вы, возможно, знаете, это набор данных, классифицированный в некоторых группах, и в каждой группе есть набор текста (статей).

Я хочу просмотреть каждую группу, затем каждый текст, а затем разделить содержание текста на три части, например, 30%, 60%, 10%.

с этим для каждого текста у меня будет три части.

Давайте сделаем пример: рассмотрим эту вики-страницу

поэтому вывод будет разделен на три части. первые пять абзацев как первые 30%, последний абзац как последние 10%, а средний как 60%.

почему я хочу это сделать? Я ищу некоторые идеи, связанные с общей частью и конкретной частью текста, прежде чем делать какой-либо алгоритм машинного обучения. Я имею в виду своего рода идею о том, что первой частью любого текста будут общие идеи, затем конкретные вещи, а затем вывод, который не важен для меня.

поэтому мой вопрос заключается в том, существует ли какой-либо статистический или машинный алгоритм для статистического разделения текста.

Я не уверен в своих высказываниях, поэтому любая точка зрения или идея приветствуется. Пожалуйста, дайте мне знать, если это все еще неясно.

0 ответов