Разделение текстовых данных, таких как тексты в наборе данных NIPS, на три части
Я хочу объяснить всю идею, которая у меня есть, так как будет несколько двусмысленно, если я просто скажу, что хочу.
Я использую набор данных NIPS, как вы, возможно, знаете, это набор данных, классифицированный в некоторых группах, и в каждой группе есть набор текста (статей).
Я хочу просмотреть каждую группу, затем каждый текст, а затем разделить содержание текста на три части, например, 30%, 60%, 10%.
с этим для каждого текста у меня будет три части.
Давайте сделаем пример: рассмотрим эту вики-страницу
поэтому вывод будет разделен на три части. первые пять абзацев как первые 30%, последний абзац как последние 10%, а средний как 60%.
почему я хочу это сделать? Я ищу некоторые идеи, связанные с общей частью и конкретной частью текста, прежде чем делать какой-либо алгоритм машинного обучения. Я имею в виду своего рода идею о том, что первой частью любого текста будут общие идеи, затем конкретные вещи, а затем вывод, который не важен для меня.
поэтому мой вопрос заключается в том, существует ли какой-либо статистический или машинный алгоритм для статистического разделения текста.
Я не уверен в своих высказываниях, поэтому любая точка зрения или идея приветствуется. Пожалуйста, дайте мне знать, если это все еще неясно.