разбор электронных книг проекта Gutenberg с использованием c++
Я пытаюсь разобрать электронные книги, которые я загрузил с веб-сайта проекта Gutenberg, и я немного застрял.
мое приложение написано на C ++ с использованием фреймворка qt и загружает случайную книгу с веб-сайта в текстовом формате. я хочу получить оглавление (если оно есть) и отдельные главы этих книг.
Я оставлю ссылку с примером: Электронная книга Франкенштейна
как вы можете видеть, в приведенном выше примере оглавление четко ограничено ключевым словом «CONTENTS», поэтому мой первоначальный план состоял в том, чтобы извлечь его с помощью регулярного выражения, а затем использовать каждую полученную главу в другом регулярном выражении, которое будет соответствовать этой конкретной главе .
проблема, с которой я столкнулся, заключается в том, что книги сильно различаются тем, что не все они могут содержать ключевое слово «СОДЕРЖАНИЕ», некоторые могут иметь «Оглавление» или что-то еще, или могут не иметь его полностью.
у меня вопрос, как я могу подойти к этой ситуации, используя регулярное выражение или что-то еще, что будет работать большую часть времени.