разбор электронных книг проекта Gutenberg с использованием c++

Я пытаюсь разобрать электронные книги, которые я загрузил с веб-сайта проекта Gutenberg, и я немного застрял.

мое приложение написано на C ++ с использованием фреймворка qt и загружает случайную книгу с веб-сайта в текстовом формате. я хочу получить оглавление (если оно есть) и отдельные главы этих книг.

Я оставлю ссылку с примером: Электронная книга Франкенштейна

как вы можете видеть, в приведенном выше примере оглавление четко ограничено ключевым словом «CONTENTS», поэтому мой первоначальный план состоял в том, чтобы извлечь его с помощью регулярного выражения, а затем использовать каждую полученную главу в другом регулярном выражении, которое будет соответствовать этой конкретной главе .

проблема, с которой я столкнулся, заключается в том, что книги сильно различаются тем, что не все они могут содержать ключевое слово «СОДЕРЖАНИЕ», некоторые могут иметь «Оглавление» или что-то еще, или могут не иметь его полностью.

у меня вопрос, как я могу подойти к этой ситуации, используя регулярное выражение или что-то еще, что будет работать большую часть времени.

0 ответов

Другие вопросы по тегам