Как я могу семантически представить общий, извлеченный текст?
Я работаю над проектом, который извлекает контент из веб-страниц и нормализует этот контент в виде отдельного набора типов. Сейчас я работаю только с текстом и изображениями.
Для изображений я нашел https://schema.org/ImageObject, который, кажется, подходит просто отлично.
Для текста, однако, я не уверен, что использовать. За исключением примитивного типа данных http://schema.org/Text, я не нахожу ничего на schema.org, представляющего общий текст. Я новичок в связанных, семантических данных и не уверен, предназначены ли примитивы для использования в качестве полнофункциональных типов.
Кроме того, я хотел бы иметь возможность различать фрагменты текста по их использованию на исходной веб-странице. Например, я хотел бы иметь возможность указать, что один диапазон текста был текстом абзаца, а другой - текстом заголовка. На schema.org есть https://schema.org/WebPageElement, который также включает в себя https://schema.org/WPHeader, но нет ни WPParagaph, ни WPTextFragment, ни чего-либо подобного.
Я просмотрел другие словари, но не уверен, что может подойти. Прежде всего, я хочу использовать то, что уже существует и люди узнают.
1 ответ
Вы смотрели на онтологию Open Annotation от W3C? ( http://www.openannotation.org/spec/core/core.html). В настоящее время это только черновик, но он может помочь вам комментировать фрагменты текста. Это также позволяет вам утверждать, из какого документа вы извлекли текст и права собственности на аннотации (т.е. их происхождение). Я не думаю, что он включает такие термины, как "заголовок", но в нем есть селекторы для указания конкретных частей аннотированной веб-страницы / документа, который вы аннотируете: http://www.openannotation.org/spec/core/specific.html.
Он также предоставляет механизмы для аннотирования областей изображений ( http://www.openannotation.org/spec/core/specific.html). Это может быть так просто или сложно, как вы хотите.