Как я могу семантически представить общий, извлеченный текст?

Question

Как я могу семантически представить общий, извлеченный текст?

Я работаю над проектом, который извлекает контент из веб-страниц и нормализует этот контент в виде отдельного набора типов. Сейчас я работаю только с текстом и изображениями.

Для изображений я нашел https://schema.org/ImageObject, который, кажется, подходит просто отлично.

Для текста, однако, я не уверен, что использовать. За исключением примитивного типа данных http://schema.org/Text, я не нахожу ничего на schema.org, представляющего общий текст. Я новичок в связанных, семантических данных и не уверен, предназначены ли примитивы для использования в качестве полнофункциональных типов.

Кроме того, я хотел бы иметь возможность различать фрагменты текста по их использованию на исходной веб-странице. Например, я хотел бы иметь возможность указать, что один диапазон текста был текстом абзаца, а другой - текстом заголовка. На schema.org есть https://schema.org/WebPageElement, который также включает в себя https://schema.org/WPHeader, но нет ни WPParagaph, ни WPTextFragment, ни чего-либо подобного.

Я просмотрел другие словари, но не уверен, что может подойти. Прежде всего, я хочу использовать то, что уже существует и люди узнают.

0

rdf owl semantic-web schema.org semantic-markup

Источник

user741970 04 май '15 в 15:43

1 ответ

Другие вопросы по тегам rdf owl semantic-web schema.org semantic-markup

user3772440 05 май '15 в 09:40 2015-05-05 09:40 · Answer 1 · 2015-05-05 09:40

Вы смотрели на онтологию Open Annotation от W3C? ( http://www.openannotation.org/spec/core/core.html). В настоящее время это только черновик, но он может помочь вам комментировать фрагменты текста. Это также позволяет вам утверждать, из какого документа вы извлекли текст и права собственности на аннотации (т.е. их происхождение). Я не думаю, что он включает такие термины, как "заголовок", но в нем есть селекторы для указания конкретных частей аннотированной веб-страницы / документа, который вы аннотируете: http://www.openannotation.org/spec/core/specific.html.

Он также предоставляет механизмы для аннотирования областей изображений ( http://www.openannotation.org/spec/core/specific.html). Это может быть так просто или сложно, как вы хотите.