Извлечение содержимого HTML-статьи - альтернатива Alchemy API
Я провел много исследований, чтобы выяснить, как лучше всего написать код приложения, чтобы получить основной контент статьи практически с любой веб-страницы HTML. У меня есть программа на C, которая использует libxml2 для анализа XML, но я наткнулся на Alchemy API, который, кажется, делает то, что я хочу.
Тем не менее, он имеет только онлайн-API, и я хотел оставить приложение на месте, не полагаясь на внешние вызовы.
Так у кого-нибудь есть советы? Я надеялся на автономную альтернативу, которая делает то, что может сделать API-интерфейс Alchemy (платный / неоплачиваемый).
Моя альтернатива может состоять в том, чтобы просто разобрать HTML и использовать методы NLP (Natural Language Processing) и другие методы, чтобы получить основной контент статьи. Типы веб-сайтов, которые будут использоваться, включают веб-сайты с разделом новостей или блогом.
2 ответа
Есть несколько инструментов с открытым исходным кодом, которые выполняют похожие задачи извлечения статей. https://github.com/jiminoc/goose который был открытым исходным кодом Gravity.com
Он имеет информацию о вики, а также источник, который вы можете просмотреть. Есть десятки юнит-тестов, которые показывают текст, извлеченный из различных статей.
AlchemyAPI также предлагает локальное решение, так что вам не нужно получать к нему доступ онлайн. Как правило, наши клиенты, использующие локальные решения, используют его, если у них есть особые требования к безопасности или задержке. Более подробную информацию о локальных решениях можно найти здесь: http://www.alchemyapi.com/products/on-premise/