Извлечение содержимого HTML-статьи - альтернатива Alchemy API

Question

Извлечение содержимого HTML-статьи - альтернатива Alchemy API

Я провел много исследований, чтобы выяснить, как лучше всего написать код приложения, чтобы получить основной контент статьи практически с любой веб-страницы HTML. У меня есть программа на C, которая использует libxml2 для анализа XML, но я наткнулся на Alchemy API, который, кажется, делает то, что я хочу.

Тем не менее, он имеет только онлайн-API, и я хотел оставить приложение на месте, не полагаясь на внешние вызовы.

Так у кого-нибудь есть советы? Я надеялся на автономную альтернативу, которая делает то, что может сделать API-интерфейс Alchemy (платный / неоплачиваемый).

Моя альтернатива может состоять в том, чтобы просто разобрать HTML и использовать методы NLP (Natural Language Processing) и другие методы, чтобы получить основной контент статьи. Типы веб-сайтов, которые будут использоваться, включают веб-сайты с разделом новостей или блогом.

7

html html-content-extraction alchemyapi

Источник

user484091 08 ноя '10 в 14:03

2 ответа

Другие вопросы по тегам html html-content-extraction alchemyapi

user252253 08 май '11 в 16:06 2011-05-08 16:06 · Answer 1 · 2011-05-08 16:06

Есть несколько инструментов с открытым исходным кодом, которые выполняют похожие задачи извлечения статей. https://github.com/jiminoc/goose который был открытым исходным кодом Gravity.com

Он имеет информацию о вики, а также источник, который вы можете просмотреть. Есть десятки юнит-тестов, которые показывают текст, извлеченный из различных статей.

user2680404 08 авг '13 в 15:10 2013-08-08 15:10 · Answer 2 · 2013-08-08 15:10

AlchemyAPI также предлагает локальное решение, так что вам не нужно получать к нему доступ онлайн. Как правило, наши клиенты, использующие локальные решения, используют его, если у них есть особые требования к безопасности или задержке. Более подробную информацию о локальных решениях можно найти здесь: http://www.alchemyapi.com/products/on-premise/