Какой язык лучше всего подходит для этого редактора и сборщика проектов?

Я ищу агрегатор для редакционных и редакционных страниц множества англоязычных газет, за которыми я хочу следить. Цель состоит в том, чтобы создать HTML-код, представляющий собой просто набор редакционных статей из десятка газет, которым я хочу следовать по всему миру, чтобы я мог распечатать их утром. Поскольку это очень узкое требование, я не смог найти ничего уже доступного, поэтому я думаю написать его самостоятельно.

Теперь я был программистом в течение ~8 лет в моей предыдущей жизни (и теперь меня склонили на "Темную сторону", то есть на Уолл-стрит, после моей MBA). Сегодня я недостаточно осведомлен о программировании, чтобы сделать хороший выбор на языке сценариев, поэтому не уверен, какой из них будет лучшим языком (производительность не является ключевой проблемой, библиотеки для разбора HTML, обработка текста, а также извлечение данных живые веб-страницы важнее).

PS: я не против изучения нового языка (ранее я много работал с x86 ASM, C и Visual C++/MFC) почти исключительно в средах Win32.

2 ответа

Решение

Используйте Python и отличную библиотеку lxml для очистки HTML. Он поддерживает CSS-селекторы, что очень удобно и довольно быстро. Он хорошо справляется и с битым HTML.

Интерпретированные языки хорошо справляются с генерацией кода, вы должны подумать о Perl или Ruby

Другие вопросы по тегам