Какой язык лучше всего подходит для этого редактора и сборщика проектов?
Я ищу агрегатор для редакционных и редакционных страниц множества англоязычных газет, за которыми я хочу следить. Цель состоит в том, чтобы создать HTML-код, представляющий собой просто набор редакционных статей из десятка газет, которым я хочу следовать по всему миру, чтобы я мог распечатать их утром. Поскольку это очень узкое требование, я не смог найти ничего уже доступного, поэтому я думаю написать его самостоятельно.
Теперь я был программистом в течение ~8 лет в моей предыдущей жизни (и теперь меня склонили на "Темную сторону", то есть на Уолл-стрит, после моей MBA). Сегодня я недостаточно осведомлен о программировании, чтобы сделать хороший выбор на языке сценариев, поэтому не уверен, какой из них будет лучшим языком (производительность не является ключевой проблемой, библиотеки для разбора HTML, обработка текста, а также извлечение данных живые веб-страницы важнее).
PS: я не против изучения нового языка (ранее я много работал с x86 ASM, C и Visual C++/MFC) почти исключительно в средах Win32.
2 ответа
Используйте Python и отличную библиотеку lxml для очистки HTML. Он поддерживает CSS-селекторы, что очень удобно и довольно быстро. Он хорошо справляется и с битым HTML.
Интерпретированные языки хорошо справляются с генерацией кода, вы должны подумать о Perl или Ruby