Извлечение темы из веб-страницы

Я пытаюсь научиться некоторому машинному обучению, но, к сожалению, неконтролируемое обучение плохо для меня, и я надеялся, что какое-нибудь полуобучаемое обучение благодаря Stackru может помочь мне!:)

Я пытаюсь извлечь тему веб-страницы из необработанного HTML-кода как можно проще. У меня есть список из 10000 HTML-файлов. Я хотел бы запустить программу из этого списка, которая выведет идентификатор веб-страницы (это имя файла) и тему веб-страницы рядом с ним, в формате TSV.

Я рассмотрел ряд API для этого и попытался реализовать свою собственную функцию для этого, используя python и scikit-learn, однако я уверен, что есть какой-то простой и эффективный способ сделать это, который я пропускаю

Что я имею:

Folder containing over 10,000.html files, labelled from 1 to 10,000.

Что я хочу

Программа, которая запускается:

foreach(file in folder){
   //Analyse HTML in file
   //Predict topic from HTML (I believe this is called Latent Semantic Analysis).
   //Write to next line of TSV "file\ttopic" 
}

Таким образом, мы в конечном итоге с цв формы

1   Recipe
2   Football
3   Technology
...
10,000   Television

0 ответов

Другие вопросы по тегам