Извлечение темы из веб-страницы
Я пытаюсь научиться некоторому машинному обучению, но, к сожалению, неконтролируемое обучение плохо для меня, и я надеялся, что какое-нибудь полуобучаемое обучение благодаря Stackru может помочь мне!:)
Я пытаюсь извлечь тему веб-страницы из необработанного HTML-кода как можно проще. У меня есть список из 10000 HTML-файлов. Я хотел бы запустить программу из этого списка, которая выведет идентификатор веб-страницы (это имя файла) и тему веб-страницы рядом с ним, в формате TSV.
Я рассмотрел ряд API для этого и попытался реализовать свою собственную функцию для этого, используя python и scikit-learn, однако я уверен, что есть какой-то простой и эффективный способ сделать это, который я пропускаю
Что я имею:
Folder containing over 10,000.html files, labelled from 1 to 10,000.
Что я хочу
Программа, которая запускается:
foreach(file in folder){
//Analyse HTML in file
//Predict topic from HTML (I believe this is called Latent Semantic Analysis).
//Write to next line of TSV "file\ttopic"
}
Таким образом, мы в конечном итоге с цв формы
1 Recipe
2 Football
3 Technology
...
10,000 Television