Как получить все статьи Википедии из категории и подкатегории, используя Python?

Я пытаюсь получить все статьи Википедии для категории и ее подкатегорий.

В настоящее время я выяснил незначительную часть проблемы, которая заключается в использовании вики-API. Например, чтобы найти категорию: география, я использовал API, чтобы найти категорию географии:

https://en.wikipedia.org/w/api.php?action=query&format=json&list=categorymembers&cmtitle=Category:Geography&cmlimit=100

Я получил ответ JSON:

{  
   "batchcomplete":"",
   "query":{  
      "categorymembers":[  
         {  
            "pageid":5883021,
            "ns":14,
            "title":"Category:Branches of geography"
         },
         {  
            "pageid":5782300,
            "ns":14,
            "title":"Category:Geography by place"
         },
         {  
            "pageid":8700702,
            "ns":14,
            "title":"Category:Geography awards and competitions"
         },
         ...
      ]
   }
}

Теперь моя проблема в том, как мне использовать это, чтобы заставить скрипт Python запускать и собирать все статьи? Я столкнулся с другой проблемой, потому что, например, если я вхожу в первую категрию: в разделах географии она содержит больше категорий и подкатегорий. Как сделать сценарий, который будет проходить через весь путь до статьи, сохранять его в текстовом файле, а затем возвращаться в категорию и собирать больше?

0 ответов

Другие вопросы по тегам