Извлекать данные общего сканирования с помощью Apache Nutch
Я нахожу свои данные на обычном веб-сайте для сканирования и загружаю их оттуда
и теперь я должен получить эти данные, используя Apache Nutch, но не знаю как.
Этот файл находится в формате файла warc.