CasperJS и параллельное сканирование

Я пытаюсь просканировать какой-нибудь сайт. Однако мой процесс сканирования настолько длинный, что мне нужно использовать несколько экземпляров, чтобы сократить его. Я искал другие способы и прервал все запрошенные ненужные ресурсы, но это слишком медленно для меня (около 8-9 секунд).

Какой самый простой способ параллельного запуска экземпляров casperjs или даже одновременного запуска только двух casperjs для одновременного сканирования?

Я использовал параллельный gnu из поста в блоге, который нашел, однако кажется, что хотя процесс "жив, он не сканируется параллельно, потому что общее время выполнения остается тем же с одним экземпляром.

Должен ли я использовать сервер nodejs для создания экземпляров? Какой самый простой и практичный способ?

1 ответ

Можете ли вы адаптировать это: https://www.gnu.org/software/parallel/man.html

  #!/bin/bash

  # E.g. http://gatt.org.yeslab.org/
  URL=$1
  # Stay inside the start dir
  BASEURL=$(echo $URL | perl -pe 's:#.*::; s:(//.*/)[^/]*:$1:')
  URLLIST=$(mktemp urllist.XXXX)
  URLLIST2=$(mktemp urllist.XXXX)
  SEEN=$(mktemp seen.XXXX)

  # Spider to get the URLs
  echo $URL >$URLLIST
  cp $URLLIST $SEEN

  while [ -s $URLLIST ] ; do
    cat $URLLIST |
      parallel lynx -listonly -image_links -dump {} \; \
        wget -qm -l1 -Q1 {} \; echo Spidered: {} \>\&2 |
        perl -ne 's/#.*//; s/\s+\d+.\s(\S+)$/$1/ and do { $seen{$1}++ or print }' |
      grep -F $BASEURL |
      grep -v -x -F -f $SEEN | tee -a $SEEN > $URLLIST2
    mv $URLLIST2 $URLLIST
  done

  rm -f $URLLIST $URLLIST2 $SEEN
Другие вопросы по тегам