Ошибка при разборе страницы с помощью BeautifulSoup4, Chardet и Python 3.3 в Windows

Я получаю следующую ошибку при попытке вызвать BeautifulSoup(страница)

Traceback (most recent call last):
 File "error.py", line 10, in <module>
  soup = BeautifulSoup(page)
 File "C:\Python33\lib\site-packages\bs4\__init__.py", line 169, in __init__
  self.builder.prepare_markup(markup, from_encoding))
 File "C:\Python33\lib\site-packages\bs4\builder\_htmlparser.py", line 136, in
 prepare_markup
  dammit = UnicodeDammit(markup, try_encodings, is_html=True)
 File "C:\Python33\lib\site-packages\bs4\dammit.py", line 223, in __init__
  u = self._convert_from(chardet_dammit(self.markup))
 File "C:\Python33\lib\site-packages\bs4\dammit.py", line 30, in chardet_dammit

   return chardet.detect(s)['encoding']
 File "C:\Python33\lib\site-packages\chardet\__init__.py", line 21, in detect
  import universaldetector
ImportError: No module named 'universaldetector'

Я использую Python 3.3 в Windows 7, я установил bs4 из setup.py, скачав.tar.gz. Я установил pip, а затем установил chardet, выполнив pip.exe install chardet. Моя версия Chardet - 2.2.1. Bs4 отлично работает для других URL.

Вот код

import sys
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import chardet

url = "http://www.edgar-online.com/brand/yahoo/search/?cik=1400810"
page = urlopen(url).read()
#print(page)
soup = BeautifulSoup(page)

Я с нетерпением жду ваших ответов

1 ответ

Решение

Я встречаю эту ситуацию только сейчас.
Не импортируйте chardet, и я также удаляю chardet.
Тогда сборка пройдет.
код ниже является частью dammit.py Либ в красавице.
Возможно, вы импортируете chardet, который не соответствует Python 3.3, поэтому возникает ошибка.

try:
    # First try the fast C implementation.
    #  PyPI package: cchardet
    import cchardet
    def chardet_dammit(s):
        return cchardet.detect(s)['encoding']
except ImportError:
    try:
        # Fall back to the pure Python implementation
        #  Debian package: python-chardet
        #  PyPI package: chardet
        import chardet
        def chardet_dammit(s):
            return chardet.detect(s)['encoding']
        #import chardet.constants
        #chardet.constants._debug = 1
    except ImportError:
        # No chardet available.
        def chardet_dammit(s):
            return None
Другие вопросы по тегам