5月 202013
 

chardetのことができます簡単に文字列/ファイルエンコーディング検出を使用してください。あなたには、いくつかのページを登るする必要がある場合は特に、日本語のWebページ、一部のページshift-jis/euc-jp、UTF8いくつかの使用では、HTMLページのcharsetタグは、時にはそれが正しいではないですが、Webは、非常に重要なコーディングを知っています。私たちは忙しい役立つchardetの。

chardetのインスタンス

>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'utf-8'}
>>>

chardetの検出機能は直接文字エンコーディングを検出することができる。この関数は、辞書の値、2元、1が信頼性を検出され、他のいずれかが検出されたエンコーディングを返します。
chardetのインストール

直接ダウンロードchardetの、解凍chardetのアーカイブ、アプリケーションディレクトリにchardetのフォルダには、インポートchardetのスタートベータchardetのを使用することができます。

またはすべてインポートchardetのはできる限り、プログラムをのpythonので、Pythonのシステムディレクトリにsetup.pyインストールファイル、chardetのコピーを使用しています。

python setup.py install