読者です 読者をやめる 読者になる 読者になる

Screaming Loud

研究・プログラミングなど気づいたことをメモをしています

extbodyにおける文字化けの対処

extbody -- Blog&News本文領域抽出ツール

手軽な本文抽出ツールなのですが,Unicodeにしっかり直しているのに文字化けしてしまう問題について.

ソースを少し直すと大体直ります.

ダウンロードしたソースのディレクトリに入り

emacs ./extbody/extbody/PageInfo.py

を編集します.
52行目の

>> self.encoding = 'utf-8'

と直す.

記事の言語が英語指定されているもので文字化けが発生しているようです.
英語でもUTF-8なら問題ないので,latinからutf-8に直してしまいましょう.