手軽な本文抽出ツールなのですが,Unicodeにしっかり直しているのに文字化けしてしまう問題について.
ソースを少し直すと大体直ります.
ダウンロードしたソースのディレクトリに入り
emacs ./extbody/extbody/PageInfo.py
を編集します.
52行目の
>> self.encoding = 'utf-8'
と直す.
記事の言語が英語指定されているもので文字化けが発生しているようです.
英語でもUTF-8なら問題ないので,latinからutf-8に直してしまいましょう.