Screaming Loud

日々是精進

2011-05-01から1ヶ月間の記事一覧

HTMLタグを正規表現で取り除く

HTMLのタグはParserで取り除けるが,うまくいかない時がある. そんな時に正規表現で取ってるようになっておけば楽. コードは以下の感じ. import re url = <a id="logo" title="Google ホームへ" href="http://www.google.co.jp/webhp?hl=ja">Google<img height="288" width="167" alt="" src="/images/srpr/nav_logo73.png"></a> print re.sub("<.*?>","",url) #Google 正規表現のキモは以下. 4.2.1…

Pythonにおける空要素を含むリストについて

リストにおいて空要素を削除したいなーと思って少しいじったのでメモ. seq = ["hatena",""] seq.remove("") print seq #["hatena"] になる. ただ seq.remove() seq.remove(None) は動かない. 引数がおかしいから. seq = ["hatena","",""] seq.remove("")…

八日目の蝉

昨晩は映画「八日目の蝉」を見ました. DVD&ブルーレイ 10月28日(金)発売。映画『八日目の蟬』オフィシャルサイト出演は井上真央と永作博美です.はっきり言って内容は非常に重かったです. ここでネタバレはしないようにしますが. 井上真央は「花より男…

beautifulsoupをクラスにしてみた.

モジュール:wrap.py を作ってみた. # -*- coding:utf-8 -*- import BeautifulSoup import re import urllib2 import sys from html5lib import HTMLParser,treebuilders #urlを開く関数 def open_url(html): opener = urllib2.build_opener()#クライアント…