Screaming Loud

日々是精進

scala(Jsoup)でHTMLパース

scalaでHTMLをパースする処理を書いてみました。

scalaで書かれた純粋なHTMLパーサが見つからなかったので、Java製のJsoupを利用しました。

とくにハマるポイントはなかったのですが、
注意点としてはJavaのチェック例外に対してtry-catchで囲まなくてもコンパイルが通ってしまうので、その点に注意することです。

実際のコードは、以下です。

build.sbtには以下を追加します。

libraryDependencies ++= Seq(
 "org.jsoup" % "jsoup" % "1.7.3" //スクレイプ用
)

以下スクレイピングするコードです。

GooglePlayからIcon画像のURLを引っ張ってくる