Screaming Loud

日々是精進

自然言語処理

Suffix ArrayをPythonとJavaで比較

Javaの勉強を始めたので、JavaでSuffix Arrayの実装をやってみた。 一応今日中にやるという目標を立てていたので、達成できてよかった。Python # coding:utf-8 ''' 1,文字列を分解する関数 2,ソートする関数 3,配列に格納する関数 ''' def suffix_arra…

Pythonで実装する類似度計算

A = {"みかん":5,"りんご":8,"ぶどう":2} B = {"みかん":5,"なし":8,"ぶどう":2,"もも":1} 辞書の要素は{単語:その出現頻度}という構成です.この2つのベクトルの類似度を計算する尺度を紹介する. PMIなど共起についての尺度は使わず,単純なベクトルの比較…

ビタビアルゴリズムをpythonで実装してみた

ビタビアルゴリズムを理解も兼ねて実装してみました. # -*- coding:utf-8 -*- states = ("rainy","sunny") observations = ("walk","shop","clean","shop","walk") start_prob = {"rainy":0.6,"sunny":0.4} transit_prob = {"rainy":{"rainy":0.7,"sunny":0…

mecabへの辞書追加(left-id.def でのエラー)

今回はmecabへの辞書追加でハマったのでそのメモとして残します.ほとんどhttp://fukushimu.blog.shinobi.jp/Entry/76/を参照しました. /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u wikipedia.dic -f utf8 -t utf8 w…

KNPのインストールでつまずいたあなたに

KNP4.0のインストールにつまずいていた一人です. 原因はたくさんありました. CRFのlibtool関係でエラーが出る. これに関しては最新版のCRF++5.7を入れることにより解決します. TinyCDBが認識されない. aptでtinycdbをいれていると発生します. これは一…

言語処理で覚えるべきコマンドまとめ

man まずはこれ! 分からなかったらとりあえずmanで確認. grep,egrep 正規表現で指定した行を取得. egrepはextend-grepであるため,いろいろ出来る. head,tail これは頭から何行か,もしくは最後から何行かだけを取ってくるコマンド. 全部いらないからと…

自然言語処理を勉強するいいサイト

今回は自然言語処理を勉強するいいサイトを紹介してもらったので,書いておきます. 自分も始めたのですが,うまくヤル気を出させるような構成になっており,少なくとも学びたいと思えば長続きするのではないかと思えます. Coursera.org構成はどのようにな…