Saturday, July 21, 2007

Laboratory::Technology - 最近気になる手法

私は感性情報処理の研究をしている中,言語屋さんよりの人間です。
今書いている論文の手法に取り入れられないかなぁと考えているのが,
スムージングとベクトル空間モデルです。
大きいNをとったときのN-gramだと,ある文書集合の中での出現確率が0になってしまうので,
出現確率を予測,補完しようというのがスムージング。
ベクトル空間モデルは文書検索手法の一つ。
スムージングは取り入れたら,提案手法で使っているパラメータがある範囲にあるときに
精度が向上しそうなので,近々実装します。

それよりも,今日参考書とにらめっこして勉強していたのがベクトル空間モデル(VSM)。
SVMとごっちゃになってしまいそうです。
VSMで潜在的意味インデキシングすげー!って今日感嘆していました。
以前准教授から話を聞いて,何か面白そうだなとは思っていましたが。
空間の次元を下げると関連のある語同士が近づくといいますか。
勝手にシソーラスのような情報が生まれるといいますか。
何で?ってところは,私は線形代数学が得意じゃないのであまりよくわからないのですが。
数式みても頭がプシューっとなったので,PerlのPDLをインストールして
特異値分解とかをぱぱっと計算。
潜在的意味インデキシングも使ったVSM検索を行ってコサイン尺度だしてうほほーいと喜んでいました。
実装の手間を省くのはまぁ当たり前なんですが,
もしコレを使った論文を書くなら,アルゴリズムをきちんと理解しておかないといけませんけどね。

PDLのマニュアルが非常に読みにくかったので,テストプログラムさえ作るのに時間がかかりました。
コア部分はCで書かれているようなのですが,3万次元とかのベクトル演算できるんでしょうか。
圧縮スパース行列の特異値なんたらとかものってましたし,
なんとかなるんでしょうね,きっと。

No comments: