■ - ktazの論文メモ

GAPSCORE: finding gene and protein names one word at a time
BIOINFORMATICS Vol.20 no.2 216-225
Text マイニング物．いろいろなパラメータを放り込んでるけど，煎じ詰めると

語幹の曖昧マッチ
前後の単語による gene/protein らしさ評価
語幹がどれくらいカタイかの評価(morphology feature)

をしたということらしい．後ろにgene/mrna/promoter/transcript/expression がつけば gene/protein っぽいことが分かったと言われてもなぁ．確認できたってのは大きいことかも知れないけどね．or/with/by/to/in/for なんてのだと，逆に protein/gene では無いらしい．こっちは疑問．
$\Large P(word=gene|after{\quad} or)$
は低いかも知れないけど，(gene/protein でない単語が圧倒的だからね)
$\Large P(after{\qquad} or|word=gene)$
はそれなりに高いのではないかしら?

うーむ，数式がイマイチ綺麗じゃない．要するに "or" の後ろには gene 以外のもくるから「or の後ろの単語が gene/protein である確率は低い」けど，「gene/protein の前に or が来る確率は低くななかろう」ということを言いたかったのです．Negative パターンとしては不適ではないかな?