■
GAPSCORE: finding gene and protein names one word at a time
BIOINFORMATICS Vol.20 no.2 216-225
Text マイニング物.いろいろなパラメータを放り込んでるけど,煎じ詰めると
- 語幹の曖昧マッチ
- 前後の単語による gene/protein らしさ評価
- 語幹がどれくらいカタイかの評価(morphology feature)
をしたということらしい.後ろにgene/mrna/promoter/transcript/expression がつけば gene/protein っぽいことが分かったと言われてもなぁ.確認できたってのは大きいことかも知れないけどね.or/with/by/to/in/for なんてのだと,逆に protein/gene では無いらしい.こっちは疑問.
は低いかも知れないけど,(gene/protein でない単語が圧倒的だからね)
はそれなりに高いのではないかしら?
うーむ,数式がイマイチ綺麗じゃない.要するに "or" の後ろには gene 以外のもくるから 「or の後ろの単語が gene/protein である確率は低い」けど,「gene/protein の前に or が来る確率は低くななかろう」ということを言いたかったのです.Negative パターンとしては不適ではないかな?