GAPSCORE: finding gene and protein names one word at a time
BIOINFORMATICS Vol.20 no.2 216-225
Text マイニング物.いろいろなパラメータを放り込んでるけど,煎じ詰めると

  1. 語幹の曖昧マッチ
  2. 前後の単語による gene/protein らしさ評価
  3. 語幹がどれくらいカタイかの評価(morphology feature)

をしたということらしい.後ろにgene/mrna/promoter/transcript/expression がつけば gene/protein っぽいことが分かったと言われてもなぁ.確認できたってのは大きいことかも知れないけどね.or/with/by/to/in/for なんてのだと,逆に protein/gene では無いらしい.こっちは疑問.
\Large P(word=gene|after{\quad} or)
は低いかも知れないけど,(gene/protein でない単語が圧倒的だからね)
\Large P(after{\qquad} or|word=gene)
はそれなりに高いのではないかしら?

うーむ,数式がイマイチ綺麗じゃない.要するに "or" の後ろには gene 以外のもくるから 「or の後ろの単語が gene/protein である確率は低い」けど,「gene/protein の前に or が来る確率は低くななかろう」ということを言いたかったのです.Negative パターンとしては不適ではないかな?