Extracting human protein interactions from MEDLINE using a full-sentence parser
Bioinformatics 2004 20(5):604-611
MEDLINE abstract からの情報抽出 by MedScanな話.構文解析を真面目にやった後に(自作)オントロジーに解析結果を載せている.オントロジーに載らない文章はタンパク相互作用ではないとして,除外するということをやっている.こういうやり方なら,精度は高くなるだろう事は予想できる.ただし,微妙に controversial な考察がつけられていた.

なんと言っても,1988 年からの over 300万文献から,1次スクリーニング(笑)で 120万の文章を取り出してきて,2976の相互作用を取り出し,カバー率を21%としている点だろう.MEDLINE abstract には全部で 15000 しか相互作用が書かれていないのだろうか? 自分の解析だと,少なくとも 3万はありそうなのだが…….