RefSeqのばーじょんというものに苦しんだ話
研究のときに遺伝子アノテーションはRefSeqとEnsemblを使っています。
そのうちRefSeqはucscの方でそれぞれのゲノムに対してRefSeqをマッピングして、
ポジション情報を含んだrefGene.txtというファイルがgoldenpathで提供されています。
一方RefSeqのデータベースでは種を大まかにわけたfastaファイルによってcDNA情報が保管されています。
RefSeqの新しいリリースが更新されたとき、ucscのデータも(どのゲノムのバージョンに対しても)更新がされるのですが
このとき古いrefGene.txtはバックアップがとられないそうです。
参照:https://groups.google.com/a/soe.ucsc.edu/forum/#!topic/genome/R2AXn2xjYNw
さらにrefGene.txtにはNM0000000.1ではなくNM0000000のような
version情報が切り落とされた形で転写物が記載されています。
(versionに対しては配列はおそらく一意, chromosome positionはアセンブリによる)
Uniprotなどでタンパク質とRefSeq IDなどのヒモ付けをする際には、ぴったり一致するタンパク質のみを考慮するのでversion情報が必須になります。
このversion情報ですが保管されているのはなんとgbStatus.txt or gbCdnaInfo.txtという別のファイル。
なのでこのファイルを探してこないといけないわけですが、
ucscでは先述の通りバックアップをとっていないので、
goldenpathには新しいreleaseに対するversion 情報しかないわけです。
おわたー!\(^o^)/
苦肉の策として新しいものでもマッピング位置がかわっていない(すなわち変更されていない)もののみ抽出してバージョン情報を付加することでUniprotと古いRefSeqの対応付けを完了しました。
厳密にやるとしたら古いReleaseからFasta引っ張ってきて、その種の転写物をgrepして、
もう一回マッピングしないと同じ情報はとれないとおもいます。
せめてヘッダにリリース情報があれば。。
なんでこんなことになってんだ、おかしいやろ。
無理(๑´ڡ`๑)
コメント
コメントを投稿