RefSeqのばーじょんというものに苦しんだ話


研究のときに遺伝子アノテーションはRefSeqとEnsemblを使っています。

そのうちRefSeqはucscの方でそれぞれのゲノムに対してRefSeqをマッピングして、
ポジション情報を含んだrefGene.txtというファイルがgoldenpathで提供されています。


一方RefSeqのデータベースでは種を大まかにわけたfastaファイルによってcDNA情報が保管されています。





RefSeqの新しいリリースが更新されたとき、ucscのデータも(どのゲノムのバージョンに対しても)更新がされるのですが
このとき古いrefGene.txtはバックアップがとられないそうです。
参照:https://groups.google.com/a/soe.ucsc.edu/forum/#!topic/genome/R2AXn2xjYNw

さらにrefGene.txtにはNM0000000.1ではなくNM0000000のような
version情報が切り落とされた形で転写物が記載されています。
(versionに対しては配列はおそらく一意, chromosome positionはアセンブリによる)


Uniprotなどでタンパク質とRefSeq IDなどのヒモ付けをする際には、ぴったり一致するタンパク質のみを考慮するのでversion情報が必須になります。


このversion情報ですが保管されているのはなんとgbStatus.txt or gbCdnaInfo.txtという別のファイル。


なのでこのファイルを探してこないといけないわけですが、
ucscでは先述の通りバックアップをとっていないので、
goldenpathには新しいreleaseに対するversion 情報しかないわけです。



おわたー!\(^o^)/





苦肉の策として新しいものでもマッピング位置がかわっていない(すなわち変更されていない)もののみ抽出してバージョン情報を付加することでUniprotと古いRefSeqの対応付けを完了しました。


厳密にやるとしたら古いReleaseからFasta引っ張ってきて、その種の転写物をgrepして、
もう一回マッピングしないと同じ情報はとれないとおもいます。
せめてヘッダにリリース情報があれば。。

なんでこんなことになってんだ、おかしいやろ。


無理(๑´ڡ`๑)




コメント

このブログの人気の投稿

再現性なんてないさ(?)

特に収穫がない日

jupytherにチャレンジ