RefSeqのばーじょんというものに苦しんだ話

12月 30, 2014

研究のときに遺伝子アノテーションはRefSeqとEnsemblを使っています。

そのうちRefSeqはucscの方でそれぞれのゲノムに対してRefSeqをマッピングして、
ポジション情報を含んだrefGene.txtというファイルがgoldenpathで提供されています。

一方RefSeqのデータベースでは種を大まかにわけたfastaファイルによってcDNA情報が保管されています。

RefSeqの新しいリリースが更新されたとき、ucscのデータも（どのゲノムのバージョンに対しても）更新がされるのですが
このとき古いrefGene.txtはバックアップがとられないそうです。
参照：https://groups.google.com/a/soe.ucsc.edu/forum/#!topic/genome/R2AXn2xjYNw

さらにrefGene.txtにはNM0000000.1ではなくNM0000000のような
version情報が切り落とされた形で転写物が記載されています。
（versionに対しては配列はおそらく一意, chromosome positionはアセンブリによる）

Uniprotなどでタンパク質とRefSeq IDなどのヒモ付けをする際には、ぴったり一致するタンパク質のみを考慮するのでversion情報が必須になります。

このversion情報ですが保管されているのはなんとgbStatus.txt or gbCdnaInfo.txtという別のファイル。

なのでこのファイルを探してこないといけないわけですが、
ucscでは先述の通りバックアップをとっていないので、
goldenpathには新しいreleaseに対するversion 情報しかないわけです。

おわたー！＼(^o^)／

苦肉の策として新しいものでもマッピング位置がかわっていない（すなわち変更されていない）もののみ抽出してバージョン情報を付加することでUniprotと古いRefSeqの対応付けを完了しました。

厳密にやるとしたら古いReleaseからFasta引っ張ってきて、その種の転写物をgrepして、
もう一回マッピングしないと同じ情報はとれないとおもいます。
せめてヘッダにリリース情報があれば。。

なんでこんなことになってんだ、おかしいやろ。

無理(๑´ڡ`๑)

このブログを検索

white page

RefSeqのばーじょんというものに苦しんだ話

コメント

コメントを投稿

このブログの人気の投稿

旧姓を失った研究者が海外でも活躍するためには

再現性なんてないさ（？）

WLSのssh