第1目標:TCGA dataの各癌腫ごとのTPMデータの取得 (行動1:TCGAデータの取得)
まず、1つ目の目標として、がん領域において非常に重要なTCGAデータのダウンロードと、その中身の確認方法を検討していきたいと思います。
それでは、1つめの目標をまずタイトルの通りに「TCGA dataの各癌腫ごとのTPMデータの取得」と設定することにします。今回はまず、TPMデータのダウンロードまでを書いていきたいと思います。
1. UCSC Xenaにアクセスする。(https://xena.ucsc.edu/)
1-1 : "Launch Xena"ボタンを押して次に進む。
このあたりの詳細は統合TV(https://togotv.dbcls.jp/en/20200313.html)でも動画あります。自分が目指すのは、Rawデータにより近いところからの解析なので、Visuzalizationのパートは統合TVを見ればよいかと思います。
1-2 : ページの左上にある"DATA SET" タブを押して次に進む。
これによって、膨大なデータが選択できるようになるはずです。執筆時で129 Cohorts, 1571 Datasetsという感じでした。
1-3 : TCGA Pan-Cancer (PANCAN)を選択する。
同じようなデータに対して各癌腫間の比較が将来の目標なので、データ量は膨大ですが、”cohort: TCGA Pan-Cancer (PANCAN)”を選択してみたいと思います。
1-4 : gene expression RNAseqのTOIL RSEM tpm (n=10,535) UCSC Toil RNA-seq Recomputeを開く
TCGAってすごいと毎回感服させられますが、いろいろなデータが格納されているようです。(一応、この時点のURLも張っておこうと思います。https://xenabrowser.net/datapages/?cohort=TCGA%20Pan-Cancer%20(PANCAN))
ここで、問題発生です。
第一目標はTPM情報の取得なのですが、いろいろなデータがありそうですが、TPMとして想定されるデータとしては以下の2つが見つかりました。
① gene expression RNAseqのTOIL RSEM tpm (n=10,535) UCSC Toil RNA-seq Recompute
② transcript expression RNAseqのTOIL RSEM tpm (n=10,535) UCSC Toil RNA-seq Recompute
後半のファイル名が同じ?!という感じですが、両URLを開いてみるとURLにもそれぞれ"RSEM_gene_tpm"と"rsem_isoform_tpm"とそれぞれ記載があり、とんだ先のページの説明のTableにおいても、それぞれのidentifierが
・60,499 identifiers X 10535 samples
・198,620 identifiers X 10535 samples
と全く異なっておりました、URLの名づけを踏まえても、後者はGeneのisoformごとに分割したファイルという感じかなと(勝手に)理解し、突き進むことにしました。
(もし違っていたらいろいろと終りますが、、、、まぁそこは初心者ということで容赦いただくことにしましょう。)
1-5 : downloadの横にある"~/tcga_RSEM_gene_tpm.gz"というファイルと、ID/Gene Mappingの横にある"~/probeMap%2Fgencode.v23.annotation.gene.probemap;"というファイルをダウンロードする。
1-4の説明でidentifiersとサンプル数の数を見た人は薄々感じているかもしれませんが、1つめのTCGA PANCANの約1万例x6万遺伝子?(coding以外も入っているってこと??)のファイルは、結構重めの723Mbでした。
2つ目のファイルは、ファイル名をみればそのままで、今のidentifierとgene nameをつなげるために必要なファイルであろうと想定されます。こちらはあまり大きなファイルではないですね。
とりあえず、第1目標の行動1としてここまでにしたいと思います。