第2目標:TCGA dataからNormal Tumorの情報を分割してDEGを取得する。(行動1 : tumorとnormalを分割したデータを作成する)
前回、目標1において作成したTCGA-BRCAのデータには、末尾に-01, -06,-11の3種類のデータがありそうなことが分かりました。TCGAデータには、TumorとNormalがあることが分かっているので、それぞれが何を意味しているのかGDC portal GDC にいっていくつかの情報を収集してみました。
その結果おそらく、下2桁はそれぞれ以下のサンプル種を出すことだと想定されました。
Sample Type ID : 01 => Sample Type : Primary Tumor Sample Type ID : 06 => Sample Type : Metastatic Sample Type ID : 11 => Sample Type : Solid Tissue Normal
今回、MetastaicもTumorであることを踏まえると、-01と-06をBRCA_Tumorとして、-11をBRCA_Normalとして分割したデータを作成することでTumorとNormalを分けられることが想定されました。そこで、今回はTCGA_BRCAデータをsample IDに基づいてTumorとNormalに分割することを目指したいと思います。
行動1 : tumorとnormalを分割したデータを作成する
行動1-1 : Sample typeに合わせたsample listの抽出を行う。 目標1の中で作成したTCGA_BRCAには、column namesにsample IDが入っていることを踏まえて、column namesのなかでサンプルの種類に対応する "-01", "-06", "-11"を含んでいるsample IDを抽出することが重要になります。そういった場合には、grep() functionを使用することが重要になります。そこで、3種類を以下のように減らしていきたいと思います。
BRCA_Tumor <- grep("-01", colnames(tpm1_BRCA) , value = TRUE) BRCA_Tumor_Met <- grep("-06", colnames(tpm1_BRCA) , value = TRUE) BRCA_Normal <- grep("-11", colnames(tpm1_BRCA) , value = TRUE)
行動1-2 : Tumorとmetastatisを合わせたsample listを作成する。 最初に記載した通り、tumorとNormalに分けるためには、TumorとTumor_metのsample listを合わせる必要があります。そこで、前回目標1-行動3で使用した積集合を求めるintersect() functionと類似の機能として和集合を求めるunion() functionを用いて、BRCA_Tumor, BRCA_Tumor_Metに含まれるsample listを作ります。
BRCA_Tumor2 <-union(BRCA_Tumor,BRCA_Tumor_Met)
行動1-3 : TumorとNormalのTPMのData tableを作成して保存する。 前回、目標1-行動3において、実施したことと同様にsample listを用いてselect() functionを用いて、作成したTumorとNormalのsample IDを保有するサンプル列を抽出してcsvファイルとして保存します。
Tpm_BRCA_Tumor <- tpm1 %>% select(sample,one_of(BRCA_Tumor2)) write.csv(Tpm_BRCA_Tumor, file = "TPM_BRCA_Tumor.csv") Tpm_BRCA_Normal <- tpm1 %>% select(sample,one_of(BRCA_Normal)) write.csv(Tpm_BRCA_Normal, file = "TPM_BRCA_Normal.csv")
ここまででTCGA-BRCA data setから、Tumor, Normalデータを抽出することができました。