第2目標:TCGA dataからNormal Tumorの情報を分割してDEGを取得する。(行動1 : tumorとnormalを分割したデータを作成する)

前回、目標1において作成したTCGA-BRCAのデータには、末尾に-01, -06,-11の3種類のデータがありそうなことが分かりました。TCGAデータには、TumorとNormalがあることが分かっているので、それぞれが何を意味しているのかGDC portal GDC にいっていくつかの情報を収集してみました。

その結果おそらく、下2桁はそれぞれ以下のサンプル種を出すことだと想定されました。

Sample Type ID : 01  => Sample Type : Primary Tumor
Sample Type ID : 06  => Sample Type : Metastatic
Sample Type ID : 11  => Sample Type : Solid Tissue Normal

今回、MetastaicもTumorであることを踏まえると、-01と-06をBRCA_Tumorとして、-11をBRCA_Normalとして分割したデータを作成することでTumorとNormalを分けられることが想定されました。そこで、今回はTCGA_BRCAデータをsample IDに基づいてTumorとNormalに分割することを目指したいと思います。

行動1 : tumorとnormalを分割したデータを作成する

行動1-1 : Sample typeに合わせたsample listの抽出を行う。
目標1の中で作成したTCGA_BRCAには、column namesにsample IDが入っていることを踏まえて、column namesのなかでサンプルの種類に対応する "-01", "-06", "-11"を含んでいるsample IDを抽出することが重要になります。そういった場合には、grep() functionを使用することが重要になります。そこで、3種類を以下のように減らしていきたいと思います。

BRCA_Tumor <- grep("-01", colnames(tpm1_BRCA) , value = TRUE)
BRCA_Tumor_Met <- grep("-06", colnames(tpm1_BRCA) , value = TRUE)
BRCA_Normal <- grep("-11", colnames(tpm1_BRCA) , value = TRUE)

行動1-2 : Tumorとmetastatisを合わせたsample listを作成する。
最初に記載した通り、tumorとNormalに分けるためには、TumorとTumor_metのsample listを合わせる必要があります。そこで、前回目標1-行動3で使用した積集合を求めるintersect() functionと類似の機能として和集合を求めるunion() functionを用いて、BRCA_Tumor, BRCA_Tumor_Metに含まれるsample listを作ります。

BRCA_Tumor2 <-union(BRCA_Tumor,BRCA_Tumor_Met)


行動1-3 : TumorとNormalのTPMのData tableを作成して保存する。
前回、目標1-行動3において、実施したことと同様にsample listを用いてselect() functionを用いて、作成したTumorとNormalのsample IDを保有するサンプル列を抽出してcsvファイルとして保存します。


Tpm_BRCA_Tumor <- tpm1 %>%
  select(sample,one_of(BRCA_Tumor2))
write.csv(Tpm_BRCA_Tumor, file = "TPM_BRCA_Tumor.csv") 

Tpm_BRCA_Normal <- tpm1 %>%
  select(sample,one_of(BRCA_Normal))
write.csv(Tpm_BRCA_Normal, file = "TPM_BRCA_Normal.csv") 

ここまででTCGA-BRCA data setから、Tumor, Normalデータを抽出することができました。