第1目標:TCGA dataの各癌腫ごとのTPMデータの取得 (行動2:ディレクトリの設定、packageのinstallと呼び出し、データの読み込みと構造の理解)

それでは、ここからはダウロードしたデータ ("tcga_RSEM_gene_tpm.gz")を使用して、ある癌腫のデータの抽出に進みたいと思いますが、今日はファイルの格納場所を設定し、ファイルを読み込む方法を記載したいと思います。

行動2 データを読み込み、構造を理解する。

2-1) データ格納フォルダをRに教える (ディレクトリの設定)

以前(R Studioの設定)にて右下にある"Environment,History~"の中で、"File"タブをクリックすると、現在defaultで選択されている作業ディレクトリが表示されます。

TCGAデータが格納されている場合(もしくは、ファイルを表示ディレクトリに格納している場合)はそのままでよいのですが、筆者は今後のために解析用に新しいフォルダ"Blog-TCGA-PANCAN"を作成し、前回downloadした2ファイルを格納したので、そこを設定する方法を表示します。

2-1-1) 赤矢印の”...”をクリックするとdirectoryを選択するためのwindowが開くので、そこで該当するフォルダ(ここでは”Blog-TCGA-PANCAN”)を選択します。


2-1-2) 操作1ではフォルダを開いただけで設定はできていないので、次に⚙(歯車アイコン)Moreをクリックすると以下のような選択肢が現れるので、"Set As Working Directory"を選択してください。これで設定完了。

実際には "setwd()" というfunctionを用いたのと同じ状況になります。


念のため、自分のやり方でよいのか不安になり調べると、ネットには非常に多くの情報がありました(Ref.1)。先駆者様様です。念のためご紹介しておきます。


2-1 別法) Toolsタブ > Global Options... > Generalメニューの中で、”Default working directory(when not in a project)”のBrowseボタンを押して該当フォルダを選択する。

Reference.1作業ディレクトリの設定について
mom-neuroscience.com
mom-neuroscience.com

2-2 解析に必要なpackageをinstallして、パッケージを呼び出す

今回の目標を達成するためには、 ダウンロードしたTCGAデータ(tcga_RSEM_gene_tpm.gz)を読み込む必要があります。


2-2-1) 必要なpackageのインストール
そこで、Rで解析を行うためのパッケージ(package, 解析機能の詰め合わせみたいなもの)をインストールして、R-studio上で使えるようにする(=呼び出す)必要があります。

packageのインストール方法は複数ありそうですが、2つを説明します。

2-2-1-1)R Studioの右下のPackages Tab(赤矢印のtab)を開き、インストールしたいパッケージを入力してダウンロードします。

2-2-1-2) install.packagesを利用してinstallする方法があります。

install.packages(パッケージ名)


2-2-2) 必要なpackageの呼び出し
library functionを用いて、呼び出すpackageを指定します。

library(パッケージ名)

2-3 TCGA dataを読み込む

今回のTCGAデータの読み込む方法としてはいくつかの方法がありそうです。

1) Rに標準で設定されているread.table()を使用する。

tpm1 <- read.table("tcga_RSEM_gene_tpm.gz") #tpm1 という変数にtcga dataを格納する。
class(tpm1) # 格納されたtpm1 のデータtypeを確認する

=>"spec_tbl_df" "tbl_df""tbl""data.frame" 型として呼び込まれた。


1)   readrもしくはtidyverseというpackageに入っているread_table()を使用する。

install.packages(tidyverse) #tidyverse packageをinstallする
library(tidyverse) #tidyverse packageを呼び出す
tpm1 <- read_table("tcga_RSEM_gene_tpm.gz") #tpm1 という変数にtcga dataを格納する。
class(tpm1) # 格納されたtpm1 のデータtypeを確認する
print(tpm1[1:5, 1:5],rownames=TRUE,colnames=TRUE) # 1-5行目 x 1-5列目までを表示

=>"tbl"(tibble)型として呼び込まれた。



2) data.tableというpackageに入っているfread()を使用する。

install.packages(data.table)     #data.table packageをinstallする
library(data.table)   #data.table packageを呼び出す
tpm2 <- fread("tcga_RSEM_gene_tpm.gz") #tpm2 という変数にtcga dataを格納する。
class(tpm2) # 格納されたtpm1 のデータtypeを確認する
print(tpm2[1:5, 1:5],rownames=TRUE,colnames=TRUE) # 1-5行目 x 1-5列目までを表示

=> "data.table" "data.frame"型として呼び込まれた。

read_tableで読み込んだtpm1とfreadで読み込んだtpm2の表示

データを見ていただければわかる通り今のtibble, data.frameは1行目に各geneに該当するEnsemble IDの情報が、列方向に各サンプルの情報が並んでいることが分かりました。


tibble, data.frameの違いの説明を含むRのデータ型・データ構造については以下を確認ください。
biologist-programming-training.hatenablog.com