跟著Nature Communication學繪圖
之Supplementary Figure 1的繪製
大家好,我是阿琛。經過前面幾期的內容學習,大家已經學習了初步的資料處理和簡單視覺化內容。今天,我們將在前面的分析結果基礎上,進一步對資料結果進行處理和視覺化處理。
首先,我們來看下Supplementary Figure 1的內容。在圖中,分別對未經校正和校正以後的表達資料進行了視覺化展示。在上一期的內容中,我們講述了Supplementary Figure 1A的繪製;在此,我們將接下來進一步講述剩下幾張圖的繪製方法。
下面,我們一起來看下Supplementary Figure 1相關圖的繪製過程。
一、R包載入
分析之前,我們需要載入了所需要的R包,包括tidyverse包,Seurat包,以及ggplot2包;同時,載入相關的自定義函式,用於後續的分析使用。
二、讀取資料
接下來,我們對資料進行讀取和預處理。在上次的分析過程中,我們對原始腫瘤表達資料和細胞系表達資料進行了合併,分別得到了未經過校正的表達資料和校正後的表達資料。在此,根據文章內容結果,我們首先讀取未經過校正的表達資料來複現補充圖1B和1C兩張圖(Supplementary Figure 1B和Supplementary Figure 1C)。
讀取表達資料後,在註釋資訊metadata中,可以看到,其中包含了26列不同的內容,包括樣品名,型別,亞型,疾病,分組情況,以及UMAP分析後的數值等等。
考慮到Supplementary Figure 1B和Supplementary Figure 1C分別對腫瘤樣品和細胞系樣品進行了視覺化展示,因此根據其不同的型別type內容,對註釋資訊進行整理,得到了腫瘤樣品資訊TCGA_ann和細胞系樣品資訊CCLE_ann兩組。
三、Supplementary Figure 1B復現
然後,我們開始復現文章中的內容。首先,來看一下如何對腫瘤組織的表達情況進行視覺化展示,得到Supplementary Figure 1B的內容。
根據不同聚類分組情況uncorrected_tumor_cluster,使用group_by()函式聯合summarise()函式,分別對UMAP_1和UMAP_2進行總結分析。
結果顯示:
接著,在正式的繪圖前,對文字內容進行設定。
結果顯示:
最後,使用ggplot2包的ggplot()函式,以UMAP_1為x軸,UMAP_2為y軸,根據不同的聚類情況,進行視覺化展示。
結果顯示:
四、Supplementary Figure 1C復現
同理,我們對Supplementary Figure 1C的內容來進行視覺化展示。
結果顯示:
結果顯示:
結果顯示:
到此,Supplementary Figure 1B和Supplementary Figure 1C已經復現出來了。
五、Supplementary Figure 1D復現
最後,我們來看一下Supplementary Figure 1D的內容。
d
Clustering of the Celligner-aligned tumor and cell line expression data colored and labeled by the clusters identified.
從Figure Legends中我們可以發現,其中使用的是經過校正處理後的腫瘤樣品和細胞系綜合表達資料。因此,我們需要讀取上一次分析得到的分析結果。
讀取校正後的表達資料,並提取其中的註釋資訊metadata。
結果顯示:
由於與前面的註釋資料相比,該資訊中缺少了UMAP分析的結果,因此我們需要透過Embeddings()函式提取分析結果,並將其與註釋資訊相合並。
結果顯示:
結果顯示:
隨後,使用geom_text()函式設定用於繪圖的文字資訊。
結果顯示:
結果顯示:
當然,這個結果由於UMAP非線性降維的差異,與原文存在一定的差異。大家也可以直接下載作者提供的UMAP分析結果,讀取進來後使用這個程式碼來進行繪圖。
到此,前期的資料處理準備和視覺化過程就處理完成了~大家可以根據這三期的內容來進行回顧學習。
回覆“
阿琛61
”即可獲得本次的資料和程式碼~
系列傳送門
—END—
撰文丨阿 琛
排版丨四金兄
主編丨小雪球