仙桃沒收錄的GEO資料集就不能零程式碼分析?小了,格局小了
大家好,我是浮浮~好多小夥伴們諮詢仙桃工具是否能做非腫瘤的生信分析,在回答查詢GEO資料集之後,有的小夥伴非常難過的表示自己領域的GEO資料集還沒有被仙桃工具收錄。其實這是因為我們的程式設計師小哥哥對資料集准入標準設定的比較嚴格,對於資料沒有達到要求的資料集就被仙桃剃掉了。
但是,沒有被仙桃收錄的資料集真的就不能用仙桃零程式碼出圖了嗎?小了,格局小了,今天我就帶大家使用一個COPD相關未被仙桃收錄的GEO資料集來複現今年發表的生信文章
(有一些非腫瘤領域測序資料集很少,雖然沒有達到仙桃的規範性要求,但是灌灌水拿個獎學金、申個單位職稱還是沒問題的)。
文章標題為:“
Identification and Validation of Autophagy-Related Genes in Chronic Obstructive Pulmonary Disease
”,於今年發表在International Journal of Chronic Obstructive Pulmonary Disease雜誌上,影響因子3。35分。下面我們一起來看看這篇文章都做了什麼吧。
0.期刊簡介
1.全文總覽
先來梳理一下全文。本文一共2表7圖,以生信分析為主,收集了臨床樣本做了qPCR實驗進行簡單驗證,下面梳理一下本文的展開邏輯思路:
圖1
| 評估GEO資料集並進行差異分析(火山圖和熱圖)
圖2
| 對上調和下調的自噬相關基因進行表達差異分析,分組對比展示
圖3 | 對錶達差異的基因構建PPI蛋白互作網路,檢視蛋白之間的互作關係,並分析與自噬相關基因的關係
圖4 | 相關性熱圖展示表達差異的自噬相關基因
圖5
| 對這40個自噬相關基因進行功能富集
圖6 | 對這40個自噬相關基因進行KEGG通路富集
圖7 | 用自己收集的COPD患者血樣對上調和下調前5的基因進行驗證(qPCR)
表1 | 表達差異前40的基因展示
表2 | 自己資料的臨床資訊展示
可以看到,本文工作量並不大,實驗部分驗證也不是很深入,雖然收集了患者的臨床資訊,但是並沒有結合生信分析的結論進行後續驗證。本文思路簡單,非常適合初學者進行復現,雖然工作量少,但是進行了“降維打擊”,如果是腫瘤領域,這些工作量肯定發不過3分的。好啦,話不多說,我們一起來看看如何復現這篇文章吧。
2. 全文復現
本文使用了GSE38974資料集,我們先使用仙桃看一下。
首先進入仙桃學術主頁:
https://www.xiantao.love/
點選“資料集檢索”
在檢索框中資料資料集ID,點選“檢索”
可以看到,該資料集並沒有被仙桃收錄,也許是因為還沒有清洗到這個平臺,或者是資料集質量不過關,這個我們先不管。在結果的右下角有“GEO2R”,說明該資料集是可以透過GEO平臺進行GEO2R工具分析的,我們點選“GEO2R”
彈出了GEO官網的GEO2R分析介面,接下來我們先在官網進行分析。詳細的步驟我就不再說明了,如果對這步分析不熟悉的學員,可以到解螺旋官網檢視GEO資料庫的免費單元課程或者影片講解課程進行學習。
該資料集有兩個平臺,我們選擇GPL4133的mRNA註釋平臺,選擇好分組和入選樣本
分析結束後自動跳轉到結果頁面,關於該頁面的介紹,小夥伴們也可以在解螺旋的GEO課程中看到詳細講解。
結果圖中的UMAP圖顯示兩組樣本能夠很好地區分開,可以儲存該圖代替原文的PCA
下方顯示了差異基因列表,在這裡我們點選“Download full table”下載完整表格
頁面自動跳轉,等待幾秒後會彈出下載視窗,下載差異基因表格。
這樣我們就獲得了GSE38974資料集的差異基因列表,但是該資料集的平臺資訊中部分探針沒有對應gene。symbol,所以我們還要篩選具有gene。symbol的部分
可以直接使用excel的篩選功能,將不是基因名稱的專案勾選取消,這樣就獲得了註釋好的差異基因列表
在這裡可以同時篩選adj。P。Val0)中提取20個,在下調基因(logFC
假如GEO2R沒有進行註釋或者對自動註釋的資訊有疑問,可以在GEO中搜索平臺,比如“GPL4133”,進入該平臺詳細資訊介面
頁面向下翻,可以看到平臺的註釋檔案,這裡有一些ID是沒有對應GENE_SYMBOL的,就可以理解剛才的差異基因列表為什麼gene_symbol中有空白項了。點選“Download full table”就可以下載完整的平臺註釋資訊表格
我們還需要準備一下該資料的表達矩陣檔案,在我們的仙桃工具介面,如下圖所示,點選左下角的“資料下載”
這裡每個檔案的具體內容我就不重複說明了,解螺旋的生信體系課或者GEO資料庫課程都有詳細介紹,感興趣的小夥伴可以系統地學習一下。這裡我們下載GPL4133平臺對應的表達矩陣
這裡得到的表達矩陣是。gz格式的壓縮包,解壓開啟後是。txt格式檔案,我們以excel形式開啟方便檢視。最開始是一些說明資訊
下方是表達矩陣,不過這裡的表達矩陣是沒有經過註釋的,我們可以進行處理
這裡如果不會程式碼也沒關係,我們可以直接將表達差異基因中的ID和gene_symbol兩列提取出來:將ID進行升序排列後複製這兩列,貼上到表達矩陣中,然後使用相同的方法去掉沒有對應gene。symbol的行,即可得到註釋後的表達矩陣
到此我們已經得到了該資料集的表達差異基因列表並且篩選了表達差異top40基因(上調20個+下調20個),還有表達矩陣(未註釋+註釋),下面我們開始利用仙桃工具進行分析。首先是PCA圖,雖然GEO2R工具的UMAP圖可以替代,但是後續調整風格、拼圖等操作還是不如仙桃工具分析的結果更加方便。進入仙桃工具,開啟“表達差異(挑)”,點選“PCA圖”進入。
這裡一般使用未註釋的表達矩陣即可,開啟後可以看到有Sample_description中有分類資訊,我們需要這一行以及下方的GSM編號,最後將表達矩陣提取出來
整理好的表格如下圖所示,儲存表格,在PCA圖介面中上傳資料
點選“確認”進行繪圖,可以看到結果與原文一致,兩個分組的樣本能夠明顯分開,儲存結果,可以儲存到歷史記錄用於後續拼圖,也可以下載多種格式的本地檔案進行儲存
火山圖的繪製仍然在“表達差異(挑)”中,點選“火山圖”進入
將差異基因列表按照上傳資料格式進行整理,提取基因名稱、adj。P。Val、P。Value、logFC,然後上傳資料進行分析繪圖
我們按照原文中的閾值設定將logFC絕對值設定在1。5,點選“確認”進行出圖。得到的火山圖與原文並不完全一致,可能是作者剔除了部分基因。但是這個不要緊,復現不是目的,最終還是要學會方法分析自己的資料
熱圖的繪製在“火山圖”的下方,點選“複雜數值熱圖”
這個熱圖可以設定多種資訊,
按照上傳資料要求整理熱圖,原文使用的是top40的基因,我們這裡僅展示top20的,之前我們已經獲得了註釋後的表達矩陣,所以查詢相應的資料即可
上傳資料,點選“確認”進行分析繪圖
以上我們就完成了圖1的復現
。雖然過程比較長,但是大部分其實是獲得資料的過程,得到了資料,接下來使用仙桃進行分析就比較簡單了。
表1是差異基因列表,這個我們之前已經得到了,這裡就不再贅述了。
圖2是上調和下調的自噬相關基因進行表達差異分析
,分組對比展示,這裡使用仙桃工具的分組比較圖進行復現。在“基礎繪圖”選單中
由於我們和原文的處理資料過程不同,所以並不能得到和原文完全相同的結果。不過還是以學習、掌握方法為主就可以了。這裡分組比較圖我們可以選擇差異最明顯的基因進行展示,我們這裡以上調顯著的HNRNPA0和下調顯著的PFKFB3為例,按照分組比較圖的格式,在表達矩陣中提取兩個基因的資訊
在仙桃工具中上傳資料,點選“確認”進行分析繪圖。輸入多組資料即可繪製多組的比較結果圖,可以在右側引數設定中調整不同風格,整理後就是原文的figure2
圖3是PPI網路的展示
,這裡我們可以使用仙桃工具得到蛋白-蛋白互作網路的資料。在“互動網路(聯)”選單下,展開“STRING蛋白互作”,點選“STRING蛋白互作”進入
可以整理檔案上傳,也可以在右側引數中直接輸入分子列表,在“基本引數”中可以設定可信度閾值,原文沒有描述閾值,我們可以根據結果數量的多少進行調整,在保證結果數量時儘量選擇高可信度
點選“確認”後即可得到蛋白互作資料,也可以進行多種格式檔案的下載儲存。由於可信度在0。4時數量較少,我們選擇0。15進行分析
得到互作網路資料後,提取node1、node2和combined_score到新的表格中
然後將資料匯入cytoscape進行視覺化
也可以在軟體中設定不同的風格,具體引數調整可以在解螺旋官網學習cytoscape單元課程
提取資料中每個蛋白互作分子的個數,即可繪製原文中的圖3B
圖4是top40基因的相關性熱圖
,仙桃工具支援原始矩陣和相關矩陣兩種型別的資料格式。這裡我們已經得到了表達矩陣,所以選擇原始矩陣進行上傳分析。
在仙桃工具的“基礎繪圖”中找到“相關性熱圖-原始矩陣”,點選進入
仙桃工具中相關性熱圖-原始矩陣就是將top40基因提取出來,然後進行轉置,就是輸入的資料格式。之前繪製熱圖的時候我們已經將這部分資料提取出來了,接下來只需要轉置貼上即可。
仙桃工具提供了不同的型別,也就是不同的展示風格可供選擇
接下來兩張圖是GO/KEGG富集分析,我們只需要將基因名稱輸入到仙桃工具,即可輕鬆進行富集分析並可視化結果,在仙桃工具“功能聚類(圈)”選單中下拉“GO|KEGG”,首先進行“GO|KEGG富集分析”
與STRING分析相似,這裡可以整理檔案上傳,也可以直接在右側引數中輸入基因列表,其他引數預設即可,點選“確認”進行分析
顯示結果後可以點選“儲存結果”,將結果儲存到雲端資料,後續用於視覺化。也可以下載多種格式的表格檔案,其中“Word三線表下載”可以直接新增到文章或者補充材料中
在“GO|KEGG視覺化”條目中可以將剛才的分析結果進行視覺化。需要選中雲端資料剛才儲存的結果,右側引數可以選擇顯示的型別,下方“基本引數”中可以選擇視覺化的專案,這個是在剛才儲存的結果中查詢
具體顯示風格在引數中可以個性化調整。由於我們復現的時候並沒有挑選自噬相關的基因,所以得到的結果與原文不完全相同。
最後作者收集了臨床樣本進行了qPCR驗證部分基因,但是原文展示的有一半的結果不是很好。這裡建議做這種批次基因的qPCR驗證最好大量檢測,然後挑選結果相對較好的進行展示,畢竟引物不是很貴,就多檢測一些,最好還是避免像原文這樣一半都沒有統計學意義的結果。
到此,本文的復現就結束了,是不是很簡單呢?這裡主要介紹了假如自己找到的GEO資料集沒有被仙桃工具收錄,只要能夠進行GEO2R分析,那麼也可以結合工具完整地進行零程式碼生信分析,做出基本的分析並可視化。最後也可以使用仙桃工具進行拼圖,這個在之前的推文已經介紹很多次了,錯過的小夥伴可以翻閱一下以前的推文,有比較詳細的介紹。
好啦,趕緊回去翻一翻有沒有因為仙桃工具沒有收錄就被放棄的GEO資料集,可以嘗試再次分析利用起來哦~~
歡迎大家關注解螺旋生信頻道-挑圈聯靠公號~
—END—
撰文丨浮 浮
排版丨四金兄
主編丨小雪球