太猛了！萬字長文單細胞分析全流程講解，看完就能發文章！建議收藏！（附程式碼）

2021-06-21由解螺旋發表于科技

晨曦的單細胞筆記（1）

Hello~大家好，這裡是晨曦的單細胞筆記，上次的聯合多資料集不知道大家學習的如何呢，考慮到各位小夥伴們希望紮紮實實的學習單細胞分析技術，這裡特別準備了單細胞基礎流程講解，來為大家打下堅實的基礎，同時為大家充分的開啟單細胞分析的大門，只要大家紮紮實實的走下來，都會成為自己課題組單細胞分析的得力干將哦~

本筆記的示例資料可以從Seurat官網獲得

晨曦解讀

這裡就是構建了Seurat物件，然後我們仔細解析一下10×讀取這個函式需要的三個檔案形式如下（Ps：也就是說我們在讀取10×這個平臺檔案的時候，不管如何命名，都需要把三個檔案整理成如下的形式，這樣這套程式碼都是可以完美相容的~）

晨曦解讀

然後我們來看一下我們構建的Seurat物件是什麼樣子的（其中assays儲存的為表達矩陣；meta.data儲存的為細胞資訊；active.ident儲存的為表達矩陣細胞名；active.assay儲存的為表達矩陣的名）

晨曦解讀

稀疏矩陣指的是，我們認為細胞與細胞之間的表達大部分基因都應該是相似的，滑稽一下，如果大部分都不相似，可能真是變異了~然後這裡我們只突出顯示錶達不同的基因表達，這樣可以減少記憶體的消耗，這就是稀疏矩陣~（這個表達矩陣和bulk-seq表達矩陣類似，都是橫座標為Gene symbol，縱座標為細胞名）

晨曦解讀

第一張圖為不同樣本上基因的表達數量，其中一個點代表一個細胞；第二張圖為不同細胞RNA表達的數量；第三個圖則代表線粒體的百分比，如果線粒體基因佔比過高則說明有問題，細胞要麼是壞死要麼就是特殊細胞（心肌細胞或者神經細胞）根據需求往往是10%一下，但是根據特殊情況25%以下也有可能，所以需要我們認清楚我們的樣本來源~（總而言之，這個視覺化的目的就是為了評估我們的樣本，也就是這些細胞的質量如何）

晨曦解讀

第一張圖，是樣本中RNA的表達數量和線粒體基因的比例，兩者之間沒什麼關係，這個才是正常的樣本，因為線粒體基因的數量大約是300多個，而且十分穩定，基本上細胞壞死，RNA降解掉，線粒體基因的數量都不會大幅度改變，所以如果RNA數量降低，而線粒體基因升高，則提示細胞可能存在壞死；第二章圖，基因的數量和RNA的數量呈正相關，這個也是很好理解的，所以根據這個視覺化評估，我們的細胞是正常且合格的（其實這個圖就是看趨勢，上面的那三個小提琴圖則是看數量，一般來說線粒體基因比例在10%一下，然後基因的數量和RNA的數量只要大部分比較密集即可，因為這個根據樣本的變化，這兩個數值也會有不同的變化，比如說有的要求基因的數量是4000左右，RNA的數量為20000-25000左右，和這個不一樣則只能說明樣本的不同）

晨曦解讀

既然我們對資料進行了改動，那麼我們下一步自然是對資料進行標準化，來平衡資料之間的改動，這裡其實涉及到更多資料處理的原因，但是咱們畢竟是生信分析，這樣理解更好方便記憶，感興趣的同學可以去查閱相關資料（那麼擴充套件一下，後面也有一步對資料進行挑選，隨後當然也得接上資料標準化的處理）

晨曦解讀

高可變基因即，我們認為細胞與細胞之間的基因表達其實趨於相似，就是說表達你高一點，我少一點其實並不能表現功能，只有那種表達有顯著差異的才會被我們認為是後續研究的主要基因（畢竟scRNA-seq的資料量太大，這樣的目的其實是為了減少我們分析的資料量，減少我們“無用”的資料運算）

晨曦解讀

這個時候我們回過頭來，再來觀察一下我們一開始構建的Seurat物件，為什麼這裡我們要從頭觀察，不知道大家有沒有這樣一個疑惑，就是我這裡每一步都在對同樣一個變數名進行賦值，那麼按照我們以前學習的經驗，變數的賦值是不斷的疊加的，也就是說新的賦值會代替舊的賦值，那麼對於Seurat物件是這樣嗎？

大家從下面這個圖可以很清楚的看到，我這裡從新展示了經過一系列操作的Seurat物件，在assays這裡的表達矩陣被規整的整理成了data即原始表達矩陣，以及scale.data經過標準化的表達矩陣，所以說並沒有被變數的重複賦值給替換掉，這裡可能會有同學問，這是因為什麼？

這是因為Seurat的資料格式是HDF5型別，當然知道這些對我們的分析沒有太多的用處，大家只需要知道，我們每一步得到的資料並沒有消失，至於資料的具體格式，大家感興趣可以自行搜尋學習~

晨曦解讀

所謂的PCA降維即，我們可以把一個樣本看成是一個維度，我們都知道我們所處的世界是三維世界，對於擁有上萬個樣本，也就是維度的矩陣，我們壓根就無法理解這麼高維度的資訊，所以我們要把其進行降維，可以簡單理解為一個總結

舉個例子：我們對於又高又瘦面板白的男生，我這麼形容消耗了我很多口舌，但是我可以用一個字來概括，就是帥~這就是降維，這就是PCA

晨曦解讀

上面這個圖我們主要是看右邊的圖例，也就是P值，P值在PC11之後有一個劇烈的降低，所以我們選擇PC為11作為我們後續分析的一個引數

晨曦解讀

這個圖的我們主要看拐點，我們可以很清楚的看到，這個圖在PC為10的時候圖形趨於平穩，所以這裡我們選擇PC為10作為我們後續分析的一個引數（這裡其實我們也可以知道不同的判斷方法選擇的PC數是不一樣的，而且理論上來說儲存更多的PC可以儲存更多的生物學差異，所以這裡我們靈活選擇即可，因為都不算錯~）

當然這裡Seurat官網鼓勵我們使用不同數量的PC（10、15甚至50）來進行後續的分析，而且往往後續的分析不會有太大的差異~

晨曦解讀

這裡的resolution引數的選擇有一個小技巧，比如我們一開始設定0.5，然後我們進行後續的操作，當我們tSNE視覺化細胞亞群結果後，發現有的細胞亞群太大，也就是細胞太多，這個時候我們可以回過頭來把這個引數調大點，這樣來回修改操作，最後得到我們滿意的tSNE視覺化結果~

晨曦解讀

可以看到我們的細胞已經被編上了亞群的編號，並且一共分了8個亞群

晨曦解讀

個人感覺，我會選擇tSNE~

接下來我們既然已經把細胞亞群給分類了出來，下一步，我們自然要開始定義我們細胞亞群的屬性也就是功能，也就是眾多工具頻出的一個步驟——細胞註釋

晨曦解讀

執行上面的程式碼可以得到cluster2亞群的所有差異基因，這個差異基因的選擇是基於cluster2亞群最低可以檢測到的（min.pct引數）百分率（0.25）來設定的，執行後得到下面的表格

晨曦解讀

我們來舉個例子大家就知道這個表格怎麼解讀了，拿IL32基因，pvalue代表該細胞亞群的IL32這個基因同除該細胞亞群外的這個基因去做差異分析得到的P值，也就是說跟bulk-seq類似，小於0.05具有統計學意義，然後FC就是越高特異性越強，pct.1則是代表該基因在對應的cluster所有細胞中表達的比例，pct.2代表該基因在其它cluster所有細胞中表達的比例，這兩個值的比例表達基因在細胞中表達的廣度差異，就是說該亞群表達比例高，在別的亞群表達比例低，那麼就是我的專屬marker這個意思

然後在這個表格我們一般關心兩個數值，一個是FC，一個就是adjp~

晨曦解讀

接下來我們既然得到了細胞亞群中的marker基因，那麼下面我們就要把其進行視覺化，畢竟視覺化能夠更加直觀一點

晨曦解讀

其實到了這一步我們的細胞亞群也找到了，marker基因也有了，我們接下來就要進行細胞註釋了，其實大家可以多找找自己領域的scRNA-seq的文章往往可能會找到作者整理好的，marker基因對應細胞亞群的表格，比如下面這個表格

然後找到上面這個表格後，我們就可以根據我們細胞亞群的marker基因進行選擇，然後把我們之前的細胞亞群的數字命名進行重新命名（這裡和大家說一下並不是說你的細胞marker是這個基因它的亞群就一定是這個，需要進行表達量、組織、大概身份猜測、多途徑、文獻等等才可以確定一個細胞亞群的身份，而且我們並不需要知道所有細胞亞群的身份，只需要知道我們後續感興趣，能用到的細胞亞群足以）

晨曦解讀

這樣就構成了我們scRNA-seq文章中常看到的Figure1，然後儲存一下我們的資料，以用來後續的分析

那麼晨曦的單細胞筆記（3）到這裡就結束啦，截止到這一步，我們對我們的細胞進行了分群且同時進行了註釋並且儲存了檔案以便後續的分析~

我是晨曦，我們下次再見~

回覆

晨曦03

，即可獲得今天的範例資料和程式碼哦~

—END—

撰文丨晨曦

排版丨四金兄

主編丨小雪球

歡迎大家關注解螺旋生信頻道-挑圈聯靠公號~

TAG：晨曦細胞亞群我們基因

太猛了！萬字長文單細胞分析全流程講解，看完就能發文章！建議收藏！（附程式碼）

相關推薦