授人以魚不如授人以漁
爬蟲教程千千萬,總覺得市面的教程很少教到精髓。
這一期做一個本地掃碼登陸獲取Session的爬蟲。
開始實戰
準備工作
我們的目標是能夠將QQ音樂的掃碼登陸在本地執行。
也就是儲存登陸二維碼到本地,彈出二維碼,若登陸成功後刪除二維碼,保留登陸資訊。
我們首先寫出顯示二維碼函式、刪除二維碼函式、儲存二維碼函式。
編寫程式碼
進入 https://y。qq。com/ 後開啟F12開發者工具,將登陸按鈕點開彈出登陸框。
我們首先先獲取我們的圖片資訊,點開Img選項裡面往下拉,找到二維碼的網頁連結。
點開Headers檢視獲取該圖片需要什麼連結:
首先是個GET請求(Request Method中檢視)
其次URL為(問號前的網址為根部URL,問號後為引數)
再看看該二維碼網站需要的引數:
appid: 716027609
e: 2
l: M
s: 3
d: 72
v: 4
t: 0。07644951044008197
daid: 383
pt_3rd_aid: 100497308
為了保證每次使用的正確性,我們進行多次重新整理檢視,
appid: 716027609
e: 2
l: M
s: 3
d: 72
v: 4
t: 0。7970151752745949
daid: 383
pt_3rd_aid: 100497308
我們發現變化的引數只有一個 t 引數,研究研究 t 引數能不能正常訪問。
開啟postman工具,新建一個requests查詢將url和params給進去發現正常獲得二維碼。
那我們暫且認為 t 引數並不是一個加密引數,姑且當 在0到1之間的隨機數 帶入。
t 引數轉變 Python 語法為
編寫程式碼
登陸抓包準備
為了防止包過多,我們將曾經抓到的包清除掉並點回ALL介面。
點選登陸跳轉,但此時我們需要檢視資料包的狀態,因為你登陸之後會出現302跳轉現象,如果不截止抓包的話跳轉後資料包將會清空。
我們首先要了解標紅的兩個按鈕作用
左上角按鈕能夠控制瀏覽器的抓包狀態,如果將它點為灰色的話,瀏覽器將停止抓包固定住抓包的數量和位置並不會清空。
其次按鈕為改變瀏覽器的執行速率,如果出現網速過快現象使得抓包來不及按,我們可以將前後端傳送速率改為緩慢3G網速,這樣就能輕鬆點到截止抓包了。(手速慢才會用這個,比如我)
我們攔截到這些登陸包,一個個尋找登陸所需要的主要包。
關於登陸包只有一個URL為
引數為:
u1: https://graph。qq。com/oauth2。0/login_jump
ptqrtoken: 1506487176
ptredirect: 0
h: 1
t: 1
g: 1
from_ui: 1
ptlang: 2052
action: 1-0-1607136616096
js_ver: 20102616
js_type: 1
login_sig:
pt_uistyle: 40
aid: 716027609
daid: 383
pt_3rd_aid: 100497308
繼續多次訪問,我們發現、、是可變的。
根據長度與16開頭的字串可變,盲猜變數第三位為時間戳的倍數。
隨意開啟一個時間戳(https://tool。lu/timestamp/)網址丟入該變數引數,發現擴大了一千倍。
變數用Python編寫為
棘手的可變加密引數
第一個引數
我們正常開啟該開發者視窗,準備查詢加密引數位置。
點選Initiator 錶盤,在這裡我們能夠找到每個引數來源,直接點入第一個loadScript之中。
我們發現我們獲得了一串未格式化Javascript程式碼。
隨意開啟一個線上格式化(https://www。html。cn/tool/js_beautify/)的網站,將全部程式碼格式化之後線上查詢一下加密引數在這裡是經歷了什麼加密。
我們獲得了這倆加密引數的來源,看來都是關於cookie的加密。
引數需要獲取cookie中的qrsig鍵的值資訊後經過hash33加密處理。
引數需要獲取cookie中的pt_login_sig鍵的值資訊即可。
既然找到加密的位置了,那我們就開始尋找cookie了。
出現這兩個引數的可能地方並不多,我們不需要每個返回結果都需要看。
一個是點選登陸按鈕出現彈窗那一刻有可能出現該引數。
一個是彈出二維碼或QQ登陸資訊時有可能出現該引數。
重新重新整理後找到彈出登陸框的返回資訊。
是個GET請求,URL為
引數為:
appid: 716027609
daid: 383
style: 33
login_text: 授權並登入
hide_title_bar: 1
hide_border: 1
target: self
s_url: https://graph。qq。com/oauth2。0/login_jump
pt_3rd_aid: 100497308
pt_feedback_link: https://support。qq。com/products/77942?customInfo=。appid100497308
為了保險,多次重新整理檢視是否含有另外的加密引數。
幸好幸好,都是正常死引數,好的直接訪問。
編寫程式碼
執行之後,我們發現了引數,直接字典拿到這個引數命名變數儲存起來。
第二個引數 1。獲取
既然第一個引數在登陸框內,那麼盲猜第二個引數應該就是在二維碼中儲存著了。
剛才已經拿到了二維碼的程式碼編寫。話不多說直接拿cookie
編寫程式碼
就一個真好,正好是我們想要的,使用字典get提取該鍵的值資訊,這個就這麼簡單的拿到了。
第二個引數hash33加密
我們拿到的這個加密引數並不是可以直接給入程式碼中的,我們還得獲得該hash33加密的東西才可以。
點選Search後搜尋hash33查詢。只有一個資訊點進去查詢該程式碼。
hash33加密演算法Javascript版:
編寫為Python程式:
在此,所有的加密均獲取,訪問登陸URL即可獲取session資訊。
全部程式碼
PS:如果覺得我的分享不錯,歡迎大家隨手點贊、在看。
END