基於機器學習模型的製造業企業信用評級研究

摘   要

本文基於可得資料,採用特徵工程方法提取影響信用資質的核心因素,並將其作為自變數構建制造業企業信用違約預測的Logistic迴歸模型和信用評分卡。實證結果顯示,企業性質、銷售費用/營業收入、流動資產週轉率、帶息債務/全部投入資本等六個指標對違約機率影響顯著。透過建立機器學習模型評級和外部評級之間的對映表,有望實現風險企業排雷、信用價值挖掘、信用風險定價等功能。

關鍵詞

機器學習  特徵工程  製造業企業  信用評級

得益於大資料和非結構化資料處理技術的發展,基於大資料的機器學習模型應用日益廣泛。機器學習演算法是根據特徵對事物進行分類,本質上是降熵過程。企業信用評級是利用不同的信用評分或評級對樣本進行分類,進而實現將企業違約機率從等機率分佈轉換為非等機率分佈。非等機率的熵低於等機率的熵,信用評級降熵可用於評價企業信用資質。從功能和目標的角度看,將機器學習模型應用於企業信用評級具有一定優勢,但需要以大資料為基礎,以保證學習效果和引數估計準確,避免過擬合。考慮到難以具備海量企業樣本資料,在建模時,使用有較少引數估計需求的Logistic迴歸演算法更為合適。為減少變數共線性對模型估計的影響,筆者採用特徵工程方法提取信用資質驅動核心因子入模。從行業看,製造業企業違約樣本數居行業之首,負樣本數量相對充足。將特徵工程和機器學習方法應用於製造業企業信用評級在技術和資料方面具有較好的可行性。

指標選取、資料來源及特徵工程

在樣本選擇方面,筆者選擇證監會行業分類標準下的製造業,訓練正樣本為截至2021年一季度末有存量債券、未發生違約事件且評級在A級以上的企業主體,共682家;負樣本為2014—2019年發生違約事件或者評級在BBB級及以下的企業主體,共56家。正負樣本之比約為12:1。將外部評級為BBB級及以下的企業視為負樣本基於兩方面考量:一是BBB級以下屬投機級,違約風險較高,考慮到外部評級實行發行人付費模式,為審慎起見,將正負切分線上調至BBB級;二是多數金融機構限制准入外部評級在A級及以下的債券,認為BBB級及以下債券的違約風險較高。

在觀察期和表現期選擇方面,考慮到債券市場的價格敏感度高於評級公司跟蹤評級以及真實違約訊息,筆者將債券估值偏離度大於10%、評級低於A級、首次違約等三個事件發生之前作為樣本企業觀察期,將觀察期資料作為Logistic迴歸自變數資料。觀察期之後為表現期,將表現期違約與否作為因變數資料。

為客觀地基於機器學習模型預測製造業企業違約情況,需構建信用資質影響因子矩陣。考慮到信用債發行主體樣本總量相對有限,且待估引數過多可能影響估計結果,筆者將企業性質和30項財務指標作為原始指標,具體包括:一是盈利能力指標6項[銷售淨利率、銷售費用/營業總收入、營業利潤/營業總收入、稅息折舊及攤銷前利潤(EBITDA)/營業總收入、經營活動淨現金流/利潤總額、淨資產回報率的增長率];二是現金流量指標4項(經營活動產生的現金流量淨額/營業總收入、經營活動產生的現金流量淨額佔比、投資活動產生的現金流量淨額佔比、投資活動現金淨流量/營業總收入);三是營運能力指標4項(存貨週轉天數、應收賬款週轉率、流動資產週轉率、總資產週轉率);四是償債能力指標5項(長期負債佔比、EBITDA/利息費用、經營活動淨現金流/帶息債務、經營活動淨現金流/總負債、貨幣資金/短期債務);五是成長能力指標7項(營業總收入同比增長率、利潤總額同比增長率、淨利潤同比增長率、營業利潤同比增長率、淨資產同比增長率、營業總收入3年複合增長率、淨利潤2年複合增長率);六是資本結構指標4項(資產負債率、長期資本負債率、帶息債務/全部投資資本、流動負債/負債總計)。

利用特徵工程方法從原始指標篩選入模變數。在進行特徵工程之前利用相關性分析和VIF檢驗剔除了方差膨脹因子VIF大於10的指標。特徵工程首先對原始指標進行分箱,透過卡方分箱方法計算不同指標的證據權重WOE和資訊量IV值,如表1所示,最終選取IV值大於0。2的變數入模,確保入模變數具有較好的違約預測能力。

基於機器學習模型的製造業企業信用評級研究

機器學習模型:Logistic迴歸及結果

Logistic迴歸模型將多元線性迴歸透過Sigmoid函式轉為違約機率預測的計算函式,因變數是樣本違約與否的結果,自變數為特徵工程篩選出的22個特徵變數。透過迴歸結果的p值測量回歸係數的顯著性大小,結合逐步迴歸確定最終入模指標。筆者選擇顯著性較高(p值小於5%)的特徵變數。對樣本按照7:3的比例隨機分為訓練集和測試集,訓練集迴歸結果如表2所示。

基於機器學習模型的製造業企業信用評級研究

從迴歸結果來看,製造業企業信用影響因子涵蓋企業性質、盈利能力、營運能力、資本結構、償債能力和成長能力中的6個指標。如圖1所示,結合特徵工程分箱及不同箱體的WOE值分析內在機理。預期內的結論是:影響信用資質的核心指標包括企業性質、流動資產週轉率、經營活動淨現金流佔負債的比例、有息負債佔投入資本的比重、淨利潤複合增長率。超預期的結論是:銷售費用佔營業收入的比重越低越容易違約。這說明對於製造業企業來說,銷售收入可提高盈利和償債能力。

如表3所示,訓練集和測試集的KS值分別為0。67和0。65,顯著大於0。3,說明模型具有良好的等級區分能力;由表4可見,訓練集和測試集的AUC值分別為0。90和0。88,顯著高於0。75的界限值,說明模型具有較高的精準性;表4所示測試集的混淆矩陣顯示模型應用於測試集的效果較好,違約預測精準度高達73。33%。

基於機器學習模型的製造業企業信用評級研究

基於機器學習模型的製造業企業信用評級研究

基於機器學習模型的製造業企業信用評級研究

製造業企業信用評級模型及評分卡

基於Logistic迴歸模型及引數估計結果,計算製造業企業的違約機率p,再基於p構建信用評級評分卡,評分Score=500-20✕log(p/1-p),即以500分為基準分,以20分為單一等級分數區間,違約機率越高,則評分越低。基於上述邏輯構建制造業企業的信用評分卡,如表5所示。基於評分卡對存量738家制造業企業進行信用評級打分,以30分劃分一級,將企業分成12個等級,結果如表6所示。10級以上企業佔比為13。69%,與外部評級相比,模型更具區分度。外部評級為AA級及以上的企業佔比為70%,AAA級佔比高達22%,集中度較高,區分度較低。

基於機器學習模型的製造業企業信用評級研究

基於機器學習模型的製造業企業信用評級研究

在信用違約預測方面,機器學習模型表現較好,違約預測命中率達75%。如表7所示,2020年下半年至2021年一季度實際違約企業4家,其中3家基於2019年資料的評級結果低於6級,基於2018年資料的評級結果均低於7級,僅B公司的評級結果為9級。

基於機器學習模型的製造業企業信用評級研究

研究結果的潛在應用

將製造業企業外部評級和基於機器學習方法的信用評級建立二維對映表,如表8所示,單元格內容代表外部評級為該列對應外部等級和機器學習模型評級為所在行對應模型等級的企業家數。對映表可用於三個方面。一是風險企業排雷,當企業外部評級低於AA-級且模型評級低於5級時,可認為信用風險較高,應避免投資。二是信用價值挖掘,當企業外部評級在AA-級及以下,但模型評級為9級及以上時,可進一步研究,挖掘被市場誤判帶來的信用溢價。三是警惕市場高估,當企業外部評級在AA-級以上,但模型評級為5~9級時,可考慮結合進階信用研究並利用債券借貸等做空機制參與做空。

學習模型結果還可用於信用風險定價和內部評級檢驗。利用模型評級結果計算不同等級的違約機率,並將違約機率應用於不同信用等級製造業企業的信用風險定價。模型評級還可為機構內部評級提供交叉驗證和補充,助力內部評級方法的改進和完善。

基於機器學習模型的製造業企業信用評級研究

◇ 本文原載《債券》2021年9月刊

◇ 作者:王燦華

◇ 作者單位:東莞銀行資產負債管理部

TAG: 評級違約模型信用企業