基于上市企业数据的实证研究,经济师论文

　　4 基于上市企业数据的实证研究

　　4.1 评价方法的确定。

　　已有学术研究中，关于信用风险识别有较多方法，既有基于机器学习的神经网络、决策树、支持向量机 SVM 等非线性方法，又有如 Logit 回归等线性方法。李萌基于 Logit 模型研究了商业银行的信用风险评估[50].胡海青，张琅，张道宏基于 SVM 与 BP 神经网络方法研究了供应链金融视角下的中小企业信用风险评估[51].张奇，胡蓝艺，王珏用 Logit 与 SVM 模型研究了银行业的信用风险预警模型[52].刘远亮，高书丽基于北京地区信贷数据用主成分分析法和Logistic 回归方法建立了信用风险识别模型[53].邓爱民，王珂用主成分分析法与 Logistic 回归法相结合，利用深圳证券交易所 60 家企业的样本数据对供应链金融业务的信用风险进行实证分析[54].

　　两类模型各有优势和不足。线性方法在预测精确度方面低于非线性方法，但在稳健性方面有独特优势。稳健性是形容模型对训练样本以外的样本的适用性，稳健性高的模型在对训练样本以外的样本有很高的适用性，预测精度会保持稳定。但是，机器学习的方法只能给出预测而不能对结果进行解释，线性回归的方法可以对结果进行解释。在非线性方法中，根据已有文献的查阅，SVM使用较为广泛，适用性较强。因此，本文选择 SVM 和 Logit 两种模型同时建模，以便相互补充和对比。

　　4.2 样本和数据。

　　4.2.1 数据的来源。

　　考虑到指标选取的代表性、指标数据的可得性，本文依据线上供应链金融信用风险综合评价体系，将中小企业及核心企业财务状况、供应链状况、线上化指标的三级指标作为一个整体，汇总得到 23 个变量（见表 3-2,原始数据见附表 2）。本文的数据主要来源于 wind 资讯的公司财务数据专题，少量缺失数据从"国泰安数据服务中心_公司研究系列_上市公司财务指标分析数据库"进行补充。wind 资讯数据库的公司财务专题板块包括行业层面、单个上市公司层面的财务数据、财务报表附注的债权债务数据、主营构成等较为全备的数据，并且细分出了多个股票市场板块。定性指标的取值离散程度较小，需要进行综合评价，对数据精度的要求也相对较低，符合吕跃进和张维[55]

　　提出的"心理因素划分评价等级以及数量等级确定"理论的适用背景，本文根据网上公布的上市公司的年度报告等相关公开资料对样本企业进行四级评价，分别给予 10/7/4/0的分数。吕跃进和张维的这一理论被很多学者用来解决学术研究中定性变量难以获得的问题，本文也借鉴前人的分析方法，采用这一理论来解决定性数据的问题[41] [54].

　　4.2.2 样本的选取。

　　国内学术研究通常将上市企业陷入"财务困境"作为"违约"的标志，本文也采用这一方法。将"非 ST"上市公司界定为财务正常公司，将 ST（special treatment,特别处理）的上市公司界定为财务困境公司。本文研究样本来自沪深两市的 A 股市场，选取截止 2016 年所有 "特别处理"的陷入财务困境的 46 家企业，并选择相似的财务正常的"非 ST"企业组成本文的全部样本。相似样本的选取主要依据数据库中的不同行业分类方法（wind 行业划分、证监会行业划分），选取与 ST 企业行业划分相同的财务正常公司，并综合考虑数据的可得性，最后选取了 104 家财务正常公司，组成了本文实证研究的 150个样本总体。在 SVM 模型的实证研究过程中，随机从两类样本中分别选取70%的样本量作为训练组，用这些数据来构建模型，得到最优分类超平面的参数；剩余 30%的样本量作为测试组，用这些数据来检测训练样本构建出来模型的预测准确性。

　　4.3SVM 模型建模。

　　线上供应链金融信用风险评估的目的是通过对申请贷款企业所处行业状况、自身资信状况、核心企业资信状况、供应链关系状况、线上特有指标等方面进行全面综合评估，从而决定是否为其提供贷款。不同银行在实践中使用不同的信用等级评估标准，但最终转化为是否为企业提供贷款的二分类问题，支持向量机 SVM 模型作为一种机器学习的方法，在二分类问题有方面较好的适用性，SVM 适用于解决小样本、非线性以及多维变量的模型识别问题。在建模之前，要对数据进行预处理，主要包括缺失值的处理和数据的标准化。

　　4.3.1 数据预处理及标准化。

　　本文通过 wind 资讯与国泰安数据库的相互补充，出现的缺失值较少，仍然缺失的数据选择该指标同行业样本的均值来填补。

　　训练样本集中包含的关于分类的信息和数据是机器学习和分类器优化的唯一渠道，其中所包含的先验信息对分类器的学习效果和最终性能有很重要的影响。建模之前首先需要进行数据标准化，原因如下：（1）提高数据分类的准确性，减少取值较大数据淹没取值较小数据的可能性，否则会阻碍模型算法从数据中提取规律的效率；（2）防止出现计算困难，而陷入出现不收敛等问题，提高系统处理数据的效率。在核函数计算过程中，需要计算特征向量的内积，如高斯核函数，若不标准化，大的特征值可能引起数值计算困难。

　　本文采用极差变换法，使用 R 软件自带的 scale 函数进行输入变量数据的标准化，公式如下：

　　4.3.2 训练样本集和测试样本集。

　　用标准化后的新数据作为支持向量机的输入数据，支持向量机的输出为"1"和"0",代表融资企业的信用风险的不同级别，1 表示企业是"ST"企业，存在财务困境；0 表示企业是"非 ST"企业，财务正常。为检验模型的有效性，选取 105（样本的 70%）个样本作为训练集，用于构造 SVM 模型；选取45（样本的 30%）个样本作为测试集，用于评估模型的稳健性，即泛化能力。

　　样本集的详细信息。

　　4.3.3 模型构建。

　　支持向量机的算法是由俄罗斯学者 V.N.Vapnik 于 1995 年提出的一种人工智能算法，在机器学习和统计学领域引起了大量的关注。主要思想是构建一个超平面，使不同样本分类集群之间的隔离边缘达到最大。换言之，SVM 追求结构风险最小化，通过固定经验风险，使置性风险最小化，也就是使样本对总体的代表性最强，追求模型的泛化能力[34].因此，具有较好的稳健性和准确率，从而被广泛地应用于信用风险评级领域。

　　样本集的分类间隔等于2/||w||,因此使间隔最大等价于||w||2最小。满足条件（4.3.1）且使得||w||2最小的超平面称为最优分类超平面，使（4.3.1）中等号成立的训练集中的样本点称作支持向量。

　　通过拉格朗日方法将上述优化问题转化为不等式约束条件下二次函数的最值问题，得到存在唯一解，即最优分类函数为：　

　　构造一个可变的间隔，找到同时满足错分样本数最少和分类间隔距离最大的参数，求得最优分类超平面。其中，C 是常数，决定对分类错误样本的惩罚程度，这是机器学习算法的一种决策规则，通过不断地深度学习来找到样本分类的内在规律，从而应用到训练样本的预测过程中。

　　4.3.4 核函数的选取和参数选择。

　　理论上来说，任何事物都不会完全相同，只要有足够的分类维度就可以将其识别出来，但在实践中，我们对事物的了解有限，也不可能穷尽他所有的特征，并不能实现这种理想的状态。核函数是一种可以将低维空间中的非线性问题转化为高维空间中的线性问题的有效工具，可以借此求解高维空间中的最优、分类超平面。一般在建模中会采用符合 Mercer 条件的内积核函数K（xi,xj），实现通过非线性变换之后的高维空间中的线性分类，这种变换不需要给出具体的函数形式，仍可以进行计算，分类函数变为
　　
　

　　高斯径向基核函数为最常用的内积核函数，实证研究证明通过这种核函数得到的 SVM 模型性能较好。多项式核有更多的超平面参数，参数调整比较复杂；因此，本文选择最常用的径向基核函数：

　　本文以使错分样本数最小和分类间隔最大为原则，在高维空间中构造可变的间隔，最后采用交叉验证方法的确定参数，这些建模过程使用 R 软件来完成。R 软件执行程序如附录 1 所示。

　　本文选择 SVM 建模最常用的 e1071 包，使用 R 软件进行建模。在模型建立的过程中，模型参数的选择是一个重要的环节。本文选取 SVM 模型自带的函数 svm.tune 通过 10 折交叉验证（10-fold cross-validation）的方法来确定最优的参数：Gamma 值和惩罚值 C.惩罚项 C 反映了模型对分类错误样本的惩罚，C 取值越大表示对分类错误样本的宽容度越低，对训练集样本来说，训练的模型分类准确度更高，但是可能会降低模型的泛化能力，对测试集的性能不一定好。因此，需要通过全面考虑两个指标来确定最优的惩罚项 C.对于径向基核函数的参数 Gamma 也使用同样的准则来确定参数取值。

　　本文实证研究对传统的指标体系（只包含融资企业的财务数据）和线上供应链金融体系进行了对比研究。在基于传统的指标体系的建模中，最优的C=100,Gamma=0.0001;在基于线上供应链金融评价指标体系数据实证的过程中，最优的 C=100,Gamma=0.001.后续的测试集样本实证模型是基于这些最优参数取值构建的。

　　4.3.5 SVM 模型实证结果分析。

　　本文基于传统信用风险评估体系和线上供应链金融信用风险评估指标体系进行了实证对比研究。传统体系的指标包括：行业增长率 IND_G、营运能力指标（应收账款周转率 RT 及增长率 RT_G、存货周转率 IT 及增长率 IT_G、总资产周转率 AT 及增长率 AT_G）、偿债能力指标（速动比率 QR 及增长率QR_G、利息保障倍数 ICR 及增长率 ICR_G、净利润负债比率 LEV 及增长率LEV_G）、盈利能力指标（销售净利率 NPM 及增长率 NPM_G、总资产净利率ROA 及增长率 ROA_G、净资产收益率 ROE 及增长率 ROE_G）。供应链体系包含另外 3 个指标：应收账款账龄 Receiv_y、账龄 1 年以内应收账款占比 Rec_1y、目标企业应收账款总额中核心企业所占比例 coop、企业的供应链金融线上化程度 online.实证过程分别将两类指标作为自变量，将融资企业是否为"ST 企业"作为因变量（Y），1 表示该企业是 ST 企业，0 表示该企业不是 ST 企业。

　　实证过程中，使用 R 软件中的程序进行训练，构建分类的 SVM 模型，最后利用训练出来的模型对测试集样本进行分类。基于传统风险评价体系的样本分类结果。基于供应链评价体系的样本分类结果，如表 4-3 所示；两种体系的分类结果对比表。

　　统计每组判断错误的样本，分别计算训练样本集、测试样本集和样本总体的"第一类分类错误率"和"第二类分类错误率".

　　4.4Logit 模型建模。

　　Logit 模型假设事件发生的概率服从 Logistic 函数的累计概率，适用于因变量为分类变量的情况，可以预测事件发生的概率，一般将 0.5 设为临界值：若P>0.5,则事件发生的概率较大。模型通过最大似然法对模型的参数进行估计。

　　模型适合用于本文的"是否违约"问题的研究。P 为企业"财务困境（ST=1）"的概率，则 1-P 表示企业"财务正常（ST=0）"的概率。两种风险评价体系下，Logit 模型的表达式为：

　　Logit 模型是一种线性模型，常用于样本点的分类，经过较多实证研究的检验，分类正确率较高。模型中，营运能力指标和盈利能力指标的回归系数预期符号是负的，这类指标的取值越大，越可能是"财务正常（ST=0）"的企业。

　　偿债能力方面的指标回归系数预期符号不绝对，因为财务杠杆应适度，并非越大越好。线上供应链体系特有的 3 个指标：应收账款账龄 Receiv_y、账龄 1 年以内应收账款占比 Rec_1y、目标企业应收账款总额中核心企业所占比例 coop、企业的供应链金融线上化程度 online.Receiv_y的回归系数预期符号是正的，账龄越大，应收账款收回的可能性越小，"财务困境（ST=1）"的可能性越大。

　　online 的回归系数预期符号是负的，线上化程度越高，企业的竞争力越强，"财务正常（ST=0）"的可能性越大。本文运用 R 软件分别基于传统体系和线上供应链金融体系的指标建立 Logit 回归模型并进行对比分析。建模过程中采用"双向逐步回归法"进行模型的选择，变量选择的标准是 AIC 信息准则，AIC = 2k ?2ln （L）。一般来说增加变量会提高模型的拟合优度，但又要避免过度拟合（Overfitting）。因此，应该优先考虑 AIC 值最小的那个模型。AIC 准则的方法寻找可以最好地解释数据，但包含的变量最少的模型。基于两类体系实证研究的 Logit 回归模型的回归结果。　　

　　根据（4.4.3）（4.4.4）式两种体系的回归方程计算每个企业的违约概率，概率大于 0.5 判定为"ST"企业，与企业原始的"是否 ST"进行对比，得到基于Logit 模型的样本判定结果，并计算模型的"弃真""取伪"率。

　　4.5 实证结果对比分析。

　　我国商业银行传统的信用风险评估体系主要关注融资企业自身的财务状况，不考虑核心企业的信用状况、供应链合作情况及中小企业的电子商务信用。本文的线上供应链金融体系增加了上述三个方面的评价。为了分析比较两种评价指标体系（只考虑财务指标的传统的评价体系和基于供应链的综合评价指标体系）对中小企业信用风险的识别评价效果，本文分别基于这两种信用风险评估体系建立了 SVM 模型和 Logit 模型，计算了各类情况下样本的分类正确率。

　　根据统计学的理论，"第一类错误"即"弃真错误","第二类错误"即"取伪错误"通常被用来检验分类过程的判断效果。在线上供应链金融信用风险识别过程中，第一类错误是指银行将"特殊警示的 ST 企业"判断为"正常经营的非 ST 企业";第二类错误指将"正常经营的非 ST 企业"判断为"特殊警示的 ST 企业".两类错误相比而言，第一类错误将不能偿还贷款的财务问题企业误判为能偿还贷款的财务良好企业，这类错误若发生，将给银行带来损失，可能导致银行的此项贷款无法收回并形成坏账。若出现第二类错误，银行可能会损失掉利息收入。银行客户承受风险的能力相对较低，因此对银行来说，第一类错误比第二类错误造成的后果更加严重。由表 4-8 对比，可以看出，SVM 模型的第一类错误率相比 logit 模型更低，因此，从审慎监管的角度来说，SVM模型更适合银行对中小企业信用风险的评估。

　　我们发现：在运用相同模型的情况下，基于线上供应链金融的评价体系的中小企业信用风险评估准确率远高于基于传统信用风险评估体系。因此，线上供应链金融的信用风险评估指标体系更有利于正确预测中小企业的信用风险水平。

返回本篇论文导航