数据挖掘技术在虚假财务报表识别中的应用研究

来源: 黄辉编辑： 2009/12/23 16:43:22　　字体：大小

　　识别虚假财务报表十分困难。从审计师的角度，大量的做假案例表明：财务报表做假大都是公司最高管理当局授意下的做假。在我国“国有股一股独大”的特殊背景下，财务报表做假还是大股东控制和配合下的做假。做假公司上下串通一气欺骗审计师，公司的内控制度如同摆设。同时，我国做假公司往往采用虚构交易和事实的手段，通过伪造原始凭证恶意欺诈，审计师若单纯采用从报表向总账、明细账、记账凭证及原始凭证追索的审查方法，则难以发现做假行为。从监管层和中小投资者的角度，审计师、承销商、律师、银行，甚至地方政府也经常参与上市公司做假，或出谋划策，或提供便利。做假者的做假动机不尽相同，手段层出不穷，使得虚假财务报表呈现出个案化的特征。在资源和信息有限的条件下，监管层和中小投资者也难以辨别真伪。

　　但这并不意味着面对虚假财务报表就束手无策。首先，尽管建立在内控信任和抽样为基础上的审计程序失效，但在审计风险评价阶段的分析性复核的审计程序在发现和检查财务报表做假方面仍然是个有效的方法。一个健康、真实的企业，一般来说，经过一年的生产经营、投资和融资活动，从期初的状态转换为期末状态，企业重要的财务指标之间应该保持一定的勾稽关系、均衡和惯性。一旦企业做假，这种均衡状态将被打破，可能就会在一组或几组财务指标之间出现异常或矛盾。如果这种异常和矛盾无法解释，则预示着会计做假的可能。分析性复核就是用来调查财务指标之间是否异常变动的审计程序。其次，尽管做假公司采用不同的做假手段，有着不同的做假动机，但对上市公司而言，做假行为对财务报表的影响方向基本一致，都是虚增资产，隐藏负债，虚构利润。因此，虚假财务报表可能会表现出一些与真实报表不同的特征。另外，从犯罪心理学可知，做假公司的做假行为往往是由同一群人在操纵和实施，其在一定时期内所能动用的资源和经验是有限的，这就必然在做假手段上表现出一定的惯性、反复性和模仿性。有经验的专业人士就可能通过财务报表发现冰山的一角。

　　用数据挖掘技术识别虚假财务报表的研究在国外已得到一定的应用。这些研究尽管所选择的识别变量不同，数据挖掘的技术不同，所使用的软件也不同，但大都能得出类似的结论，即数据挖掘技术是一种有效的识别工具。

　　一、数据挖掘技术弥补财务报表审计局限

　　数据挖掘在识别虚假财务报表方面具有很独特的优点。相对于专业人士的经验判断，用数据挖掘技术识别虚假财务报表面对海量的上市公司财务数据，在缩短反应时间、合理配置资源、减少主观和随意判断及提高判断准确率上都有其独有的优势。这对于监管层加强打击力度，提高监管效率；投资者减少投资损失；审计师控制审计风险，减少法律诉讼都具有重要的实用价值。监管层在资源有限的条件下只有建立仔细分析、明智决策、衡量成本和产出的新型情报侦察系统，而数据挖掘技术建立的虚假财务报表识别模型在这方面用处很大，它可以自动从上市公司年报、中报、季报等财务数据中提取识别指标变量，计算每家公司财务报表做假的概率。监管人员设定一个对虚假财务报表的容忍率，就可得到做假概率大于容忍率的所有上市公司的列表。这些公司可初步判断为高风险公司，是监管层需要密切关注的对象。通过专家分析等侦查手段在掌握了初步证据后可对这些公司实地调查。同样，监管层根据公司做假概率和容忍率将上市公司进行分类，不同的类别采用不同的侦查手段和分配不同的资源和时间，这样监管层在对上市公司违法违规的调查中就掌握了主动权。如果监管层、投资者和审计师借助数据挖掘技术等手段及时有效识别虚假财务报表，必将改变造假者的预期，使其造假时心有余悸，从而减少做假行为的发生。数据挖掘技术有助于增强对做假行为的识别能力，使潜在的做假者时刻存在危机感，从而防范做假行为的发生。

　　二、数据挖掘技术建立识别虚假财务报表的模型

　　(一)样本选择

　　虚假财务报表呈现多种途径，如资产评估、非经常损益和主业增长等，由于前两种在短期内都会明显改变企业的财务结构，因此很难从财务指标异动中区分欺诈公司和正常公司。而对于主业增长型企业，自然增长企业的财务结构理应体现一定的规律性，其指标异动往往蕴涵了一定的财务风险。由于不同类型会计欺诈的识别指标迥异，将其归为一类会弱化指标的识别作用，因此本文对会计信息欺诈的识别模型定为主业增长型利润操纵。基于此，笔者选择了41家财务欺诈公司中单纯涉及营业利润操纵的25家作为欺诈公司的样本，参照公司则在深沪两市历史上无虚假陈述现象，历年被会计师出具标准无保留审计意见的上市公司中选取了与上述欺诈公司行业、资产规模、会计期间均匹配的25家公司。在选择样本时，为尽量统一标准，同时减少缺省值，做假的财务报表都是年度报表或基本报表，中报做假的公司不予考虑。为消除时间对指标值的系统性影响，尽量使真实财务报表样本公司的财务报表所属年度与做假公司虚假财务报表的年度分布保持一致。

　　(二)数据处理(行业标准值的选择)

　　分析性复核是调查各项比率或趋势的异常变动。显然，要确认是否异常关键是找到正常或标准值。行业标准值选择不当，可能会对分析产生误导。行业标准值的选择可以针对每一家样本公司在所有上市公司中去寻找与其处于同一行业和规模的公司，计算这些公司的各项指标，取其均值或中位数作为行业标准值。这种方法存在的问题是：做假样本做假年度大多集中在1996、1997、1998三年，而在2001年证监会的《上市公司行业分类指引》发布前，国内上市公司的行业分类极为混乱，在已有系统下，难以找到满意的计算行业标准的公司。2002年财政部统计司出版的《2002年企业绩效评价标准值》在国民经济十大门类的基础上共划分了160个行业，揽括了做假公司所在的行业，本文将其作为行业标准值的来源。考虑到上市公司大多是业绩较好的国有大中型企业，所以取值时以大型企业的良好值为基础(对文化艺术业、广播电影电视业等由于未划分规模，则取全行业的良好值)。同时，考虑到指标计算时本身会剔除前期的影响，因此忽略不同时间年度对标准值的影响。

　　(三)指标体系设置

　　本文的目的是识别虚假财务报表，而不是作为财务预警或分析做假公司做假的原因，所以识别变量的选择大都是针对采用做假手段后对财务报表的异常影响和经过掩饰后的虚假报表，而不是针对做假前做假公司的财务状况的异常和经过还原后的真实报表。在分析前，事先并不知道哪个指标在做假中出现最频繁，表现最突出，因此将利润类、资产负债类、现金流量类的主要指标列示如下：(1)利润类指标有：收入，包括主营业务收入、其他业务收入、投资收益、营业外收入；费用，包括主营业务成本、其他业务支出、营业费用、主营业务税金、管理费用、财务费用、营业外支出、所得税；净利润。(2)资产负债类指标有：资产类，分为流动资产、长期投资、固定资产、无形资产等，包括现金、银行存款、应收账款、存货、短期投资等；负债类指标，分为流动负债和长期负债，包括短期借款、应付账款、预收账款、应付工资、应交税金、预提费用等；所有者权益类指标，是所有者对企业的投资，包括国家投资、法人投资、个人投资、外商投资等。(3)现金流量类指标有：经营活动现金流量，分为现金流入、现金流出、经营活动的净现金流量；投资活动现金流量，分为现金流入、现金流出、经营活动的净现金流量；筹资活动现金流量，分为现金流入、现金流出、经营活动的净现金流量；本期现金净增加(净减少)；期初现金余额；期末现金余额等。(4)由于本文总的样本数只有25个(其中17个用于训练，8个用于模型评价)，所以可能的识别变量就只有20个。因此，本文结果中的指标变量只有10个左右。

　　(四)识别模型建立

　　本文的目的是从众多的财务报表中识别虚假财务报表，也即数据分类。第一步是学习，用分类的算法分析训练数据，学习模型或分类法以分类规则形式提供，由于本文提供了每个训练样本的类标号(虚假或真实)，因此本文模型的学习是有指导的学习；第二步是分类，用测试数据评估分类规则的准确率，如果准确率可以接受，则规则可用于新的数据的分类。本文采用SAS软件EM模块提供的分类方法来建立识别模型。EM中的数据分类模型主要有logistic回归法、近邻法、决策树、神经元网络、二阶段、主成分神经模型等。SAS分类功能的完成还需要通过数据集的确定(包括数据集中样本选择和指标变量的确定)、抽样等准备，另外还需要对模型的反复探索、修改、再建模等过程，通过一定方法评估出一个相对成功的记分代码，最后保留该记分代码，应用到新的数据中去。EM中可将分类处理过程用图形化模块组成一个处理流程图，并依此来组织整个审计的分类过程。分类识别方法主要有人工神经网络、决策树、遗传算法、近邻算法以及规则推导等，本文主要以数据挖掘的分类识别其中又以神经网络算法为主。一是数据的输入。将是否为虚假报表(0-1变量，1表示样本是虚假报表)作为分类的目标变量。二是数据的分割。以是否为虚假报表为分层变量，将数据集中60％作为训练集(Train)，用于学习最优的连接的权；20％作为确认集(Validation)，用于不同神经网络结构的选择和模型评价；20％作为测试集(Test)，用于获得对总体错误的最终无偏估计。三是变量的选择。由于总样本数只有25个(其中17个用于训练，8个用于模型评价)，根据历史资料和以往研究者的成果，再参考点击(右键)Neural network的result的分析结果，本文最终确定的识别变量为(相对于行业标准值的变化率)应收账款周转率、存货周转率、主营业务利润率、主营业务收入增长率和资产负债率。

　　三、主要结论

　　(一)模型结果

　　为加快学习过程，笔者对训练样本中输入层的每个输入单元的值进行规范化，使其落入0和1之间。规范化采用标准离差的方法。模型的优劣利用Profit/loss矩阵来判断，具体方法是在Input Data Source中编辑目标轮廓(Edit target profile)中的利润矩阵(Profitmatrix)。最后通过EM模块的分类分析(分析全部数据，包括预测和训练数据)，各分类工具的第一类错误频数α和第二类错误频数p的值分别如表1所示。表1证实了上述结果的正确性，同时也发现并证实了Neural network是相对最优的分类工具。

　　本文主要采用神经网络的分类方法。在神经元模块的隐藏层中，设置连接函数为线性函数；激活函数为Hyperbolic Tangent函数；允许偏差。在输出层，设置连接函数为线性函数；激活函数为Hyperbolic Tangent函数；错误函数为Bernoulli函数(针对0-1变量)。神经网络建立的识别模型对真实财务报表识别的正确率为83.33％，对虚假财务报表识别的正确率为71.43％。从另一角度看，当用该模型识别财务报表时，如果模型判断为真实财务报表，则正确率为88.24％；如果模型判断为虚假财务报表，则正确率为62.5％。比较发现，神经网络模型预测的正确率比LOGIT和NAIVE模型(指不采用任何手段协助，全凭主观猜测，如认为所有财务报表均为真实财务报表)高。这证明数据挖掘技术和分析性复核在识别虚假财务报表中具有相当大的潜力。同时，由于识别变量是财务指标，其相关性较强，当使用Stepwise Logit模型时，最后只剩下一个识别变量，因此单变量的分类模型不是好的分类方法。这表明用基于线性的模型来识别虚假财务报表是不恰当的。

　　(二)指标变量结果

　　用统计软件SAS建模及检验后可知以下几个指标对验证财务报表的虚假性相对重要：(1)应收账款、存货周转率(次)。做假公司的应收账款周转率(次)和存货周转率(剔除行业影响或前期影响后)显著低于非做假公司。(2)主营业务利润率或毛利率。做假公司主营业务利润率(剔除行业影响或前期影响后)显著低于非做假公司。(3)收入、净利润、资本公积增长率。从T检验看，做假公司的主营业务收入增长率和净利润、资本公积增长率(剔除行业影响后)显著高于非做假公司。(4)自由现金流、盈利质量(经营活动产生的现金净流量，净利润)。从T检验看，做假公司盈利质量(剔除前期影响后)显著高于非做假公司，自由现金流(经营活动产生的现金净流量一对内投资的现金净流出)出现巨额赤字。(5)生产、销售闲置情况。显然，做假本身不需要消耗公司任何生产资源。因此，对于做假公司特别是那些本身生产处于停滞状态，又急于做假虚构利润的公司而言，一方面公司账面收入、利润、库存急剧增加，反映出生产任务饱满，销售通畅；另一方面公司的折旧/存货、销售费用/收入的指标却极低，反映出生产、销售闲置这样自相矛盾的窘态。(6)资产状况。做假公司的不良资产比例极高，而资产报酬率也极高。(7)税率。做假公司的所得税率(剔除前期影响后)显著低于非做假公司。(8)资本结构。做假公司为了掩盖虚构利润又无现金流入的不正常现象，可能会通过大量银行借款来增加货币资金。从T检验看，做假公司的资产负债率(剔除行业影响后)显著高于非做假公司。

　　总体而言，做假公司所反映出的财务特征是主营业务收入(相对于行业)急剧增长，盈利质量(相对于前期)：有所改善，但主营业务利润率(相对于行业或前期)低下，缺乏持续的利润来源，应收账款、存货周转不灵(相对于行业)，所得税率(相对于前期)低，资产负债率(相对于行业)高，一定程度上依赖于银行贷款维持经营活动。因此，上述识别变量应视为一个整体。某些做假公司单独分析一个或几个识别变量无法发现异常，但当将其作为一个整体时却可能会发现做假的迹象。

责任编辑：小奇

上一篇：基于实物流与资金流的存货周转率分析

下一篇：企业财务分析的误区及其破解之道

财务BP是什么？薪资竟这么高！ 2024中级教材变化巨大:实务狂减60页

实务学习指南

距6月报税结束还有天

能力测评开票报税免费问答会计培训财经法规实务课程

财税实务

数据挖掘技术在虚假财务报表识别中的应用研究

折

热门班次

财务BP是什么？薪资竟这么高！ 2024中级教材变化巨大:实务狂减60页

实务学习指南

热搜关键词

精品好课

专属答疑

还在被这些问题困扰吗？快来寻求专业老师的帮助吧！

免费专区

免费试听

免费资料下载

免费直播

关注更多

扫码下载APP

↘扫码添加课程顾问↙

会计圈那点事儿