第 2 章 数据挖掘与联网审计相关理论概述
2.1 数据挖掘的概述。
随着大数据时代的到来,云存储技术的应用,这就导致人们对海量的数据有着亟待分析的渴望。另外不同学科理论的之间交叉研究和学科之间的界限的模糊,利用不同类型的数据库和数据仓库技术存储数据管理数据,利用数理统计方法和机器学习中的不同技术分析探索数据,这种多学科之间互相学习,互相借鉴实践的思想,逐渐促使来自各学科或各领域的人们从不同角度研究并运用同一种技术-数据挖掘。
首届"知识发现和数据挖掘"国际学术会议在 1995 年的加拿大蒙特利尔召开。
数据挖掘这个词语从此就迅速的传播出去了。人们则把数据库中存储的数据当做亟待开发的矿石一样,数据挖掘技术则被形象的比喻成是从数据矿中开挖知识的过程。
接着便是,国内外众多学者和机构都将自己的研究领域放在了数据挖掘理论和应用研究这方面上,继而大量的商业应用成功案例、学术论文以及著作就出现了。而且这些大量成果涉及的领域各有不同而且侧重点也极为广泛。有的在计算机数据仓库和数据库视角下研究数据挖掘过程中的数据管理理论和技术,有的从人工智能和机器学习角度重点讨论各种算法改进策略,有的则是从应用角度探讨如何实施数据挖掘以及解决诸如客户关系管理、购物篮分析、信用卡评分、产品制造、Web 点击流分析等众多现实问题,形成了前所未有的蓬勃局面。
2.1.1 数据挖掘的定义。
数据挖掘的多学科融合特征使得在数据挖掘诞生的时候,不同研究者对数据挖掘的理解和定义就有所差别。例如,美国的麦克·贝里和戈登·利诺夫在其 1997年所著的《数据挖掘技术:市场营销、销售与客户关系管理领域应用》[19]
和 2000年的所著《数据挖掘--客户关系管理的科学与艺术》[20]著作中指出,"数据挖掘是一种通过自动半自化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律".美国的 Mehmed Kantardzic 2002 年著的书《数据挖掘:概念、模型、方法和算法》对数据挖掘下的定义为"数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。"[21]
薛薇,陈欢歌 2010 年的著作《Clementine 数据挖掘方法及应用》中所采纳的定义:"数据挖掘是一个利用各种方法,从大量数据中提取隐含和潜在的,对于决策有用的信息和知识的过程。"[22]
David Hand 于 2003 年所著的《数据挖掘原理》中对于数据挖掘采用的定义是:"数据挖掘就是对观测年到的数据集(通常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。"[23]
袁梅宇在 2014 年所著的《数据挖掘与机器学习-WEKA 应用技术与实践》中对于数据挖掘的定义是:"数据挖掘就是在数据中寻找模式的过程。"[24]
随着数据挖掘研究的深入和应用领域的不断扩展,学者对于数据挖掘的所下的定义已经达成趋于一致观点,这里我们采用邵峰晶和于忠清书《数据挖掘原理与算法》的定义:"数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。"[25]
2.1.2 数据挖掘的步骤。
很多数据挖掘问题的解决步骤都包括以下几个方面:
(1)定义问题和指定前提假设很多依靠于建立数据模型来进行的研究都是在其相应的适用专业范围里进行的。于是,如果想提出一个好的问题,没有相关专业领域的经验与知识是不行的然而,很多运用数据挖掘技术来进行的研究的人,往往太专注于数据挖掘技术上了,却无法给自己研究的问题下一个清楚定义,并给模型指定一些前提假设(2)数据提取:如果进行审计活动,则要根据被审计的对象的存储情况,从存储数据的数据库、数据仓库或数据集市中提取相关的数据。因为不同单位的所应用的数据库软件不同,所以能提取数据也并不是一件比较容易的事。当然对于内部审计人员来说,经过本单位管理层的同意,对本单位的数据存取便比较容易了。
(3)数据预处理:数据提取出之后便要对其进行初步的加工,例如:对于提取的数据,检查他们是否与以前的数据值有连贯性,数据的采集是否完整。对提取的数据中异常数据和噪声数据要进行处理,对与噪声数据可以进行删除,对于丢失的数据可以根据某种规则进行填补。但在审计活动中,数据存在异常点(异常数据)却可能是是审计线索的一种提示,因为这些异常点可能是随机产生,也可能是人为的。异常值通常暗示此处被审计数据是否可能是审计主体对审计对象的伪造或篡改。如果在审查数据时发现了一些离群数据,则可以根据企业或单位的历史数据或同行业其他单位的一些指标进行对比分析。
(4)知识提取:运用选定的数据挖掘算法,从数据中提取用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。这一步也就涉及到数据挖掘各种算法的运用,如果不能选定合适的数据挖掘算法来处理数据,则可以用多种算法来对数据进行挖掘,根据相关的指标(例如 ROC 曲线)对所用的算法进行比较。随后的本文的数据实证部分可以看到,我们采用了五种模型来进行数据挖掘,并不是简简单单选用其中某一种。评估模型要求必须选择其中与数据处理最契合的一种或几种。
(5)评估模型:把挖掘到结果或某种隐含信息用某种方式表示出来,再根据这种挖掘出来的结果应用于实践活动中,看是否与实践结果相匹匹配,如果不能匹配就需要进一步的优化模型,或重新设置相关参数值,或采纳更好的挖掘算法,直到满足用户要求。如果评估模型的结果不能满足用户的要求,则可以从之前的步骤循环做下去。
在归纳出知识后,数据挖掘技术强调该知识是能够被解释的,尽管这种解释可能无法立即得到,但如果我们总是无法解释它,那我们同样应怀疑它的真实性,因此数据挖掘可以被看作"确定目标-归纳-解释"的数据分析过程。
2.1.3 当前的数据挖掘技术的在各个领域应用的简单介绍。
数据挖掘技术已被应用到以下几个领域:
(1)电子商务领域。
现在淘宝网的客户只要登录其账户后,页面首页便出现其以前输入在搜索栏里搜索过某类商品,或客户曾经购买过的商品。阿里巴巴的数据挖掘分析系统会在众多商品中通过数据挖掘技术锁定客户的偏好程度,向客户推荐客户可能偏好的产品,极大的增加了交易机会。
同样在亚马逊有过购物经验的人们也会有类似的体验。在亚马逊网页上浏览过网页上的商品,你会好奇的发现,自己搜索的商品附近有自己曾经感兴趣,或浏览过的商品。这是亚马逊网站对大量网站用户的浏览记录数据挖掘之后,对其挖掘结果的出现的商品向客户进行推荐,据说这种基于数据挖掘的推荐系统帮助亚马逊提高了 30%以上的销售额。
(2)零售业领域。
百货商场、大型超市如沃尔玛等都在对其每日客户购买商品的历史数据进行数据挖掘,以便猜测近期顾客的消费习惯,预测以后商品的大概销售情况或不同种商品之间的关联度。数据挖掘技术并不是通过历史数据的分析预测客户的行为,只是分析历史数据隐含的某种信息模式。实际上客户连自己可能都不明确下一步要做什么。所以,数据挖掘技术并没有人们现象中神秘,它也不可能是完全正确的。
(3)欺诈甄别领域。
电信业、保险业和银行信用卡部门经常面临客户的欺诈行为,如信用卡恶性透支,谎报保险事故等,这给保险业和银行业的造成了不少经济损失。如果能区别正常客户和非正常客户的话,提前对潜在的诈骗行为和其客户群体进行预测,即使能够获得很少的预测,都可以让电信业、保险业和银行减少损失。通常应用于欺诈甄别的主要是数据挖掘中的聚类算法,通过对正常行为和诈骗行为、风险系数小客户和风险较大的客户进行聚类,得到具有潜在诈骗行为客户的某些特点。
并把这些特征和特点运用到以后的业务活动中,如果出现了类似的特征的,就可以对其重点关注,提前做好防御准备。
(4)医学领域。
通过对医学大数据的挖掘、分析,并应用智能决策技术,对常见疾病如心绞痛、心肌梗死、脑血管疾病、糖尿病、高血压病、肿瘤、哮喘病、结缔组织病等疾病发生几率的预测和疾病风险的预测,预测遗传性疾病和多发性多因素疾病,有重大的临床意义和广泛的社会效益。通过对大量医学数据的挖掘分析,以及应用智能决策技术,还可以揭示发生医疗缺陷的原因、趋向、相关因素,以便制定科学的管理,减少、甚至杜绝医疗缺陷和纠纷。例如,加拿大安大略省癌症防治中心通过研发、实施安大略省预防医学与癌症防治体系,对全省的肿瘤大数据进行数据挖掘,开展病人安全与事故的预防,即利用数据挖掘方法揭示临床事故的趋势,研究和辨别引起各种事故的关键因素,指导预防措施。
(5)反洗钱领域。
金融方面的洗钱活动是最令监管这头痛的一件事,而金融交易活动是洗钱犯罪行为的一个重要环节。金融监管者只需要通过分析金融机构的客户信息和交易数据,运用合适的数据挖掘方法,结合这些客户背景,就可以识别出可疑金融交易记录,最后根据贝叶斯判定原理,综合各个层次的可疑信息,得到交易记录的整体可疑度,最终为数据挖掘技术就可以为反洗钱监测提供快速准确的参考。
2.1.4 数据挖掘技术的分类。
数据挖掘能做一下几种不同的事情:分类、估值、预测、关联规则、聚类。
这几种数据挖掘的分析方法从机器学习方面来进行区别,可以分为两类:直接数据挖掘(Directed Data Mining)和间接数据挖掘(Undirected Data Mining)。
直接数据挖掘是一种需要设定目标变量的数据挖掘,通过研究其他变量的属性与目标变量属性之间的关系,挖掘出目标变量满足一定条件的结果。而间接数据挖掘是一种不使用目标变量(至少不明确使用)的数据挖掘,而是在所有的属性中寻找某种关系。虽然间接数据挖掘没有使用任何目标变量,但仍然需要解决业务目标。如异常值检验则属于间接数据挖掘。
分类、估值、预测属于直接数据挖掘,关联分析和聚类属于间接数据挖掘。
各种分析方法简介如下:
(1)分类。
分类的目的是找出某种模式或函数,函数能把要被挖掘的数据分别归类到不同的集合中。如银行的信用卡申请者的信用可以分为可靠、普通、危险三类,在这个过程中,类的个数是事先确定的。构造一个分类函数的方法有很多,如:统计方法中的贝叶斯法和非参数法,机器学习方法中的决策树法和规则归纳法,还有神经网络方法和粗糙集等。
(2)估值。
估值与分类类似,所不同的是估值最终输出结果是连续型的数值,而分类最终输出的是表示类别的离散型数值。另外对于分类来说,挖掘数据之前我们首先要事先决定最后分好的类数,而对于估值来说,我们并不能事先确定的估计的值到底是多少。例如,根据一个顾客的购买模式估计他的月收入。
(3)预测。
预测是通常是建立在估值或分类的基础上进行的,无论是估值还是分类,我们队所挖掘的结果都能产生一个模型,如果对于检验样本组而言该模型具有较高的准确率,则可以将该模型用于对未知变量进行预测。
(4)关联规则。
这种判断方法的目的是发现某些事情或事物存在不易被观测到的联系。例如某些客户在超市中购买婴儿的尿布的时候,经常会顺带着一起购买啤酒。为什么会出现这种现象呢?通过观察发现,这些顾客基本上是青年男性,孩子的母亲需要留在家里照管婴儿,父亲们在负责购买尿布的时候总是喜欢为自己买些啤酒。
(5)聚类。
聚类是一种自动寻找并建立分组规则的方法,它通过判断数据或样本之间的相似性,把相似的数据或样本划为一个集群中。聚类和分类的区别是:聚类不需要事先定义好类的数量,而是要自动分析当前数据集所自然呈现出类的数量,它不需要训练集。
聚类通常作为数据挖掘的第一步。例如通常债权人会将贷款放贷给具有财务指标特征的企业,对于这个问题,首先应对样本集合中的每一种财务指标各自进行聚类,将这些连续的数据转换为离散型数据,这样可能会更快地找到答案。不仅如此,对于很多数据挖掘算法,很多都是需要输入离散型数据。
2.2 联网审计的概述。
2.2.1 联网审计的定义。
联网审计在我国研究的起步不是很早,国内的学者对其也没有统一的定义。
但大多数人都倾向于这种解释:"审计机关与被审计单位进行网络互连后,在对被审计单位财政财务管理相关信息系统进行测评和高效率的数据采集与分析的基础上,对被审计单位财政财务收支的真实、合法、效益进行适时、远程检查监督的行为。"[26]
这里的审计机关可以是担任外部审计主力军的会计师事务所,也可以是政府的审计部门,另外还可以是组织的内部审计机构。如果是组织的内部审计部门呢,也就使具体到内部审计方面来说,由企业的内部审计师对企业的内部的信息系统或与之相关的内部控制流程或经营活动方案,进行大范围的检查监测,并对之进行评价和最后向企业高级管理层进行报告的过程。
联网审计是由于网络技术在审计中的应用而形成的一种新的审计模式。在国外有些人将联网审计称作连续审计,或在线审计。这点我不甚赞同,因为连续审计是指:"审计人员在一个更加连续或持续的基础上所使用的执行审计相关活动的所有方法。它是从连续控制评估到连续风险评估-关于控制风险连续的所有工作-的所有活动的连续集合。"联网审计可以做到持续的执行审计活动,但并不是所有处在的连续审计活动中的单位都是经过互联网或其他媒介互联的。并不能做到实时审计,所以充其量连续审计有着与联网审计相似的某些特点。
2.2.2 联网审计的特点。
联网审计主要有以下几个特点:
(1)审计时间的不固定性从内部审计方面来考察,内部审计人员只要在得到管理层的授权后,就随时通过网络访问到本公司的相关电子记录信息,如访问财务数据库,企业的交易记录。大大缩短了审计人员提取信息的时间和周期。同时,对于被审计单位正在发生的经济事项,审计人员可以在经济活动结束前参与实施审计活动,也可以在经济活动结束后实施审计活动。完美的实现了事中与事后审计的结合,也不再拘泥于以往的静态审计了,充分体现动态审计的优越性。
(2)审计的地点不确定性有了网络的连接,地点也不再是审计人员头痛的问题了。审计人员完全可以实施远程审计。审计人员有了审计的主动权,不再拘泥于过去的现场审计。随时随地下载打印所需的审计材料,完成以前只能在现场才能实施的审计活动。当然随着现代企业的信息化加速,这种通过网络远程访问获得审计材料的方式将更加方便与审计人员。
(3)审计的效率高增审计活动的效率是与实践和地点还有审计方式有关的,有了更快捷的获取审计数据的渠道,也不再为地点烦恼。随着审计数据获取量大大增加,分析审计数据的速度迅猛提高,审计活动的数量和质量也就上了一个台阶。审计的报告也就可以及时的向负责人提交了。
(4)可用于审计数据分析的工具多1)联网审计系统中的预警系统可以实现实时追踪事件,起到了自动预警的功能。2)可运用多维分析技术对收集到的海量数据进行不同层面,多个角度的探索分析,寻找审计可疑点。3)联网审计系统中的数据也可以用数据挖掘技术来处理分析,这样通过对海量数据的分析,可以找到数据间的某种联系和规律,或者数据的特征,开发审计的新思路。
2.2.3 联网审计的过程。
要实现联网审计,从技术上来说必须经过三个部分:审计数据采集、审计数据存储和审计数据分析三部分。
(1)审计数据的采集数据采集是联网审计的重要一步,它关乎以后审计活动的成败。审计数据采集方式主要有联网报送电子数据、直接数据采集方式和采用审计数据采集器。
(2)审计数据的存储审计数据的存储可以分为集中式存储和分散式存储。
(3)审计数据分析如前所述,可以运用多维数据分析技术、数据挖掘技术等对审计数据进行分析处理。
内部审计是由各单位自身设置的相对独立的审计部门对单位内部进行的审计,它是各单位管理职能的一部分。内部审计主要是通过监督检查本单位的财务收支和经营管理活动来达到协助决策层更有效的履行职责的目的。内部审计的目的决定了它自身的特点:服务的内向型...
一、我国注册会计师独立性现状。尽管我国CPA近几年已经取得了长足的发展,但是不得不承认,我国CPA发展仍然存在不少问题。在这里我们列出以下两个主要问题:(一)注册会计师整体职业水准不高,注册会计师职业道德较低注册会计师需要较高的专业胜任能...
1绪论1.1研究背景及研究意义1.1.1研究背景自2006年以来,因为全球经济形势的变化及审计报告各方使用者的相关需求,国际审计与鉴证准则理事会(IAASB)一直在酝酿、推动审计报告准则改革。近些年来,为了改进审计报告,IAASB对审计实践情况进行了跟...
风险导向的内部审计管理工作一定给予足够的重视程度,对于企业内部各部门之间的有序化管理将会起到良好的帮助作用,同时,也是企业不断发展创新的必要条件。...
一、引言随着中国经济市场化改革的步伐加快,海外资金的不断引入以及国有企业私有化进程的加快,导致我国对高质量审计的需求不断提高。这是因为对于资本市场而言,经注册会计师鉴证的会计信息在引导资源配置方面发挥着越来越重要的作用;注册会计师的审计质...
0引言第三方审核机构是衡量节能效益分配,确认节能量的核心机构.作为节能服务体系重要的实体组织,具有严肃性、专业性、独立性.目前,中国第三方审核机构发展速度缓慢,远远落后于节能服务产业整体发展速度,成为阻碍中国合同能源管理模式发展的重要因素.随着节...
前言:建筑工程后期审计工作需要将项目成本真实数据以及搭接器材合法性内容,进行客观审查和有机评估。实际调查发现,建筑项目中涉及安装,以及征地迁移费用总计数量达到九成,所以针对个中建筑安装细节进行细致成本累加,对于竣工结算结果公平性彰显辅助功...
4海尔公司电子商务审计风险的防范4.1环境风险的防范4.1.1完善运营环境无论在任何一个国家或是任何一个地区,物流体系都在电子商务中占有者极其重要的位置。成熟而可靠的物流体系可以帮助被审计单位电子商务更健康地发展,还可以降低企业的经营风险。而...
为了更好提升审计工作人员的业务水平,加强完善健全的考核制度,推动质量管理体系保证达到标准,提高审计人员工作的积极性,更好发挥政府审计在社会中的职能作用,改善审计工作,注重总结改进和制度管理。一、地方审计质量管理体系目前存在的问题1.审计质...
企业绿化支出主要是指厂区内部及周边的绿化和景观支出,包括花草、树木、雕塑、石头、水塘等,其功能分为多种,主要包括美化环境、减少污染、投资增值等。绿化功能不同,相应的会计处理也不同,审计师在对其进行审计时,需要分析绿化支出的经济实质,判断企...