登录 注册 | 服务热线:400 886 1266 | ENGLISH | 
 
|
理论知识

使用数据挖掘技术实现偷逃税监测

发布时间:2014-11-2 18:39:27  点击数:3131

  每一年税务部门都由于偷逃税而损失大量的税款,他们急需一定的手段来挽回损失。通过分析现有的数据,这些部门能够找到方法来识别出偷逃税者。
  通常情况下税务人员是通过已有的经验来识别偷逃税者。但是,往往这些经验并未经过证实,而将时间浪费在了合法纳税者上,错过了找到偷逃税者的机会。
  为了缩小范围,将目标定位在那些偷逃税者上,许多税务机构在审计过程中采用了数据挖掘技术。
  数据挖掘将强大的分析技术和业务知识结合在一起,将数据转化成必要的知识,识别出可能的偷逃税案例。

找到如何挽回损失的方法
  税务部门如何判断哪些合法纳税哪些是偷逃税呢?审计人员往往是通过经验和直觉。这些不够准确的方法容易把大量时间浪费在对合法纳税人的检查上。

  如果我们能够:
  找到高可能性偷逃税的因素
  开发出规则并使之标记出高可能性偷逃税案例

  那么审计人员就能更加有效的利用资源。

充分利用现有数据
  以往的审计记录是未来发现挽回税款的关键。通过从历史信息中创建模型,我们能够从每一年海量的记录中定位到非法支付上。这些数据挖掘模型降低了发现非法交税的成本,同时节约了审计人员的时间。
  下面的案例显示了如何根据以往的审计记录进行建模,找到潜在的偷逃税者。

建立识别偷逃税者的模型
  下列过程使用Clementine产品完成。

  步骤1:理解数据
  Clementine的可视化编程接口能够直观的检测审计记录,下面的截屏显示了Clementine如何直接以表格方式显示审计记录。

  步骤2:设置测试未来模型的基准
  此步骤中我们会考虑使用哪种模型来测试我们的数据。比如,我们可以使用线性回归 – 一种常见的,直接的统计方法。但是,这种模型假设目标变量(偷逃税款)与模型使用的缴纳金额线性相关。但在下面的截屏中,我们将两者以图形方式表示,发现两者并不线性相关。因此,我们可以考虑采用其他的建模技术。但在这里我们仍会使用线性回归模型作为与其他模型的比较。

  步骤3:划分数据
  我们抽取一半审计数据建立模型,另一半数据用于检验建立的模型。

  在Clementine中可以非常方便的对数据集进行划分,如下图所示。我们增加一个新的字段(SELGROUP,值为1或2),然后随机的将数据划分为两部分,只将SELGROUP=1的数据用于建模。

  步骤4:建立模型
  划分数据后,我们可以建立两个模型:线性回归模型和神经网络模型,之所以使用神经网络模型是因为它对于非线性关系的处理比较方便。在Clementine中我们直接将相应节点拖入到数据流中建立模型,如下图所示。建立模型时有一些选项可以设置,本例中我们使用默认的设置。

  步骤5:运行数据建立模型
  运行数据生成模型,在Clementine中完成的模型以金色钻石形状表示。我们可以详细查看其结构。这个过程很有用,因为在这里我们看到Clementine是如何对模型应用独特的灵敏度分析。

比如,完成的神经网络模型显示了其基本的模型结构,并带有"预测精度"。另一个比较重要的是"输入的相对重要性",以降序的顺序列出了输入变量对输出变量的重要程度。

  步骤6:比较模型

  我们直接将两个模型的输出导入到一个分析节点。Clementine会显示出每个节点的统计性能指标。在这里请注意,对模型进行判断的数据是另一半数据 – 我们没有用来建立模型的数据。

  每个模型的分析节点会显示出一些重要的数据。比如,性能指标之一平均误差(实际亏欠金额和预测亏欠金额之差的平均),神经网络是41695.2,不到线性回归模型的一半106422.4。基于这个和前面提到的原因,我们认为神经网络模型更加适合。

  步骤7:对未来的缴税记录应用模型
  在来年中,我们就可以对缴税记录进行预测,增加一个预测亏欠金额的字段$N-ADJ,将精力多投入到那些可能性更高的记录上。

  随着环境的不断变化,还必须对模型进行周期性的检查与更新,以使效果更佳。

  战略性部署数据挖掘结果
  只将数据挖掘的结果用于某一点上是远远不够的。只有广泛的,战略性的部署数据挖掘结果才能真正达到数据挖掘的结果。
  战略性部署意味着将数据挖掘的结果部署到日常的运营中去,达到实时预警的目的。
  对于有很多分支机构的企业来讲,战略性部署还意味着可在总部开发模型,将模型结果分发到分支机构去,从而在整个企业内部共享稀缺资源。

 
分享到:
查看更多行业成功案例及解决方案