2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩86頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p>  本科畢業(yè)論文</p><p>  基于數(shù)據(jù)挖掘的納稅人預(yù)警監(jiān)控系統(tǒng)——預(yù)處理模塊和 X-Means 算法改進(jìn)</p><p>  Early-warning Supervisory System of Taxpayers Based on Data Mining</p><p>  ——Implementation of Data P

2、re-processing Module and Improvement of the X-Means Algorithm</p><p><b>  姓名: </b></p><p><b>  學(xué)號: </b></p><p><b>  學(xué)院:軟件學(xué)院</b></p><

3、;p><b>  系:軟件工程</b></p><p><b>  專業(yè):軟件工程</b></p><p><b>  年級: </b></p><p><b>  指導(dǎo)教師: </b></p><p>  二〇XX 年 X 月</p>

4、;<p><b>  摘要</b></p><p>  許多國家和地區(qū)每年都會因為納稅人的偷稅漏稅問題而損失大量的財政收</p><p>  入,稅務(wù)稽查部門一直以來都致力于解決這方面的問題。科技的發(fā)展使得一些先</p><p>  進(jìn)的數(shù)據(jù)庫和信息存儲工具用于稅收數(shù)據(jù)的錄入、存儲、統(tǒng)計和檢索等。隨著稅</p>&

5、lt;p>  收信息化工作的深入,稅務(wù)部門積累了海量的業(yè)務(wù)明細(xì)數(shù)據(jù),這其中包含著大量</p><p>  對決策有價值的信息。但沒有強(qiáng)有力的分析工具,理解這些存放在大型和大量數(shù)</p><p>  據(jù)庫中的海量數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了人類的能力,很有可能會使這些系統(tǒng)和數(shù)據(jù)變</p><p>  成一個個“信息孤島”和“數(shù)據(jù)墳?zāi)埂薄?因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于對納稅人

6、</p><p>  進(jìn)行預(yù)警和監(jiān)控這一全新的領(lǐng)域,對稅務(wù)系統(tǒng)中積累的海量數(shù)據(jù)進(jìn)行挖掘,從中</p><p>  提取對決策有價值的信息,解決數(shù)據(jù)和信息之間的鴻溝,將“數(shù)據(jù)墳?zāi)埂鞭D(zhuǎn)換成</p><p>  知識“金塊”就顯得很有必要。</p><p>  本文首先對課題的研究背景及實(shí)際意義、國內(nèi)外研究現(xiàn)狀以及存在的問題本文的研究內(nèi)容以及特色等

7、做了介紹,并簡單說明了論文的組織結(jié)構(gòu)。然后,本文闡述了納稅人預(yù)警監(jiān)控系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)的需求,對用于挖掘工作的原始數(shù)據(jù)作了詳細(xì)說明,并且分析了數(shù)據(jù)挖掘子系統(tǒng)的系統(tǒng)結(jié)構(gòu)。接著,詳細(xì)闡述了數(shù)據(jù)預(yù)處理模塊的實(shí)現(xiàn)過程,包括數(shù)據(jù)集成和選擇、數(shù)據(jù)清洗和數(shù)據(jù)變化算法的設(shè)計和實(shí)現(xiàn)。進(jìn)而,本文介紹了 X-Means 算法的思想,對其做了改進(jìn),并且分析了算法在不同數(shù)據(jù)源上進(jìn)行數(shù)據(jù)挖掘以及算法改進(jìn)前后所得挖掘結(jié)果的不同。</p><p&

8、gt;  采用改進(jìn)后的 X-Means 算法對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行挖掘,得到的結(jié)果能清楚的把那些有購電,但 XSE=0 且 SE=0 的有重大偷稅嫌疑的納稅戶;有偷稅漏稅嫌疑,但嫌疑不重大的納稅戶;納稅記錄優(yōu)良、納稅額高于同行業(yè)平均水平,需要提供適當(dāng)稅收扶持的納稅戶和沒有嚴(yán)重納稅指標(biāo)異常,只需進(jìn)行日常征管的納稅戶分離出來,這些納稅戶分別占總量的 1%、6%、0%和 93%。關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理;X-Means 算法</p&

9、gt;<p><b>  Abstract</b></p><p>  Many countries and regions bear significant loss of fiscal revenue because of the taxpayer's tax evasion every year. Tax inspection departments have b

10、een committed to solve this problem. The development of technology makes some of the advanced databases and information storage tools used in the entry, storage, statistic and retrieval of tax datas. As the deepening of

11、taxation information, The tax department has accumulated vast amounts of detailed business data, which includes a large number of </p><p>  Firstly, this thesis illustrated the background and significance of

12、 this research, the status quo and existing problems of related researches at home and abroad. The main contents and characters as well as the arrangements of the thesis were presented after that. Then, the thesis introd

13、uced the requirement of the Taxpayer’s early-warning and monitoring system and the data mining subsystem. Explained the raw data we used for our mining process in detail, and then analysised the structure of the d</p&

14、gt;<p>  Using the improved X-Means algorithm to mining the pre-processed data, we can</p><p>  classified the taxpayers needed to be focus on, spot check, support, administrate as usual clearly. Thes

15、e types of taxpayers separately account for 1%, 6%, 0% and 93% of the total.</p><p>  Key words: Data Mining; Data Pre-processing; X-Means Algorithm</p><p>  4.3.4算法改進(jìn)后的挖掘結(jié)果分析71</p><

16、;p>  4.4 本章小結(jié)75</p><p>  第五章總結(jié)與展望76</p><p><b>  參考文獻(xiàn)77</b></p><p><b>  致謝79</b></p><p><b>  CONTENTS</b></p><p>

17、;  4.3.2Analysis of result after Pre-process64</p><p>  4.3.3Analysis of result without algorithm improvement68</p><p>  4.3.4Analysis of result after algorithm improvement71</p>&l

18、t;p>  4.4 Summary75</p><p>  Chapter 5: Conclusions and future works76</p><p>  References77</p><p>  Acknowledgements79</p><p><b>  緒 論</b></p>

19、;<p><b>  第一章緒論</b></p><p>  1.1 研究背景及選題意義</p><p>  世界各地許多國家每年都會因為納稅人的偷稅漏稅問題而損失大量的財政收入,稅務(wù)稽查部門一直以來都致力于解決這方面的問題。在沒有引入進(jìn)算計工具和數(shù)據(jù)挖掘技術(shù)之前,這方面的工作在很大程度上是依靠專業(yè)的稽查人員根據(jù)以往的工作經(jīng)驗和某些直覺上的判斷來圈定那

20、些不法納稅人的特征。雖然這種方法在稅務(wù)稽查初期可能會有很大的幫助,但是隨著經(jīng)濟(jì)的發(fā)展、稅務(wù)體制的改革 ,自然而然會引起稅源和稅種的增加,這時,如果再使用以往那種憑稽查人員的經(jīng)驗和直覺的稽查方法去區(qū)分判斷違法納稅人,勢必會導(dǎo)致稽查效率低下和稽查效果不明顯。</p><p>  在過去的十幾年中,一些先進(jìn)的數(shù)據(jù)庫技術(shù)大大推動了稅務(wù)部門的稅收應(yīng)用,使得大量數(shù)據(jù)庫和信息存儲工具用于稅收數(shù)據(jù)的錄入、存儲、統(tǒng)計和檢索等 。隨

21、著稅收信息化工作的深入,稅務(wù)部門積累了海量的業(yè)務(wù)明細(xì)數(shù)據(jù),這其中包含著大量對決策有價值的信息。但由于這些數(shù)據(jù)多以不同的數(shù)據(jù)結(jié)構(gòu)存放在不同的數(shù)據(jù)庫中,分布存放、備份文件格式各異,所以很難從中抽取出有價值的信息。同時,隨著數(shù)據(jù)的不斷豐富,帶來了對強(qiáng)有力的數(shù)據(jù)分析工具的需求,沒有強(qiáng)有力的分析工具,理解這些存放在大型和大量數(shù)據(jù)庫中的海量數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了人類的能力,很有可能會使這些系統(tǒng)和數(shù)據(jù)變成一個個“信息孤島”和“數(shù)據(jù)墳?zāi)埂?。因此,人們迫切?/p>

22、要一種能夠去粗取精、對數(shù)據(jù)進(jìn)行深層次加工的自動化技術(shù),而這正是數(shù)據(jù)挖掘技術(shù)——從海量的數(shù)據(jù)中提取知識和信息的技術(shù)的用武之地[1]。</p><p>  數(shù)據(jù)挖掘 DM(Data Mining)是指借助于人工智能和高級統(tǒng)計方法技術(shù),</p><p>  運(yùn)用聚類分析、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、決策樹等技術(shù),從大量數(shù)據(jù)中提取隱含</p><p>  的、全面的和有用的信息,

23、該信息可以揭示數(shù)據(jù)的不明顯的模式、趨勢或規(guī)則[2]。</p><p>  數(shù)據(jù)挖掘技術(shù)是面向應(yīng)用的,它不僅面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且</p><p>  要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以知道實(shí)際</p><p>  問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)</p><p>

24、;<b>  1</b></p><p><b>  緒 論</b></p><p>  行預(yù)測[3]。而稅務(wù)部門可以充分利用數(shù)據(jù)挖掘的這種功能,對既有數(shù)據(jù)進(jìn)行全面</p><p>  的分析,對納稅人未來的納稅狀況進(jìn)行預(yù)警和監(jiān)控。比如,可以通過了解各稅種</p><p>  的稅源戶數(shù)基本信息及其

25、變化、各時期納稅申報的基本情況、稅款入庫情況及其</p><p>  分析、稅源調(diào)查及發(fā)展趨勢預(yù)測等信息,為納稅人預(yù)警監(jiān)控提供充分的依據(jù)。還</p><p>  可以通過分析各稅種在全部稅收任務(wù)中所占的比例以及某一稅種中各行業(yè)稅收</p><p>  占總額的百分比,來預(yù)測未來的財政收入,并制定合理的稅收政策以充分發(fā)揮稅</p><p>&l

26、t;b>  收的經(jīng)濟(jì)調(diào)節(jié)作用。</b></p><p>  鑒于以上所述情況,將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)應(yīng)用于納稅人進(jìn)行預(yù)警和監(jiān)控這</p><p>  一全新的領(lǐng)域,對稅務(wù)系統(tǒng)中積累的海量數(shù)據(jù)進(jìn)行挖掘,從中提取對決策有價值</p><p>  的信息,解決數(shù)據(jù)和信息之間的鴻溝,建設(shè)基于數(shù)據(jù)倉庫、應(yīng)用數(shù)據(jù)挖掘技術(shù)的</p><p>

27、;  納稅人預(yù)警監(jiān)控系統(tǒng),將“數(shù)據(jù)墳?zāi)埂鞭D(zhuǎn)換成知識“金塊”就顯得很有必要。</p><p>  1.2 研究現(xiàn)狀及存在問題</p><p>  目前,致力于數(shù)據(jù)挖掘算法研究的學(xué)術(shù)團(tuán)體、會議和組織有很多,其中比較著名的有 ACM SIGKDD、IEEE ICDM、SDM、PAKDD、VLDB、FSKD、MLDM等。到目前為止,由美國人工智能協(xié)會主辦的 KDD 國際研討會已經(jīng)召開了 18 次,

28、規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會,研究重點(diǎn)也組建從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透 ,如近年來注重對 Bayes(貝葉斯)方法以及 Boosting 方法的研究和提高;傳統(tǒng)的統(tǒng)計學(xué)回歸法在 KDD 中的應(yīng)用等[4]。</p><p>  與國外相比,國內(nèi)對數(shù)據(jù)挖掘的研究稍晚,還沒有形成整體力量[5]。1993年國家自然科學(xué)基金首次支持對該領(lǐng)域的研究項目。目前,

29、國內(nèi)的許多科研單位和高等院校競相展開數(shù)據(jù)挖掘的基礎(chǔ)理論及其應(yīng)用研究,包括清華大學(xué)、中科院計算技術(shù)研究所、空軍第三研究所、海軍裝備論證中心等。</p><p>  在稅務(wù)應(yīng)用方面,隨著數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)挖掘平臺的不斷成熟,通過建立基于數(shù)據(jù)挖掘的決策支持系統(tǒng)來從海量數(shù)據(jù)中提取有價值的信息作為決策者的參考,從而提高管理者效率和稅收征管質(zhì)量已經(jīng)不再是不可能的事。澳大利亞哦稅務(wù)部門將數(shù)據(jù)挖掘技術(shù)應(yīng)用于稅收征管,系統(tǒng)經(jīng)過三年

30、的運(yùn)行,投入回報率高達(dá) 1:15;2002 年美國華盛頓國家稅務(wù)局通過建立數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工作進(jìn)行</p><p><b>  2</b></p><p><b>  緒 論</b></p><p>  稽查選案,大大提高了對稽查選案時的準(zhǔn)確性和稽查額度,節(jié)約了稽查成本并使稽查成果得到了大幅度提高[6]。</p&g

31、t;<p>  相比國外而言,我國國內(nèi)數(shù)據(jù)挖掘技術(shù)在稅務(wù)方面的應(yīng)用還處在淺層次的應(yīng)用階段中,金稅工程二期的實(shí)施使得全國建立了總局、省、地市、縣四級稅務(wù)廣域網(wǎng),稅務(wù)部門以四級網(wǎng)絡(luò)為依托,實(shí)現(xiàn)了業(yè)務(wù)數(shù)據(jù)省級集中,積累了大量分布在各個應(yīng)用系統(tǒng)中的涉稅信息,是稅務(wù)部門進(jìn)行稅收分析的重要依據(jù)。國家的宏觀政策上已經(jīng)在金稅三期的工程里提到用數(shù)據(jù)挖掘方法來解決目前困擾稅務(wù)機(jī)關(guān)的納稅評估和稽查選案兩大問題,而且也有一部分地市作為帶頭人開始使

32、用數(shù)據(jù)挖掘工具。作為預(yù)警監(jiān)控和決策支持系統(tǒng)的一個重要組成部分,數(shù)據(jù)挖掘已經(jīng)越來越成為近年來稅務(wù)部門關(guān)注的焦點(diǎn)之一。</p><p>  稅務(wù)應(yīng)用中用到的數(shù)據(jù)挖掘算法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析、預(yù)測分析和回歸分析 6 種[7]:</p><p>  1、關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則挖掘算法可以有效的識別出數(shù)據(jù)中不同字段之間內(nèi)在的關(guān)聯(lián)關(guān)系,關(guān)聯(lián)分析的目的是挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,

33、在給定一組 Item 和一個記錄集合后,通過分析記錄集合,推導(dǎo)出 Item 間的相關(guān)性[8]。</p><p>  山東科技大學(xué)設(shè)計了一種稅務(wù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘系統(tǒng),研究了 OLAP 技術(shù)以及數(shù)據(jù)倉庫的邏輯模型,并利用數(shù)據(jù)倉庫的理論來指導(dǎo)整個項目的設(shè)計和開發(fā),針對如何從已有的大量稅收征管數(shù)據(jù)中發(fā)現(xiàn)其中隱含的對決策有用的信息這一問題,主要運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,提取出供稅務(wù)機(jī)關(guān)各級領(lǐng)導(dǎo)分析和決策的信息[9]。但是

34、這個系統(tǒng)只實(shí)現(xiàn)了關(guān)聯(lián)規(guī)則算法,數(shù)據(jù)分析工具不完備,同時數(shù)據(jù)獲取成本較高。</p><p>  2、序列模式分析:序列模式用于預(yù)測一個具有時間先后順序的動作序列。比如,在購物的交易數(shù)據(jù)庫中,可能會發(fā)現(xiàn)“用戶在購買了電腦以后一段時間內(nèi) ,一定會去購買打印機(jī)”這樣的規(guī)則。</p><p>  華中科技大學(xué)提出了一種基于數(shù)據(jù)挖掘、 OLAP(On-Line Analytical Processin

35、g)以及 XML 的稅收決策支持系統(tǒng)的設(shè)計方案。論文討論了 OLAP、數(shù)據(jù)挖掘和數(shù)據(jù)倉庫在稅收決策支持系統(tǒng)上的應(yīng)用,結(jié)合 XML 技術(shù)和多維數(shù)據(jù)模式設(shè)計的思想勾畫了一個稅收決策支持系統(tǒng)的架構(gòu)[2]。但對于挖掘過程和結(jié)果的展示,如分析預(yù)測功能的實(shí)現(xiàn)、多維分析模型或數(shù)據(jù)挖掘統(tǒng)計模型的發(fā)布等沒有</p><p><b>  3</b></p><p><b>  

36、緒 論</b></p><p>  進(jìn)行深入的討論及應(yīng)用。</p><p>  3、分類分析:分類方法是一種有指導(dǎo)的學(xué)習(xí),類別必須明確,并且必須有一定的己經(jīng)獲取到分類結(jié)果的數(shù)據(jù)用以創(chuàng)建分類模型,然后可以采用這個分類模型對新的數(shù)據(jù)進(jìn)行分類。</p><p>  浙江臨海市地稅局 2002 年開發(fā)了地稅征管系統(tǒng),該系統(tǒng)運(yùn)用分類規(guī)則等數(shù)據(jù)挖掘技術(shù)提取了與地稅有

37、關(guān)的信息,并且獲得了稅種收入同比增與稅收總收入同比增的關(guān)系規(guī)則,為稅收預(yù)測和各級地稅管理層決策提供了科學(xué)的幫助,對提高臨海地稅征管質(zhì)量和管理者效率有較好的促進(jìn)作用[10]。但是此系統(tǒng)只是在現(xiàn)有數(shù)據(jù)庫上進(jìn)行簡單的數(shù)據(jù)挖掘,還處于嘗試階段,不能滿足新時期的管理需求 。</p><p>  4、聚類分析:聚類就是將數(shù)據(jù)對象分組成為多個類,在同一個類中的對象之間具有較高的相似度,而不同類中的對象差別較大。相異度是根據(jù)描述

38、對象的屬性值來計算的。距離是經(jīng)常采用的度量方式。</p><p>  天津大學(xué)分析了目前廣泛應(yīng)用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法在財務(wù)預(yù)警時存在的局限,提出了基于粗糙集屬性約簡的模糊神經(jīng)網(wǎng)絡(luò)預(yù)警模型,并且提出了兩種聚類方法,一種是基于粒子群優(yōu)化的模糊聚類算法,一種是基于粗糙集的 K-Means 聚類算法,為把聚類算法引入財務(wù)預(yù)警研究領(lǐng)域提供了一種新的嘗試[11]。雖然此系統(tǒng)提出的三種方法可以從不同角度去研究財務(wù)預(yù)警,但是對在哪

39、種情況下使用哪種方法具有更好的預(yù)測效果并沒有做出確切的結(jié)論,需要由研究人員根據(jù)經(jīng)驗和數(shù)據(jù)的現(xiàn)有狀況去判斷。</p><p>  5、預(yù)測分析(也稱時間序列分析):根據(jù)按照時間順序的一定數(shù)量的連續(xù)的歷史數(shù)據(jù),對于未來一個時間點(diǎn)或者幾個時間點(diǎn)的數(shù)據(jù)進(jìn)行預(yù)測。預(yù)測分析是被經(jīng)常采用的分析手段,對于一些數(shù)值型的屬性,經(jīng)常采用這種分析手段來獲取未來的發(fā)展趨勢,并且根據(jù)預(yù)測結(jié)果進(jìn)行預(yù)警分析等應(yīng)用。</p><

40、;p>  6、回歸分析:回歸分析用來分析兩個或者兩個以上的變量相互影響的程度,可以通過一個或者多個屬性的值來預(yù)測另一個變量的值。比如,在商品流通領(lǐng)域 ,經(jīng)常用回歸分析來分析商品價格與商品需要量之間的關(guān)系,以便對商品的價格和需求量進(jìn)行控制。</p><p>  南京地稅建立的預(yù)警系統(tǒng),利用 BP 神經(jīng)網(wǎng)絡(luò)、多元回歸和組合預(yù)測模型,探討了多元回歸模型中經(jīng)濟(jì)變量的篩選問題,但其實(shí)現(xiàn)的功能單一,不能滿足稅</

41、p><p><b>  4</b></p><p><b>  緒 論</b></p><p>  收各個層面的管理需要[12]。</p><p>  雖然各單位在把數(shù)據(jù)挖掘應(yīng)用到稅務(wù)系統(tǒng)中都取得了一定的效果,但是數(shù)</p><p>  據(jù)、數(shù)據(jù)挖掘任務(wù)和數(shù)據(jù)挖掘方法的多樣性仍然

42、給數(shù)據(jù)挖掘提出了許多挑戰(zhàn):</p><p>  1、數(shù)據(jù)挖掘準(zhǔn)確性的提高,由于數(shù)據(jù)挖掘所處理的數(shù)據(jù)規(guī)模通常十分龐大</p><p>  并且在稅務(wù)應(yīng)用中數(shù)據(jù)類型復(fù)雜、變化迅速,現(xiàn)有系統(tǒng)無法保證挖掘結(jié)果的準(zhǔn)確</p><p><b>  性。</b></p><p>  2、現(xiàn)有系統(tǒng)一般無法提供對所使用算法的有效性和科學(xué)性

43、的證明,對在何</p><p>  種情況下使用何種方法效果更好不能給出確切的結(jié)論,需要由研究人員根據(jù)經(jīng)驗</p><p>  和數(shù)據(jù)的現(xiàn)有狀況去判斷。</p><p>  3、目前大多數(shù)基于數(shù)據(jù)挖掘的稅務(wù)系統(tǒng)實(shí)現(xiàn)的功能都比較單一,不能滿足</p><p>  稅收各個層面的管理需要。</p><p>  1.3 主要

44、研究內(nèi)容及特色</p><p>  我們的研究內(nèi)容是基于納稅人預(yù)警監(jiān)控系統(tǒng)的數(shù)據(jù)挖掘。在對原始數(shù)據(jù)進(jìn)行多次預(yù)處理后,轉(zhuǎn)化成 csv 格式導(dǎo)入 Weka,然后以 Weka 作為數(shù)據(jù)挖掘平臺,對 Simple K-Means、X-Means、DBScan 等聚類算法進(jìn)行改進(jìn)和實(shí)現(xiàn),最后對挖掘結(jié)果進(jìn)行分析。具體來講,研究內(nèi)容包括以下幾個方面:</p><p>  1、數(shù)據(jù)預(yù)處理,由于原始數(shù)據(jù)分布

45、在不同的表中,并且存在許多字段冗余,因此,需要在數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)的集成和選擇,將分布在多個表中的原始數(shù)據(jù)進(jìn)行關(guān)聯(lián)組合,提取與分析任務(wù)相關(guān)的屬性和數(shù)據(jù);由于所要挖掘的原始數(shù)據(jù)存在大量缺失值和不合理數(shù)據(jù),我們對原始數(shù)據(jù)做了清理,對缺失值根據(jù)數(shù)據(jù)的特點(diǎn)采用 Hot deck 插補(bǔ)、最大頻數(shù)或最近鄰域插補(bǔ)法處理,對噪音數(shù)據(jù)采用鄰域插補(bǔ)法進(jìn)行平滑;由于我們采用 Weka 作為數(shù)據(jù)挖掘的平臺,還要把經(jīng)過預(yù)處理的數(shù)據(jù)轉(zhuǎn)化成其所能識別的格式導(dǎo)入 Wek

46、a,然后做進(jìn)一步的預(yù)處理,如不相關(guān)屬性數(shù)據(jù)的清除、數(shù)據(jù)規(guī)范化處理等。</p><p>  2、聚類過程,以 Weka 作為數(shù)據(jù)挖掘平臺,對 K-Means、X-Means、DBScan</p><p>  EM 等數(shù)據(jù)挖掘算法進(jìn)行改進(jìn),并且把改進(jìn)的算法作為 Weka 平臺的插件來對數(shù)據(jù)進(jìn)行聚類,使整個挖掘子系統(tǒng)能夠以 Weka 作為平臺來流暢的運(yùn)行,并且能夠更有針對性的滿足我們的需求。&l

47、t;/p><p><b>  5</b></p><p><b>  緒 論</b></p><p>  3、聚類結(jié)果的分析和比較,對同一種數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)前后挖掘結(jié)果進(jìn)行縱向?qū)Ρ群头治觯瑢Σ煌瑪?shù)據(jù)挖掘算法挖掘所得結(jié)果進(jìn)行橫向的對比,以評估所采用的算法的效果。</p><p>  本文主要研究預(yù)處理

48、算法,并對 X-Means 算法做了改進(jìn)。其主要特點(diǎn)如下 :</p><p>  1、通過對原始數(shù)據(jù)進(jìn)行多種預(yù)處理,減弱了缺失值和不合理數(shù)據(jù)對數(shù)據(jù)挖</p><p>  掘過程的影響,使挖掘結(jié)果盡可能準(zhǔn)確。</p><p>  2、通過對 X-Means 算法的改進(jìn),把實(shí)例個數(shù)少于 10 的簇單獨(dú)返回進(jìn)行分析,并對其余實(shí)例重新進(jìn)行聚類,這樣消除了少數(shù)噪聲點(diǎn)的干擾,使

49、聚類結(jié)果更具有實(shí)際參考價值。</p><p>  3、提供對數(shù)據(jù)預(yù)處理前后以及算法改進(jìn)前后的對比分析,以驗證本文所采用的算法的效果。</p><p>  1.4 論文組織結(jié)構(gòu)</p><p>  本文重點(diǎn)探討預(yù)處理模塊的實(shí)現(xiàn),同時對 X-Means 算法做了一些改進(jìn),并對結(jié)果進(jìn)行了對比分析。總共分為五章,本為的組織結(jié)構(gòu)和各章的主要內(nèi)容如下 :</p>

50、<p>  第一章 緒論,介紹了課題研究背景及實(shí)際意義、國內(nèi)外研究現(xiàn)狀以及存在的問題、本文的研究內(nèi)容以及特色等,并對本文的組織結(jié)構(gòu)進(jìn)行了概述;</p><p>  第二章 需求分析與系統(tǒng)結(jié)構(gòu),闡述了納稅人預(yù)警監(jiān)控系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)的需求,對用于挖掘工作的原始數(shù)據(jù)作了詳細(xì)說明,并且分析了數(shù)據(jù)挖掘子系統(tǒng)的系統(tǒng)結(jié)構(gòu);</p><p>  第三章 數(shù)據(jù)預(yù)處理模塊的實(shí)現(xiàn),對 Weka 做

51、了簡單的描述并著重介紹了 Weka 平臺下預(yù)處理模塊的結(jié)構(gòu)和包含的算法。分析了用于數(shù)據(jù)挖</p><p>  掘的原始數(shù)據(jù)中存在的問題、預(yù)處理的功能和主要方法以及本系統(tǒng)中所用到的數(shù)據(jù)預(yù)處理方法。詳細(xì)闡述了數(shù)據(jù)預(yù)處理模塊的實(shí)現(xiàn)過程,包括數(shù)據(jù)集成和選擇、數(shù)據(jù)清洗和數(shù)據(jù)變化算法的設(shè)計和實(shí)現(xiàn);第四章 X-Means 算法改進(jìn)和結(jié)果分析,闡述了 X-Means 算法的思想,對其做了改進(jìn),并且分析了算法在不同數(shù)據(jù)源上進(jìn)行數(shù)

52、據(jù)挖掘以及算法改進(jìn)前后所得挖掘結(jié)果的不同,以評估本研究所采用算法的效果;</p><p><b>  6</b></p><p><b>  緒 論</b></p><p>  第五章 總結(jié)與展望,對本文和本系統(tǒng)研究的結(jié)果進(jìn)行了概括和總結(jié),分析</p><p>  了其尚待優(yōu)化之處,并對下一步研究進(jìn)

53、行展望。</p><p><b>  7</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  第二章需求分析與系統(tǒng)結(jié)構(gòu)</p><p>  稅收是一個古老的經(jīng)濟(jì)學(xué)范疇,在人類發(fā)展歷程中,稅收隨著國家的形成而</p><p>  產(chǎn)生,我國在吸

54、收西方稅收理論研究成果的基礎(chǔ)上,強(qiáng)調(diào)了稅收的法律特征,形</p><p>  成了對稅收本質(zhì)的基本認(rèn)識,即:稅收是國家為了實(shí)現(xiàn)其職能,憑借政治權(quán)力參</p><p>  與社會產(chǎn)品分配,依照法律法規(guī)向經(jīng)濟(jì)單位和個人無償征收實(shí)物或貨幣所形成的</p><p>  特殊分配關(guān)系[13]。</p><p>  從稅收的本質(zhì)可以看出,稅收是收入從納稅

55、人向國家單方面的、無償?shù)霓D(zhuǎn)移 。</p><p>  納稅人本能上會排斥這種使自身收入減少的稅收活動。為了使稅收征繳活動能夠</p><p>  順利實(shí)施,就迫切需要通過科學(xué)的管理手段來維持這種國家與納稅人之間的特殊</p><p>  分配關(guān)系,以確保稅收的征繳得以實(shí)現(xiàn)。</p><p>  本章將對納稅人預(yù)警監(jiān)控系統(tǒng)的需求和數(shù)據(jù)挖掘子系統(tǒng)

56、的需求進(jìn)行分析,并</p><p>  且給出詳細(xì)的原始數(shù)據(jù)說明和系統(tǒng)結(jié)構(gòu)流程說明。</p><p>  2.1 納稅人預(yù)警監(jiān)控系統(tǒng)</p><p>  2.1.1系統(tǒng)概述</p><p>  當(dāng)今社會,隨著科技日新月異的發(fā)展,現(xiàn)代化的信息技術(shù)在包括稅務(wù)征管在</p><p>  內(nèi)的各個社會層面得到了廣泛運(yùn)用,對社

57、會生活生活正在并且將持續(xù)產(chǎn)生深遠(yuǎn)的</p><p>  影響。現(xiàn)代社會對信息技術(shù)的需求和依賴愈發(fā)強(qiáng)烈,稅務(wù)征管系統(tǒng)也不例外。發(fā)</p><p>  展稅務(wù)征管系統(tǒng)是充分發(fā)揮稅務(wù)機(jī)關(guān)的職能作用。它包括以下三個職能[14]:</p><p>  1、信息職能:是指根據(jù)科學(xué)稅收分析預(yù)測指標(biāo)體系和方法,為各級領(lǐng)導(dǎo)科學(xué)</p><p>  決策和管理采

58、集、處理、傳遞、存儲和提供大量綜合反映稅務(wù)工作和社會經(jīng)濟(jì)信</p><p><b>  息;</b></p><p>  2、咨詢職能:是指利用已經(jīng)掌握的稅務(wù)信息資源,運(yùn)用科學(xué)的分析預(yù)測方法 ,</p><p>  開展稅收分析預(yù)測和專題研究,為各級稅務(wù)部門領(lǐng)導(dǎo)決策和管理提供各種可供選</p><p>  擇的咨詢建議與

59、對策方案;</p><p>  3、監(jiān)督職能:是指根據(jù)稅收分析預(yù)測,及時、準(zhǔn)確地從總體上反映稅務(wù)管理</p><p><b>  8</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  活動和社會經(jīng)濟(jì)運(yùn)行狀態(tài),并對其實(shí)行全面、系統(tǒng)的定量檢查、監(jiān)測和預(yù)警,以使稅務(wù)管理活

60、動充分發(fā)揮職能作用,促進(jìn)國民經(jīng)濟(jì)和社會事業(yè)按照客觀規(guī)律的要求持續(xù)穩(wěn)定協(xié)調(diào)的發(fā)展。</p><p>  雖然數(shù)據(jù)挖掘技術(shù)在稅務(wù)征管系統(tǒng)中的應(yīng)用已經(jīng)取得很大進(jìn)展,但是研究人員所側(cè)重的應(yīng)用目標(biāo)、挖掘的類型、采用的算法等均有所不同,互有優(yōu)劣。由于稅法和稅收政策的差異,以及具體業(yè)務(wù)流程的特點(diǎn),導(dǎo)致了各個系統(tǒng)的功能和側(cè)重點(diǎn)都不盡相同,因此需要針對具體的情況設(shè)計解決方案。</p><p>  我們的納稅

61、人預(yù)警監(jiān)控系統(tǒng)的主要目標(biāo)是建立一個納稅人稅收指標(biāo)預(yù)警監(jiān)控模型,對已有的納稅人的違法事實(shí)與稅收異常行為進(jìn)行相關(guān)分析,應(yīng)用所獲取的知識,將有相似納稅行為的納稅人歸類,并遴選處于離群點(diǎn)位置的、有偷漏稅行為的潛在違法嫌疑的納稅人,實(shí)施重點(diǎn)監(jiān)控和稽查,提高稅務(wù)機(jī)關(guān)征管預(yù)警監(jiān)控的能力和稽查選案的工作效率。</p><p>  系統(tǒng)的開發(fā)環(huán)境如下:</p><p>  開發(fā)工具: 基于 Eclipse3

62、.2(MyEclipse 5.5.1GA 插件)</p><p>  數(shù)據(jù)庫環(huán)境:Oracle10g</p><p>  數(shù)據(jù)挖掘平臺:WEKA3.6</p><p>  操作系統(tǒng): Windows XP</p><p>  運(yùn)行設(shè)備:后臺 PC 服務(wù)器、前端臺式機(jī)</p><p>  2.1.2系統(tǒng)功能</p

63、><p>  目前,金稅工程以總局、省、地市、縣四級稅務(wù)廣域網(wǎng)為依托,實(shí)現(xiàn)了業(yè)</p><p>  務(wù)數(shù)據(jù)省級集中,但技術(shù)方面仍停留在建立數(shù)據(jù)倉庫、實(shí)現(xiàn)報表、查詢和多維分</p><p>  析上,系統(tǒng)運(yùn)行效率不高,分析功能不多,抽取的有價值的信息有限。而隨著經(jīng)</p><p>  濟(jì)的發(fā)展和科學(xué)的進(jìn)步,許多不法企業(yè)游走在偷逃稅款的灰色地帶,利用

64、各種方</p><p>  法弄虛作假,隱瞞應(yīng)納稅額,蒙蔽執(zhí)法機(jī)關(guān),稅務(wù)部門需要一種更先進(jìn)更有效的</p><p>  稽查手段對其進(jìn)行監(jiān)控。顯然,基于傳統(tǒng)事務(wù)處理的查詢、報表工具是無法完成</p><p><b>  這一任務(wù)的。</b></p><p>  因此,納稅人預(yù)警監(jiān)控系統(tǒng)應(yīng)當(dāng)滿足以下功能:</p>

65、;<p> ?。?)建立數(shù)據(jù)倉庫。由于各系統(tǒng)中數(shù)據(jù)格式不一致,且有可能存在大量重</p><p><b>  9</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  復(fù)數(shù)據(jù),在完成系統(tǒng)整合之后還需要對數(shù)據(jù)進(jìn)行整合集中,消除冗余數(shù)據(jù),統(tǒng)一數(shù)據(jù)格式,建立一體化的數(shù)據(jù)存儲環(huán)境。<

66、;/p><p> ?。?)數(shù)據(jù)預(yù)處理(缺失、冗余、不一致、噪音數(shù)據(jù)的判定和處理)。數(shù)據(jù)的質(zhì)量直接決定數(shù)據(jù)挖掘效果的好壞,數(shù)據(jù)質(zhì)量不高會給后續(xù)的加工和分析帶來很大的困難,因此,應(yīng)當(dāng)摸索缺失、冗余、不一致、噪音數(shù)據(jù)的判定和處理的可行方法。</p><p> ?。?)運(yùn)用數(shù)據(jù)挖掘技術(shù),通過聚類分析(基于K-Means或DBSCAN等 )、相關(guān)性分析等方法,建立一個納稅人稅收指標(biāo)預(yù)警監(jiān)控模型,對已有的

67、納稅人的違法事實(shí)與稅收異常行為進(jìn)行相關(guān)分析,應(yīng)用所獲取的知識,遴選處于離群點(diǎn)位置的、有類似行為的潛在違法嫌疑的納稅人,實(shí)施重點(diǎn)監(jiān)控和稽查,提高稅務(wù)機(jī)關(guān)征管預(yù)警監(jiān)控的能力和稽查選案的工作效率。</p><p>  同時,納稅人預(yù)警監(jiān)控系統(tǒng)應(yīng)當(dāng)滿足以下特性:1、實(shí)用性,系統(tǒng)應(yīng)該符合稅收工作實(shí)際要求,滿足領(lǐng)導(dǎo)決策需要。2、準(zhǔn)確性,得出的預(yù)警監(jiān)控模型應(yīng)有較高的置信度,可以明顯地提高稅務(wù)</p><p&

68、gt;  機(jī)關(guān)征管預(yù)警監(jiān)控的能力和稽查選案的工作效率。</p><p>  3、可伸縮性,能夠適應(yīng)大規(guī)模數(shù)據(jù)對象的處理,運(yùn)行時間隨數(shù)據(jù)的規(guī)模以近似線性的方式遞增。</p><p>  4、可擴(kuò)展性,設(shè)計的系統(tǒng)應(yīng)該具備良好的擴(kuò)展能力。5、可視化,具有良好的展現(xiàn)界面,有助于領(lǐng)導(dǎo)更簡潔、更方便地理解數(shù)據(jù)</p><p>  含義、在較高的抽象層次上觀察數(shù)據(jù),做出決策。&l

69、t;/p><p>  2.1.3數(shù)據(jù)說明</p><p>  系統(tǒng)采集的數(shù)據(jù)是廣西省國稅局 2008 年 1 月 1 日到 12 月 31 日的稅收</p><p>  征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù)。數(shù)據(jù)庫版本是 Oracle10g,字符集是 US7ASCII。</p><p>  從稅收征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù)中可以得到納稅人登記信息表(基礎(chǔ)表和<

70、/p><p>  擴(kuò)展表,包括納稅人的登記信息:經(jīng)營范圍、所屬行業(yè)代碼,所屬稅務(wù)機(jī)關(guān)</p><p>  代碼等)、代碼表(行業(yè)代碼、行業(yè)明細(xì)代碼、稅務(wù)機(jī)關(guān)代碼)、增值稅納稅</p><p>  申報表(其中包括銷售收入、已納稅額、所屬期等信息)和所得稅納稅申報</p><p>  表等六張表。表之間的 E-R 關(guān)系圖為:</p>

71、<p><b>  10</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  圖 2-1稅收征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù) E-R 圖</p><p>  各個表的結(jié)構(gòu)說明如下:</p><p><b>  11</b></p>

72、<p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b>  12</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  表 2-2dj_nsrxx_kz(登記_納稅人信息_擴(kuò)展表)</p><p><b>  

73、13</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b>  14</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b>  15</b></p><p&

74、gt;<b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b>  16</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  納稅人信息表(包括基本標(biāo)和擴(kuò)展表)包含了大約 68 萬條數(shù)據(jù),詳盡且全面的描述了屬于廣西省國稅局征管范圍內(nèi)的所有納稅人的信息,包括納稅人名

75、稱、代碼、經(jīng)營內(nèi)容、所屬行業(yè)等。我們可以提取出納稅人識別號作為聚類分析所用結(jié)果事實(shí)表的主鍵,如果通過數(shù)據(jù)挖掘發(fā)現(xiàn)需要進(jìn)行重點(diǎn)稽查的用戶,我們可以根據(jù)納稅人識別號與這兩張表中所提供的信息進(jìn)行對應(yīng),對納稅人進(jìn)行了解和找出進(jìn)行稽查工作所需要的信息如納稅人的名稱、所處經(jīng)營地、聯(lián)系方式等。</p><p>  表 2-3dm_hymx(代碼_行業(yè)明細(xì)表)</p><p>  表 2-4dm_hy

76、(代碼_行業(yè)表)</p><p><b>  17</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  表 2-5dm_swjg(代碼_稅務(wù)機(jī)關(guān)表)</p><p><b>  18</b></p><p><b&

77、gt;  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  代碼表(包括代碼_行業(yè)明細(xì)表、代碼_行業(yè)表和代碼_稅務(wù)機(jī)關(guān)表)包</p><p>  含了納稅人所屬行業(yè)和稅務(wù)機(jī)關(guān)的信息,只有處于同一行業(yè)同一地區(qū)的納稅</p><p>  人所申報的銷售額和納稅額等與稅務(wù)管理和稽查相關(guān)的參考數(shù)據(jù)才有相互</p><p>  比較的價值,也

78、只有當(dāng)同等條件下一個納稅人的銷售額與納稅額相比同一地</p><p>  區(qū)同種行業(yè)的其他納稅人而言明顯偏低或偏高時,才應(yīng)當(dāng)引起稅務(wù)稽查部門</p><p>  的注意。不同地區(qū)或不同行業(yè)的納稅人相互比較是沒有意義的,我們用于數(shù)</p><p>  據(jù)挖掘工作的結(jié)果事實(shí)表通過稅負(fù)差異率(即納稅人的稅負(fù)水平與行業(yè)平均</p><p>  稅負(fù)水

79、平之間的差異)來反映出這一點(diǎn)。</p><p>  表 2-6sb_zzs_2003_ybnsr(申報_增值稅_2003 版_一般納稅人表)</p><p><b>  19</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b>  20</b&g

80、t;</p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  納稅申報表是我們的核心表之一,共包含 28 萬條數(shù)據(jù),描述了納稅人稅收申報的信息。在稅收業(yè)務(wù)中,都是納稅人先自行申報收入,繳納稅款,如果稅務(wù)機(jī)關(guān)發(fā)現(xiàn)納稅人有偷稅嫌疑,才會去稽查,稽查發(fā)現(xiàn)有問題,再補(bǔ)繳稅款并予以處罰的。因此,納稅人申報表對稅務(wù)機(jī)關(guān)進(jìn)行稅收預(yù)測和各級地稅管理層制定決策具有重

81、要參考價值。也是我們進(jìn)行數(shù)據(jù)挖掘,實(shí)現(xiàn)為管</p><p><b>  21</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  理層做出科學(xué)的決策提供幫助、提高稅收征管的質(zhì)量和效率這一目的的過程中所需要特別重視的。</p><p>  2.2 數(shù)據(jù)挖掘子系統(tǒng)的需求分

82、析</p><p>  2.2.1數(shù)據(jù)挖掘子系統(tǒng)概述</p><p>  在實(shí)際的稅收征管過程中,針對不同情況的納稅人所采取的監(jiān)控措施是不一樣的。因此,在進(jìn)行深層次的挖掘分析之前,需要先對納稅人進(jìn)行歸類處理,將具有相似行為的納稅人集中到一起,以方便后續(xù)的分析工作。我們的數(shù)據(jù)挖掘子系統(tǒng)主要集中在對原始數(shù)據(jù)的預(yù)處理和聚類挖掘、結(jié)果分析上。</p><p>  預(yù)處理方

83、面,我們的原始數(shù)據(jù)來自廣西省國稅局 2008 年 1 月 1 日到 12 月 31 日的業(yè)務(wù)數(shù)據(jù)。盡管在核心應(yīng)用系統(tǒng)運(yùn)行前,稅務(wù)部門對歷史數(shù)據(jù)曾組織了大規(guī)模的數(shù)據(jù)審核清理工作,盡可能避免錄入問題數(shù)據(jù),但是業(yè)務(wù)系統(tǒng)的各種數(shù)據(jù)質(zhì)量問題依然普遍存在,包括缺失數(shù)據(jù)、冗余數(shù)據(jù)、不一致數(shù)據(jù)和噪聲數(shù)據(jù)。這些問題數(shù)據(jù)的來源既有歷史導(dǎo)入的,也有前臺錯誤錄入的,還有后臺誤修改或修改不完整導(dǎo)致的。數(shù)據(jù)質(zhì)量不高給后續(xù)加工分析帶來很大的困難,因此要摸索缺失 、冗

84、余、不一致、噪聲數(shù)據(jù)的判定和處理的可行方法。</p><p>  聚類挖掘是根據(jù)納稅人與納稅行為有關(guān)的各種屬性,按照某個特定標(biāo)準(zhǔn)(一般為距離準(zhǔn)則)把所給的數(shù)據(jù)集分割成不同的類或簇(Cluster),使得在同一簇內(nèi)的數(shù)據(jù)對象的相似性盡可能的大,同時不同簇中的數(shù)據(jù)對象的差異性也盡可能的大。也就是說,聚類后同一類別的數(shù)據(jù)盡可能的聚集在一起,而不同的數(shù)據(jù)盡量分離。</p><p>  因為在實(shí)際應(yīng)

85、用中,不同聚類算法產(chǎn)生的結(jié)果會隨著應(yīng)用數(shù)據(jù)的不同而產(chǎn)生變化,并不是所有數(shù)據(jù)挖掘的結(jié)果都是準(zhǔn)確并且有意義的,有些挖掘結(jié)果是沒有意義甚至是與實(shí)際情況相違背的,這就需要對聚類結(jié)果進(jìn)行分析,包括對不同算法產(chǎn)生的結(jié)果的對比以及同種算法在進(jìn)行改進(jìn)前后的對比等,從而選擇出最合適的聚類結(jié)果,為稅收稽查人員按照不同類別對納稅人進(jìn)行有針對性的監(jiān)控管理提供可靠依據(jù)。</p><p><b>  22</b><

86、;/p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  2.2.2數(shù)據(jù)挖掘子系統(tǒng)的需求</p><p>  稅務(wù)稽查的經(jīng)驗表明,納稅人的某種違法行為發(fā)生前,總有一系列的稅收異常行為。如稅負(fù)指標(biāo)反映了納稅人的實(shí)際稅收負(fù)擔(dān)水平,如果納稅人的稅負(fù)明顯低于同行業(yè)其他納稅人,說明納稅人實(shí)際繳納的稅款遠(yuǎn)低于同行業(yè)的平均水平,而納稅人又沒有

87、正當(dāng)理由能夠解釋,則納稅人很可能有偷稅漏稅的違法行為 ;又如納稅人每月納稅申報數(shù)字為零,但發(fā)票的購買量、使用量卻很大,這往往是納稅人虛開增值稅專用發(fā)票犯罪的征兆;再如納稅人明明可以享受增值稅進(jìn)項稅款抵扣的優(yōu)惠,卻長期不去稅務(wù)部門認(rèn)證、沖抵稅款,這很可能是納稅人故意隱瞞進(jìn)項,進(jìn)而隱瞞銷項,掩蓋其現(xiàn)金交易、收入長期不入帳,不申報納稅的偷稅犯罪。因此,數(shù)據(jù)挖掘子系統(tǒng)應(yīng)當(dāng)能夠通過對多個指標(biāo)進(jìn)行考察,從多個方面綜合判斷納稅人是否存在偷漏稅行為。若

88、異常指標(biāo)出現(xiàn)的數(shù)量越多,納稅人偷逃稅款的嫌疑就越大。</p><p>  在稅收實(shí)踐中,通常還需要根據(jù)納稅人行為異常的程度將納稅人劃分為不同類別,設(shè)定不同監(jiān)控等級,并采取重點(diǎn)稽查、一般抽查、日常征管等相應(yīng)的監(jiān)控措施。比如一小部分企業(yè)的銷售額巨大,同時出現(xiàn)了較多的異常指標(biāo),這部分納稅人不多,但涉及的稅額巨大,說明他們有很大偷逃稅款的嫌疑,一旦確認(rèn)出現(xiàn)偷逃稅款的違法行為將對國家財產(chǎn)造成重大損失,應(yīng)當(dāng)加大力度對其進(jìn)行重

89、點(diǎn)監(jiān)控和稽查。如果納稅人有出現(xiàn)異常指標(biāo),但異常指標(biāo)出現(xiàn)的數(shù)量較少,說明納稅人有可能存在輕微的偷漏稅違法行為,需要對這部分納稅人進(jìn)行抽查以示警告,避免其偷逃稅款情節(jié)的加重,導(dǎo)致更大的違法犯罪行為。對于沒有明顯異常行為的納稅人,則按照日常征管的方式進(jìn)行監(jiān)控。因此,聚類分析子系統(tǒng)還應(yīng)該能夠判斷納稅人的監(jiān)控級別,以便稅務(wù)工作人員對其實(shí)施相應(yīng)的征管監(jiān)控措施,提高管理針對性。</p><p>  根據(jù)上述分析,并綜合稅收部門

90、多年的稽查經(jīng)驗,我們的數(shù)據(jù)挖掘子系統(tǒng)擬使用以下四個指標(biāo)作為判斷納稅人類別的標(biāo)準(zhǔn):銷售額(XSE)、購電銷售比差異率(GDXSBCYL)、稅負(fù)差異率(SFCYL)、稅收彈性(SSTX)。我們的數(shù)據(jù)挖掘子系統(tǒng)也是從以上四個維度進(jìn)行挖掘。包含這四個維度的結(jié)果事實(shí)表稱為分戶維度表(FHWDB),其結(jié)構(gòu)如下:</p><p><b>  23</b></p><p><b

91、>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  銷售額維購電銷售比差異</p><p><b>  率維</b></p><p><b>  分戶維度表</b></p><p><b>  稅收彈性維</b></p><p>&

92、lt;b>  稅負(fù)差異率維</b></p><p>  圖 2-2數(shù)據(jù)挖掘的維度說明</p><p>  1、銷售額(XSE)維:</p><p>  銷售額是指企業(yè)自行申報的銷售額。銷售額越大,涉及的稅款越多,越需要重點(diǎn)監(jiān)控。</p><p>  2、購電銷售比差異率(GDXSBCYL)維:</p><

93、;p>  購電銷售比是指單位銷售額的用電數(shù)量,反映企業(yè)的能耗情況,而企業(yè)的能耗情況又可以間接反映其生產(chǎn)情況。購電銷售比差異率大于 0,表明企業(yè)用電多,申報的銷售收入低于行業(yè)平均水平;購電銷售比差異率小于 0,表明企業(yè)用電少,申報的銷售收入高于行業(yè)平均水平。購電銷售比越高,說明可能存在隱瞞銷售收入從而達(dá)到其偷逃稅款的目的,納稅人偷漏稅的嫌疑越大。</p><p>  3、稅負(fù)差異率(SFCYL)維:</

94、p><p>  稅負(fù)是指納稅人的納稅額與銷售額之比,稅負(fù)差異率表明了納稅人的稅</p><p>  負(fù)水平與行業(yè)平均稅負(fù)水平之間的差異。稅負(fù)差異率大于 0,表明納稅人的</p><p>  稅負(fù)低于同行業(yè)其他納稅人;稅負(fù)差異率小于 0,表明納稅人的稅負(fù)重于同</p><p>  行業(yè)的其他納稅人。稅負(fù)差異率越大,表明納稅人的稅負(fù)越輕,納稅人偷漏&

95、lt;/p><p><b>  稅的嫌疑越大。</b></p><p>  4、稅收彈性(SSTX)維:</p><p><b>  24</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  稅收彈性系數(shù)是指納稅人納稅增長的比

96、率與收入增長的比率之比,即稅額的同比增長率/銷售額的同比增長率,理想情況下應(yīng)為 1。稅收彈性小于 0,表明納稅人納稅絕對值減少;大于 0,表明納稅人納稅絕對值增加;稅收彈性在 0 到 1 之間,表明納稅的增長滯后于其收入的增長;大于 1,表明納稅增長快于收入的增長。稅收彈性越小,稅額與銷售額相比增長的越慢,偷漏稅的嫌疑越大。</p><p>  數(shù)據(jù)挖掘子系統(tǒng)的目標(biāo)就是根據(jù)以上四個指標(biāo),采用不同的算法對所給數(shù)據(jù)集

97、進(jìn)行聚類,并且對聚類結(jié)果進(jìn)行分析。目的是盡可能準(zhǔn)確的判斷數(shù)據(jù)集中所包含的記錄哪些應(yīng)該重點(diǎn)稽查,哪些應(yīng)該一般抽查或日常征管,從而為稅收稽查人員按照聚類所產(chǎn)生的不同類別對納稅人進(jìn)行有針對性的監(jiān)控管理提供可靠依據(jù),提高稅務(wù)機(jī)關(guān)征管預(yù)警監(jiān)控的能力和稽查選案的工作效率。</p><p>  2.2.3數(shù)據(jù)說明</p><p>  通過采集工業(yè)企業(yè)一般納稅人稅收征管業(yè)務(wù)多個表關(guān)聯(lián)后的結(jié)果數(shù)據(jù),我們得

98、到稅收彈性表、工業(yè)用電表和稅負(fù)表共三張表。各個表的結(jié)構(gòu)說明如下:</p><p>  表 2-7SSB_SSTX(事實(shí)表_稅收彈性)</p><p><b>  25</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  通過這張表中的字段,我們可以得出納稅人的稅收彈

99、性系數(shù)(SSTX),計算公式為:</p><p>  SSTX = ( SE2 ? SE1) / ( XSE2 ? XSE1 )</p><p><b>  SE1XSE1</b></p><p>  稅收彈性系數(shù)含義是納稅人納稅增長的比率與收入增長的比率之比,即稅額的同比增長率/銷售額的同比增長率,理想情況下應(yīng)為 1。在同等條件下 ,稅收

100、彈性越小表明納稅人偷稅漏稅的可能性越高。</p><p>  表 2-8SSB_GYYD(事實(shí)表_工業(yè)用電)</p><p>  通過這張表中的字段,我們可以得出納稅人的購電銷售比差異率(GDXSBCYL),計算公式為:</p><p><b>  HYXSE</b></p><p>  購電銷售比是指單位銷售額的用電

101、數(shù)量,企業(yè)能耗情況,可以間接反映</p><p>  其生產(chǎn)情況。購電銷售比偏高,反映可能存在隱瞞銷售收入,從而達(dá)到其偷</p><p>  逃稅款的目的。因此,在同等條件下,稅收彈性越小表明納稅人偷稅漏稅的</p><p><b>  可能性越高。</b></p><p><b>  26</b>

102、</p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  在稅收業(yè)務(wù)中,都是納稅人先自行申報收入,繳納稅款,如果稅務(wù)機(jī)關(guān)發(fā)現(xiàn)納稅人有偷稅嫌疑,才會去稽查,稽查發(fā)現(xiàn)有問題,再補(bǔ)繳稅款并予以處罰的。但 GDXSBCYL 中的企業(yè)用電情況,是從第三方獲得的數(shù)據(jù)(即不是納稅人自行申報的),因此購電銷售比差異率(GDXSBCYL)相對更加準(zhǔn)確可靠。</

103、p><p>  表 2-9SSB_SF(事實(shí)表_稅負(fù))</p><p>  通過這張表中的字段,我們可以得出納稅人的稅負(fù)差異率(SFCYL),其計算公式為:</p><p>  SFCYL = (HYSF-QYSF) / HYSF</p><p>  稅負(fù)差異率反映納稅人的稅負(fù)情況與同行業(yè)平均水平相比的差異度,稅</p><

104、p>  負(fù)是即稅收負(fù)擔(dān),是指納稅人的納稅額與銷售額之比,計算公式為:</p><p>  納稅人稅負(fù)= 納稅人納稅額納稅人銷售額</p><p>  稅負(fù)指標(biāo)反映了納稅人的實(shí)際稅收負(fù)擔(dān)水平。稅負(fù)差異率大于 0,表明</p><p>  納稅人稅負(fù)低于同行業(yè)其他納稅人;稅負(fù)差異率小于 0,表明納稅人稅負(fù)重</p><p>  于同行業(yè)的其

105、他納稅人。在同等條件下,稅負(fù)差異率越大表明納稅人偷稅漏</p><p><b>  27</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b>  稅的可能性越大。</b></p><p>  對以上原始數(shù)據(jù)表中的字段進(jìn)行提成和選擇,根據(jù)特定的

106、轉(zhuǎn)換規(guī)則對原</p><p>  始數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行計算和轉(zhuǎn)換,可以得到用于數(shù)據(jù)挖掘工作的結(jié)果集:</p><p>  分戶維度表(FHWDB)。分戶維度表的結(jié)構(gòu)如下:</p><p>  表 2-10FHWDB(分戶維度表)</p><p>  我們的數(shù)據(jù)挖掘子系統(tǒng)就是根據(jù)以上四個指標(biāo),對采用不同的桔類算法</p><

107、;p>  對所給經(jīng)過預(yù)處理的分戶維度表(FHWDB)中的數(shù)據(jù)進(jìn)行聚類,并且對聚</p><p>  類結(jié)果進(jìn)行分析。目的是盡可能準(zhǔn)確的對結(jié)果事實(shí)表中所包含的記錄進(jìn)行分</p><p>  類,判斷哪些納稅人應(yīng)該重點(diǎn)稽查,哪些應(yīng)該一般抽查或日常征管,從而為</p><p>  稅收稽查人員按照聚類所產(chǎn)生的結(jié)果對納稅人進(jìn)行有針對性的監(jiān)控管理提</p>

108、<p><b>  供可靠依據(jù)。</b></p><p>  2.3 數(shù)據(jù)挖掘子系統(tǒng)的結(jié)構(gòu)</p><p>  聚類分析子系統(tǒng)的主要功能是根據(jù)異常指標(biāo)實(shí)現(xiàn)納稅人的自動聚類,并允</p><p>  許用戶以交互的方式設(shè)置一些算法運(yùn)行時的參數(shù)。</p><p>  聚類分析子系統(tǒng)的運(yùn)行流程如下圖所示:</

109、p><p><b>  28</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  根據(jù)數(shù)據(jù)挖掘子系統(tǒng)的目標(biāo)和以上系統(tǒng)流程,我們把數(shù)據(jù)挖掘子系統(tǒng)分為四個層面:原始數(shù)據(jù)層、信息整合層、數(shù)據(jù)挖掘?qū)雍徒Y(jié)果分析層。</p><p><b>  1、原始數(shù)據(jù)層:</b

110、></p><p>  本數(shù)據(jù)挖掘子系統(tǒng)的原始數(shù)據(jù)來源于廣西省國稅局 2008 年 1 月 1 日到 12 月 31 日的稅收征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù)。從稅收征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù)文件導(dǎo)入后,一共有 6 張表:dj_nsrxx(登記_納稅人信息表)、dj_nsrxx_kz(登記_納稅人信息_擴(kuò)展表)、dm_hymx(代碼_行業(yè)明細(xì)表)、dm_hy(代碼_行業(yè)表)、dm_swjg(代碼_稅務(wù)機(jī)關(guān))和 sb_zzs_

111、2003_ybnsr(申報_增值稅_2003 版_一般納稅人表 ),其中核心表(sb_zzs_2003_ybnsr)中包含 28 萬條數(shù)據(jù),納稅人信息表(dj_nsrxx及 dj_nsrxx_kz)中包含 68 萬條數(shù)據(jù),結(jié)果表中單月大約有 1.5 萬條數(shù)據(jù)。從工業(yè)企業(yè)一般納稅人稅收征管業(yè)務(wù)多個表關(guān)聯(lián)后的結(jié)果數(shù)據(jù)文件導(dǎo)入后,一共有</p><p>  張表:SSB_SSTX(事實(shí)表_稅收彈性)、SSB_GYYD(

112、事實(shí)表_工業(yè)用電)和 SSB_SF (事實(shí)表_稅負(fù)),每張表中包含 6745 戶工業(yè)一般納稅人數(shù)據(jù)。</p><p>  圖 2-3數(shù)據(jù)挖掘子系統(tǒng)流程圖</p><p><b>  29</b></p><p><b>  需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p>  盡管在核心應(yīng)用系統(tǒng)運(yùn)行前,

113、稅務(wù)部門對歷史數(shù)據(jù)曾組織了大規(guī)模的數(shù)據(jù)審核清理工作,盡可能避免錄入問題數(shù)據(jù),但是業(yè)務(wù)系統(tǒng)的各種數(shù)據(jù)質(zhì)量問題依然普遍存在,包括缺失數(shù)據(jù)、冗余數(shù)據(jù)、不一致數(shù)據(jù)和噪聲數(shù)據(jù)。這些問題數(shù)據(jù)的來源既有歷史導(dǎo)入的,也有前臺錯誤錄入的,還有后臺誤修改或修改不完整導(dǎo)致的。</p><p><b>  2、信息整合層:</b></p><p>  如果說原始數(shù)據(jù)層是完成對基礎(chǔ)數(shù)據(jù)的管理和

114、存儲,那么信息整合層則是不同來源的基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、清洗、加工、將基礎(chǔ)數(shù)據(jù)從面向應(yīng)用轉(zhuǎn)變?yōu)槊嫦蛑黝}的一個高效數(shù)據(jù)加工工廠。該層根據(jù)元數(shù)據(jù)庫中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對異地異構(gòu)數(shù)據(jù)源進(jìn)行清理、轉(zhuǎn)換,對數(shù)據(jù)進(jìn)行重新組織和加工,最后轉(zhuǎn)化成 Weka 數(shù)據(jù)挖掘平臺所能識別的格式導(dǎo)入 Weka,以便進(jìn)行后續(xù)的挖掘工作。</p><p>  在本文中,信息整合層就是將稅務(wù)信息系統(tǒng)的數(shù)據(jù)進(jìn)行有機(jī)的整合集成

115、而實(shí)現(xiàn)對業(yè)務(wù)應(yīng)用信息數(shù)據(jù)共享的過程。利用信息整合技術(shù),可以有效地消除信息孤島,合理地整合現(xiàn)有及未來的稅收應(yīng)用系統(tǒng)的信息數(shù)據(jù)。</p><p><b>  3、數(shù)據(jù)挖掘?qū)樱?lt;/b></p><p>  數(shù)據(jù)挖掘能夠從大量的數(shù)據(jù)中挖掘出有趣的知識。在稅務(wù)信息系統(tǒng)中,存放的信息主要包括納稅戶的基本情況、納稅戶申報、繳納稅款等信息。我們通過對 Weka 數(shù)據(jù)挖掘平臺下聚類算法

116、的改進(jìn)來對納稅人的納稅情況進(jìn)行考察,查看納稅人的繳納稅款情況,對納稅人進(jìn)行歸類處理,將具有相似行為的納稅人集中到一起,作為稅務(wù)機(jī)關(guān)下一步稽查工作的參考。</p><p><b>  4、結(jié)果分析層:</b></p><p>  我們的數(shù)據(jù)挖掘子系統(tǒng)允許用戶在聚類過程中設(shè)定一些運(yùn)行時的參數(shù),不同的參數(shù)設(shè)置會產(chǎn)生不同的結(jié)果;由于我們對算法進(jìn)行了一系列的改進(jìn),算法改進(jìn)前后也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論