上海論文網是一家老字号代寫網站,專業提供代寫碩士畢業論文服務。

數據挖掘技術在稅務審計中的應用之計算機研究

發布時間:2019-08-01 09:28 論文編輯:vicky 價格: 所屬欄目:計算機論文 關鍵詞: 計算機論文稅務審計數據挖掘

本文是一篇計算機論文,筆者闡述稅務審計的研究背景和研究意義,分析了國内外關于稅務審計的研究現狀以及在當前稅務審計中存在的主要問題,并給出了幾點改進意見。闡述了稅務數據的特

本文是一篇計算機論文,本文詳細分析和總結各項數據挖掘技術的優缺點,并給出了每種技術的具體執行流程;對數據離群點檢測算法進行了分析,對于每種檢測算法闡明了其中存在的優缺點,在一定程度上為第四章節中的數據預處理模塊提供了一定的理論基礎。

1 緒論

1.1 研究背景及意義
2011 年 7 月,國家審計署劉家義審計長在中國審計學會第三次理事論壇上提出[1],“在國家治理中,國家審計實質上是依法用權力監督制約權力的行為,其本質是國家治理這個大系統中的一個内生的具有預防、揭示和抵禦功能的免疫系統,是國家治理的重要組成部分”。
随着市場經濟的高速發展和每年 GDP 的增加效率來看,在國家調控經濟的大背景下,财務審計監督的社會影響力和社會價值越來越被人重視。
現今社會,信息技術尤其是人工智能技術的飛速發展,使得各行各業在其業務拓展領域中或者技術研究部門中都或多或少的引入了人工智能技術,該項技術随着現代計算機的不斷更新和改進,使得幾年來很多中小企業在其産品的制造中加入了一些智能元素在裡面。而在我國的大型企業中,由于其特有的研發部門的存在會使得開展人工智能技術較早。然而,在我們國家的财務審計的調查中[2],存在信息化水平偏低、數據量的急劇增長、審計方法工具落後以及知識範圍有限幾大方面的問題,如果訴諸于計算機智能化技術解決這些問題,那麼就會使得該問題變得簡單。因此采用信息化手段進行審計,構建基于人工智能技術的财務審計新模型,提高審計的效率和質量已經成為當下國家開展市場經濟的必然。
利用計算機技術進行相關的審計活動是指審計人員在财務審計過程中,以人工智能技術為手段所完成的一些審計過程和審計結果。而且數據分析技術作為人工智能技術的主要手段,已被各級審計機關廣泛利用,并取得了很好的效果。随着審計信息化的不斷發展,當前的審計數據分析發展呈現如圖 1.1 所示的三個層次[4]:
第一層次:查詢型分析。根據審計經驗和常規方法,審計人員通過 SQL 等語言或采用開發工具定制查詢軟件,對數據庫中的記錄進行訪問和查詢;
第二層次:驗證型分析。審計人員根據自身對财務審計過程中可能會産生的問題進行假設和預先設定,然後采用相應的數學工具構建審計推演模型,完成假設推斷和論證。
第三層次:發現型分析。事先不提出假設,而是通過從大規模海量審計數據模型中得出的數據構建基于數據發掘技術的審計模型,具有預測未來審計可能的發展趨勢,并為發展潛在的審計威脅奠定基礎。
..................................

1.2 國内外研究現狀
在當今的大數據時代下,從一群大批量無規則無組織的數據中怎樣精确挖掘出商家所需要的信息是現代社會急迫發展的需要,在此情況下,數據發掘理論孕育而生[6-9]。該理論正式提出是在 1980 年在加拿大蒙特利爾舉辦的國際學術會議Knowledge Discovery in Databases 上所提出[10-12]。然後經過了長時間大規模的應用和集成,該技術被廣泛的應用于國防工業、航空航天、智能制造、工業機器人以及相關的工業産業中,所産生的工業附加值也是逐年增長。而且,基于數據發掘理論所形成的的算法也被廣大的學者所研究,其中包括有遺傳算法、IBM 公司開發的 KDD 商業系統等[13-14]。相關的研究在國内外都有一些傑出的工作,比如:國内在财務審計研究中呈現出一些相關的研究者的研究成果,主要集中于采用數據挖掘技術進行審計數據的處理與内部模式的挖掘[15-16],有以下幾個方面:
(1)陳丹萍等[17]研究了基于數據挖掘技術進行在線數據審計的算法,提出了把從審計局獲取的海量審計數據進行審查和分析時,存在一定的可改進的空間,當完成改進之後,審計效率大幅提升,解決了在審計中長期存在的質量低下的問題,确保了審計質量。
(2)陳耿等[18]基于工程學的思想研究了怎樣把審計數據導入工程解題模式中,其中把工程思維重點導入工程技術中,創造了新穎的審計模式新局面,處理和解決了當下審計中較為矛盾的一點問題。
(3)呂新民、王學榮等[19]基于數據挖掘技術在獲取了大批量相關審計數據,再利用數據挖掘技術對其中存在财務問題進行了相關研究,研究表明在當前的财務審計模式中,研究人員進行研究的深度還不夠,該領域中還有待于更深一步的研究和數據挖掘。(4)荊霞等《基于數據挖掘的審計數據分析》[20]文章提出了基于數據挖掘的審計數據分析流程,以及應用 DBSCAN 聚類算法查找審計證據的方法。
...............................

2 稅收業務與數據挖掘

2.1 稅務數據特點
稅務數據往往來源于稅務管理工作中産生的相關數據,這些數據有的來源于企業自身的财務處,有的來源于國家稅務局,而有的則來源于地方稅務局。總體來說,這些數據都是由稅務機關的日常管理業務的信息數據為基礎構成的,從稅務審計管理業務特征對稅務數據進行分析,主要包含以下幾點内容:
(1)易用性
之所以進行稅務數據的數據挖掘的初衷就是為了可以更高效地、更簡單地使用稅務數據,此時要求所構建的模型具有簡單性和可操作性,所構建模型的好壞與否直接影響着數據使用的便捷性。尤其針對現階段網上存在較多的數據源,不同用戶對這些數據構建模型的易用性都有很大的要求,因此,易用性也是設計一個高效可重用模型的關鍵性需求。
(2)安全性
安全性主要針對用戶在構建模型的過程中在模型轉遞以及模型複雜度方面是否做的恰到好處,因為模型較差的泛化性能或者較高的複雜度可能對模型的實際測試使用情況造成較大障礙,在一定程度上不具有安全性,也喪失了模型對于私密性的要求。不法分子甚至會利用所構建模型的漏洞或者洩露的稅務數據勒索錢财,也會把某些企業的資料上傳網絡,這樣就會對某些企業的信息的隐私造成洩露,因此安全性需求是在模型構建過程中較為重要的需求指标。
(3)可靠性
可靠性也是考查一個模型的重要指标,尤其針對用戶在建立模型過程中可能會産生的軟件失效的情況,然而對于軟件失效的頻率統計是衡量一個系統的關鍵因素,對于其他諸如系統失效的嚴重程度、易恢複性程度以及故障可預測性等方面都是較為重要的因素,但是前者是主要因素,後幾者為次要因素。
.........................

2.2 稅務數據源分析
2.2.1 稅務數據的實時性
現如今,在很多重要單位的稅務部門都會采用自己構建或者直接購買成熟的稅務管理系統執行稅務審計方面的工作,該系統可以實時錄入稅務審計的相關信息,甚至可以完成一些較為複雜的浮點運算,然而這些實時錄入的稅務管理信息具有密集型的特點,在很多方面都可以體現很多細節的信息,具有較高的密度性、高粒度性以及較高的實時性[25]。因此,在存儲這些信息的過程中就會産生一些問題,例如到底要構建一個什麼樣的較為規範模型存儲這些數據才可靠、簡潔、安全,或者所存儲的數據庫應該具備怎樣的數據結構和範式,這些都是值得深入思考的問題。因此,本文研究了如何通過讀寫數據事務來進行的數據訪問以及實現數據的在線預處理等,而日程管理流程中産生的數據通常可以較好的反射出納稅企業的稅務審計業務的運作情況和企業納稅的曆史紀錄信息。因此,全部來源于稅務管理信息統計系統的納稅實時錄入信息的數據是稅務軟件數據倉庫管理的重要數據來源,然而這些未經過數據預處理流程的實時數據在進行數據挖掘時。如果直接使用,則所構建的模型的泛化性能就會較差,而且用該模型測試樣本數據不會獲得精确的識别結果,因此需要對原始數據進行數據清理、數據去噪聲、數據處理等操作,這樣才可以在一定程度上提高數據信息的質量,使其可以适應稅務審計系統中數據采集模式的數據轉換模式,提高數據挖掘的效率和執行效果。
2.2.2 稅務數據彙總
所謂稅務數據彙總是指對稅務審計原始數據進行數據預處理後得出的低相關性的數據信息,其中的數據預處理工作過程包括數據優選、誤删除數據的恢複、均值求解、數據求标準差、數據求平方和方差、數據壓縮與變換等[26]。在實際的稅務審計稽查管理工作中,稅務彙總數據包括每月的稅負率、存貨率、稅務繳納報表、速動比率、平均資産淨利率、銷售成本率、企業明細報表、财務費用率、管理費用率、資産負債率、銷售毛利率、存貨周轉率、銷售費用率以及納稅情況等[27],以下闡述了部分稅務彙總數據的具體含義。
............................
3 數據挖掘算法...................................... 16
3.1 決策樹算法...................................... 16
3.1.1 ID3 算法.............................................16