首頁 > 精品范文 > 數(shù)據(jù)分析分析技術(shù)
時間:2023-05-31 15:11:02
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇數(shù)據(jù)分析分析技術(shù)范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。

關(guān)鍵詞 數(shù)據(jù)挖掘技術(shù) 警務系統(tǒng) 數(shù)據(jù)分析 應用
中圖分類號:TP311 文獻標識碼:A
1數(shù)據(jù)挖掘技術(shù)在警務數(shù)據(jù)分析系統(tǒng)中的重要性
警務系統(tǒng)由于工作的特點,要不斷地接受外來數(shù)據(jù)和有序存儲舊數(shù)據(jù),這就對警務系統(tǒng)的數(shù)據(jù)處理系統(tǒng)有越來越高的要求,傳統(tǒng)的警務數(shù)據(jù)處理系統(tǒng)在信息量巨大的現(xiàn)今社會已經(jīng)不能再有效的完善數(shù)據(jù)庫的運行,這就需要新型的數(shù)據(jù)處理系統(tǒng)接替工作。新型的數(shù)據(jù)處理系統(tǒng)在案件的信息提取、視頻分析等方面都應該有卓越的性能,將對案情有幫助的信息從大數(shù)據(jù)庫中有效的提取出來。數(shù)據(jù)挖掘技術(shù)是一項在能夠提高警務系統(tǒng)在數(shù)據(jù)的提取和挖掘效率的一項技術(shù),能在短時間內(nèi)將案件中的數(shù)據(jù)作為數(shù)據(jù)源,將其進行分析和建模,從而從這些數(shù)據(jù)中獲得有力的線索。
2目前警務系統(tǒng)特點
現(xiàn)今的警務系統(tǒng)是跟隨時代不斷發(fā)展的一個工作效率高、工作素質(zhì)強的組織系統(tǒng),有案件處理速度快、案件分析效率高的特點。這些特點,都需要警務系統(tǒng)中數(shù)據(jù)處理系統(tǒng)的有效應用,通過對數(shù)據(jù)的處理分析、檢查對比得出較有價值的案件線索,從而提高效率。警務系統(tǒng)的正常運行離不開數(shù)據(jù)處理系統(tǒng),而數(shù)據(jù)挖掘技術(shù)更是數(shù)據(jù)處理系統(tǒng)的重要組成部分,它確保了整個系統(tǒng)的運行速度,對案件的偵查有促進作用。
3構(gòu)建警務系統(tǒng)數(shù)據(jù)存儲器
基于警務系統(tǒng)的數(shù)據(jù)特點,警務系統(tǒng)應該建立一個高速運行的警務系統(tǒng)數(shù)據(jù)存儲器。“數(shù)據(jù)存儲器”在結(jié)構(gòu)上分為三個部分,分別是關(guān)系系統(tǒng)、OLAP服務器以及客戶處理系統(tǒng)。這三個部分的作用效果如下:
3.1關(guān)系系統(tǒng)
關(guān)系系統(tǒng)是這三個組成部分的基礎部分,這個系統(tǒng)負責對系統(tǒng)中的數(shù)據(jù)進行整理和提取、刷新,將數(shù)據(jù)在整個系統(tǒng)中的存儲位置有序的排列好,防止數(shù)據(jù)丟失和數(shù)據(jù)殘缺的現(xiàn)象發(fā)生。關(guān)系系統(tǒng)在運行的過程中通過警務系統(tǒng)不斷的收集新的信息,將其整理保存,始終將數(shù)據(jù)系統(tǒng)中的有效信息得到較完好的保護。
3.2 OLAP服務器
OLAP是聯(lián)機處理的縮寫,是將多角度的信息共享并由一個關(guān)鍵的出發(fā)點而聯(lián)機進行數(shù)據(jù)處理分析的一個軟件技術(shù),在警務系統(tǒng)中可將需要處理的信息進行聯(lián)機處理分析,將信息較快的處理出來,得到有效的結(jié)論。
3.3客戶處理系統(tǒng)
客戶處理系統(tǒng)是將數(shù)據(jù)進行分析處理以及檢索和報告的一個系統(tǒng),通過對數(shù)據(jù)之間的聯(lián)系將數(shù)據(jù)的信息整理和挖掘出來,形成有用的線索,供警務系統(tǒng)人員進行案件的偵破和處理,是數(shù)據(jù)存儲器的重要部分,特別是數(shù)據(jù)挖掘技術(shù)的應用時整個系統(tǒng)的運作重心。
4數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是將數(shù)據(jù)庫中的數(shù)據(jù)進行采集、集成以及分析的一項技術(shù),其應用到警務系統(tǒng)中可以對案件相關(guān)信息進行檢索和分析,應用了多維數(shù)據(jù)分析處理及關(guān)聯(lián)規(guī)則的應用、聚類分析方法的實際處理等數(shù)據(jù)挖掘分析處理模式將警務系統(tǒng)中的數(shù)據(jù)有效的聯(lián)系起來,形成一個較為完整的數(shù)據(jù)挖掘模式。
在挖掘出境數(shù)據(jù)時,數(shù)據(jù)挖掘技術(shù)的決策樹技術(shù)有效應用,與縣贏得算法技術(shù)相互應,將數(shù)據(jù)較為完整的從警務系統(tǒng)中巨大的信息庫中挖掘出來,實現(xiàn)了數(shù)據(jù)挖掘的分級處理模式的有效應用。
5數(shù)據(jù)挖掘技術(shù)在現(xiàn)代警務系統(tǒng)中的應用
在警務系統(tǒng)中,數(shù)據(jù)挖掘系統(tǒng)在案件的相關(guān)數(shù)據(jù)中整理生成了一個多維數(shù)據(jù)模型,使信息可視化、將案件信息的關(guān)系更加清楚的展現(xiàn)在警務系統(tǒng)的工作人員面前,通過多角度、多方面的分析和挖掘,將系統(tǒng)中的有用信息全部呈現(xiàn)在報告中,實現(xiàn)了信息的有效用。
6結(jié)語
警務系統(tǒng)中的信息有多樣化、復雜化、信息量巨大的特點,使用傳統(tǒng)的數(shù)據(jù)庫是不能按照現(xiàn)代的社會發(fā)展速度生存的,對數(shù)據(jù)進行高效的分析處理和采集,是現(xiàn)代警務數(shù)據(jù)處理系統(tǒng)應該具有的一項特點。在數(shù)據(jù)處理速度快的前提下,數(shù)據(jù)處理系統(tǒng)的管理能力和聯(lián)系能力也應該是突出的,本文中提到的數(shù)據(jù)挖掘技術(shù)就是解決數(shù)據(jù)處理問題的有效解決辦法,其運行通過對數(shù)據(jù)的建模、分析、采集等手段強化了數(shù)據(jù)處理系統(tǒng)的能力,為警務系統(tǒng)中案件處理效率的提升做出了一定的貢獻。目前社會的高速發(fā)展離不開大數(shù)據(jù)的支持,大數(shù)據(jù)時代對數(shù)據(jù)的處理系統(tǒng)要求越來越高,數(shù)據(jù)挖掘技術(shù)近些年在警務信息系統(tǒng)中的引用為警務系統(tǒng)的發(fā)展提供了技術(shù)上的有效支持,警務系統(tǒng)未來的發(fā)展肯定也離不開數(shù)據(jù)的有效處理工作,數(shù)據(jù)挖掘系統(tǒng)在未來的警務數(shù)據(jù)分析系統(tǒng)中也會有不斷地改善和提高。
參考文獻
[1] 劉敏,朱鵬,方有軒.面向市場分析人員的經(jīng)分模型庫的設計與實現(xiàn)[J].電腦與電信,2016(09) .
1計算機大數(shù)據(jù)分析中云計算技術(shù)作用分析
云計算技術(shù)可以給提供計算機數(shù)據(jù)傳遞與共享的條件,融合軟硬件數(shù)據(jù)保存,促進計算機處理工作更好的開展。云計算技術(shù)可以給用戶提供良好的網(wǎng)絡環(huán)境與保存空間,處理數(shù)據(jù)傳遞環(huán)節(jié)的各項問題。與傳統(tǒng)大數(shù)據(jù)分析技術(shù)相比,云計算計算可以提高大數(shù)據(jù)分析質(zhì)量。人們借助云計算技術(shù)獲得云終端的數(shù)據(jù),切實滿足人們對于數(shù)據(jù)的需求。現(xiàn)階段計算機市場形成完善的結(jié)構(gòu)體系,圍繞云計算技術(shù)推動計算機大數(shù)據(jù)分析工作的開展,奠定后期云計算技術(shù)發(fā)展的基礎。目前,人們生活中全面運用云計算技術(shù),基于云計算技術(shù)研發(fā)的服務器及操作系統(tǒng)方便人們處理各類信息技術(shù)。同時,云計算技術(shù)數(shù)據(jù)保存有著較強的安全性,極小可能出現(xiàn)數(shù)據(jù)丟失情況,滿足人們的實際需求,直接體現(xiàn)出云計算技術(shù)的優(yōu)勢。優(yōu)化云計算環(huán)境下計算機的數(shù)據(jù)處理中心,就可以不斷提升計算機的云計算能力,讓云計算不僅為網(wǎng)絡信息所用,還在計算機網(wǎng)絡安全中發(fā)揮極為重要的作用。目前,計算機的使用人群更為注重的是在高速發(fā)達的信息社會,自己的信息,也就是使用計算機網(wǎng)絡的安全性能是否能得到保障,這時候考驗的就是云計系統(tǒng)的完善性。目前存在的最主要計算機安全問題就是黑客問題和系統(tǒng)漏洞問題。系統(tǒng)漏洞這一人為因素可以通過不斷檢索進行漏洞的發(fā)現(xiàn)和修補,面對黑客的攻擊,能夠做的就是防患于未然,不斷地升級和優(yōu)化系統(tǒng),最終達到完善的數(shù)據(jù)處理效果。
2云計算技術(shù)下計算機大數(shù)據(jù)分析面臨的問題
2.1網(wǎng)絡技術(shù)安全
由于相關(guān)技術(shù)的不斷發(fā)展,云計算環(huán)境下的網(wǎng)絡安全技術(shù)正在朝著穩(wěn)定和成熟的方向發(fā)展,但在具體的應用過程中依然表現(xiàn)出一定的網(wǎng)絡安全問題,因此用戶在使用過程中應該做好相關(guān)的應對工作。網(wǎng)絡安全問題具體表現(xiàn)在用戶在使用信息傳輸?shù)倪^程中,一旦出現(xiàn)服務性中斷問題,難以保證數(shù)據(jù)的安全性,啟動被動保護模式的情況使信息的安全性更加難以保障,這也成為云計算模式下的網(wǎng)絡技術(shù)安全中的重點問題,一旦得不到及時有效的解決,用戶在使用過程中就會受到不同程度的威脅。
2.2網(wǎng)絡環(huán)境安全
網(wǎng)絡環(huán)境安全是保證網(wǎng)絡正常使用,信息傳輸質(zhì)量有保證的重要前提,一旦網(wǎng)絡環(huán)境存在不安全因素,將會引發(fā)病毒的入侵和黑客的攻擊。因此網(wǎng)絡環(huán)境安全也是云計算技術(shù)價值得以發(fā)揮的重要前提。計算機在使用過程中如果長期受到病毒的困擾和黑客的威脅,將會降低人們對計算機的信賴性,甚至在工作和生活中將會在網(wǎng)絡環(huán)境安全方面投入更多的成本。
3計算機大數(shù)據(jù)分析中云計算技術(shù)的具體應用
3.1數(shù)據(jù)傳輸安全分析
在云計算的作用下,云安全含義逐漸形成,具體來說,云安全主要指在用戶借助云計算技術(shù)來實現(xiàn)計算機大數(shù)據(jù)分析時,讓數(shù)據(jù)安全性得到了保證。用戶端數(shù)據(jù)和數(shù)據(jù)安全往往呈現(xiàn)出正比關(guān)系,隨著應用群體數(shù)量的增多,涉及的計算機數(shù)據(jù)范疇將不斷擴充,假設計算機遭受病毒的攻擊,可以在云計算技術(shù)的作用下實現(xiàn)病毒的攔截,以此讓計算機數(shù)據(jù)安全性得到保證。從云計算技術(shù)自身角度來說,其提供的各個服務均是由IaaS基礎設施級服務以及PaaS平臺級服務兩項內(nèi)容構(gòu)建而成。首先,IaaS基礎設施級服務其作用在于,可以給用戶提供對應的服務,也就是對各個計算機基礎設備進行操作和應用,其中包含了CPU處理、數(shù)據(jù)保存、數(shù)據(jù)傳遞等。其次,PaaS平臺級服務則是指,把云計算中各個服務器及開發(fā)環(huán)境當作服務,通過PaaS平臺用戶能夠結(jié)合自身需求實現(xiàn)對應操作流程的部署和應用。
3.2監(jiān)督數(shù)據(jù)資源共享
網(wǎng)絡資源在傳輸過程中遭遇到的安全威脅是用戶時時刻刻關(guān)注的問題,因此在具體的工作和管理中,需要提高云計算網(wǎng)絡安全技術(shù)的應用程度,通過不斷創(chuàng)新安全模式,完善相應的防護體系,從而有效消除安全性問題,提升數(shù)據(jù)傳輸?shù)陌踩院头€(wěn)定性。具體在應用過程中,可以借助云計算技術(shù)的優(yōu)勢,對數(shù)據(jù)傳輸?shù)恼麄€路徑進行監(jiān)控,保證傳輸通道環(huán)境的安全性,一旦出現(xiàn)問題及時進行預警,有效預防黑客的攻擊,降低網(wǎng)絡安全事故發(fā)生的概率。對此,有關(guān)部門應該提高重視程度,同時完善相應的監(jiān)督管理制度,采用科學的管理方式,實現(xiàn)預期的監(jiān)測目標。
3.3提高數(shù)據(jù)使用安全
計算機用戶本身的安全意識也是當前需要關(guān)注的重要方面,為了進一步提升用戶數(shù)據(jù)信息和計算機系統(tǒng)的安全系數(shù),需要重視身份認證工作的提升,具體可以使用實名制的方式進行認證處理,從而不斷提升整個網(wǎng)絡結(jié)構(gòu)的安全性。對于網(wǎng)絡應用過程中涉及到的安全問題,可以通過實名追蹤的方式進行可疑目標鎖定,從而有效控制惡意攻擊情況的發(fā)生。但在應用過程中也需要重視假人名情況的出現(xiàn),提高網(wǎng)絡數(shù)據(jù)信息竊取的預防水平。計算機網(wǎng)絡環(huán)境算是一種相對開放的環(huán)境,在使用過程中會面向大量的用戶,通過重視用戶的身份認證,可以有效避免用戶對數(shù)據(jù)的非法訪問。同時在使用者進行計算機登錄和使用的時候,需要對用戶名和密碼進行核實。按照權(quán)限的不同,確保數(shù)據(jù)庫信息的安全有效性。通過對數(shù)據(jù)庫信息加密處理,可以確保數(shù)據(jù)庫信息的安全性。這種加密處理可以在原有數(shù)據(jù)信息的基礎上進行算法的處理改進,使用者可以通過自身的權(quán)限獲取想要了解的信息,如果沒有解密方式,不法分子將會難以獲取數(shù)據(jù)的原始信息。
3.4網(wǎng)絡安全等級防護
在云計算環(huán)境下的安全管理中心具備系統(tǒng)管理、安全管理和安全審計等功能,能夠滿足不同云計算環(huán)境下不同安全等級的保護要求,并且通過服務層的安全保護框架,實現(xiàn)對不同等級云服務客戶端的安全保護,為使用者提供安全可靠的資源訪問服務。在訪問云服務商時,用戶可通過通信網(wǎng)絡、API接口和Web服務方式訪問云服務器,但是用戶終端系統(tǒng)的安全防護不在網(wǎng)絡安全等級保護框架體系內(nèi)。在保護框架體系內(nèi),資源層和服務層安全是云計算環(huán)境安全保護的重點,資源層包括物理資源安全和虛擬資源安全,應按照安全設計要求構(gòu)建資源層安全保護框架。云計算環(huán)境下的網(wǎng)絡安全等級保護要針對不同等級云計算平臺確定不同的安全目標,一般情況下安全保護等級最低為二級,并根據(jù)安全目標和等級要求實施安全設計步驟,具體包括:第一步,根據(jù)云平臺的租戶數(shù)量和業(yè)務系統(tǒng)情況確定云計算安全保護標準,制定云計算平臺的安全保護策略,以避免在云計算平臺上發(fā)生安全事件;第二步,細化安全技術(shù)要求,針對安全計算環(huán)境、安全區(qū)域邊界、安全通信網(wǎng)絡以及安全管理中心制定出相應的安全保護策略;第三步,根據(jù)云計算功能框架中的各層功能和保護要求,制定安全技術(shù)機制,使其滿足云計算功能框架的安全保護要求。在完成云計算環(huán)境下的網(wǎng)絡安全等級保護設計之后,還應增加虛擬化安全、鏡像安全、接口安全等安全控制點,并采用訪問控制技術(shù)、身份識別技術(shù)等安全防護技術(shù),實現(xiàn)與云計算平臺上各功能層次的對接,提出各層的安全保護措施。
3.5重視相應程序開發(fā)
網(wǎng)絡安全應用程序需要隨著技術(shù)的進步和人們生活和工作的需要進行逐步提升,從而及時對病毒程序進行開發(fā)和處理,確保計算機系統(tǒng)可以敏銳捕捉到病毒的活動跡象,提升自身的防御能力。通常情況下,對于計算機的服務,內(nèi)網(wǎng)隱蔽處理,可以提升網(wǎng)站平臺的訪問速度,可以避免不安全網(wǎng)址帶來的不良效應,從而為計算機的安全防御提供一定的屏障。在計算機數(shù)據(jù)的使用中,由于安全性威脅導致的數(shù)據(jù)丟失問題,可以通過備份和恢復改善。這種恢復性功能也可以保證數(shù)據(jù)的一致性和完整性。通常由邏輯備份、動態(tài)備份以及靜態(tài)備份等幾種情況。計算機黑客數(shù)量增多,凈化網(wǎng)絡環(huán)境顯然存在較大難度,但通過必要的防范措施依然可以在數(shù)據(jù)庫信息的保護中起到關(guān)鍵作用。而使用防火墻保護工具就能很好的為計算機網(wǎng)絡提供一種安全保障。通過防火墻,可以在一定程度上防止黑客的侵害。
關(guān)鍵詞:油田生產(chǎn);大數(shù)據(jù);數(shù)據(jù)挖掘
前言
新疆油田重油開發(fā)公司是以稠油開采為主的采油廠。有著將近10年的數(shù)字油田建設歷史。而且中心數(shù)據(jù)庫已經(jīng)做得很成熟,主要包括五大業(yè)務板塊數(shù)據(jù)。即勘探業(yè)務板塊、開發(fā)業(yè)務板塊、生產(chǎn)業(yè)務板塊、經(jīng)營業(yè)務板塊的數(shù)據(jù)庫。數(shù)據(jù)庫包括的內(nèi)容主要有單井、區(qū)塊的日月報數(shù)據(jù)、試井與生產(chǎn)測井數(shù)據(jù)、分析化驗數(shù)據(jù)、井下作業(yè)和地理信息數(shù)據(jù)等。數(shù)據(jù)庫的數(shù)據(jù)資源種類齊全,質(zhì)量高。2010年新疆油田重油開發(fā)公司正式開始進行智能化油田建設工作,利用物聯(lián)網(wǎng)診斷單井問題,使用大數(shù)據(jù)技術(shù)對油田進行全面感知、分析預測、優(yōu)化決策找到油水井的生產(chǎn)規(guī)律,從而有助于油田生產(chǎn)工作進行。
1 油田大數(shù)據(jù)的概念及處理流程
大數(shù)據(jù)有四個特點即量大(Volume)、快速生產(chǎn)(Velocity)、類型豐富(Variety)、真實性(Veracity),被稱為4V[1]。由于數(shù)據(jù)的數(shù)量非常大,就將數(shù)據(jù)組成數(shù)據(jù)集,進行管理、處理實現(xiàn)數(shù)據(jù)的價值。大數(shù)據(jù)對數(shù)據(jù)庫的整理流程是將數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識,再將知識轉(zhuǎn)化為智慧。這個過程應用于油田可以理解為是對油田的生產(chǎn)和管理工作。大數(shù)據(jù)的七個處理步驟包括:對數(shù)據(jù)的提取和收集、清洗數(shù)據(jù)、分析數(shù)據(jù)找到潛在的內(nèi)在價值規(guī)律、建立預測模型、對結(jié)果進行可視化的估計、驗證結(jié)果、評估模型。
2 大數(shù)據(jù)分析平臺及體系架構(gòu)研究
新疆油田為了滿足生產(chǎn)應用,構(gòu)建了一個有效的大數(shù)據(jù)分析平臺及體系架構(gòu)。此平臺主要包括四個基礎架構(gòu):數(shù)據(jù)抽取平臺、進行分布式的存儲平臺、大數(shù)據(jù)的分析與展示平臺。最底層是數(shù)據(jù)抽取平臺主要是實現(xiàn)數(shù)據(jù)的整合,將數(shù)據(jù)轉(zhuǎn)化成適合進行數(shù)據(jù)挖掘或者建模的形式,構(gòu)建可靠的樣本數(shù)據(jù)集。存儲平臺主要是對數(shù)據(jù)進行匯總、建模、分析,最后將處理好的數(shù)據(jù)進行儲存。其功能與數(shù)據(jù)倉庫相似。大數(shù)據(jù)分析層,是在大數(shù)據(jù)建模的工具和算法基礎上,挖掘隱藏的數(shù)據(jù)模式和關(guān)系,利用數(shù)據(jù)軟件進行分類、建模,生成預測的結(jié)果,結(jié)合專家經(jīng)驗利用測試的樣本選定評價方案不斷提高模型的精度,更好的用于油田的決策。數(shù)據(jù)應用層主要是把建立的模型設計為運行軟件,運用建模方法實現(xiàn)數(shù)據(jù)的可視化界面設計,更好的實現(xiàn)人機交互。
3 大數(shù)據(jù)分析技術(shù)研究
進行大數(shù)據(jù)分析時我們經(jīng)常采用兩大技術(shù)即大數(shù)據(jù)預處理和抽取技術(shù),大數(shù)據(jù)分析技術(shù)。
3.1 大數(shù)據(jù)抽取及預處理技術(shù)
大數(shù)據(jù)預處理和抽取技術(shù)的原理是指將不同名稱,不同時間,不同地點的多種不同結(jié)構(gòu)和類別的數(shù)據(jù)抽取處理成一種所表達的算法和內(nèi)涵一致便于處理類型的數(shù)據(jù)結(jié)構(gòu)[2]。在檢查數(shù)據(jù)缺失、數(shù)據(jù)異常時可以使用數(shù)據(jù)清洗方法確定有用的數(shù)據(jù),一般采用剔除法或估計值法、填補平均值替換錯誤的數(shù)據(jù)。為了滿足建模所需的大量數(shù)據(jù),創(chuàng)建新的字段時需要進行數(shù)據(jù)庫的構(gòu)建。將原始數(shù)據(jù)用一定的方法如歸一法轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的數(shù)據(jù),這個過程為數(shù)據(jù)轉(zhuǎn)換。
3.2 大數(shù)據(jù)分析技術(shù)
應用于油田的大數(shù)據(jù)分析技術(shù)為:因子分析技術(shù)、聚類分析技術(shù)、回歸分析技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中的因子分析技術(shù)是指,利用少數(shù)的因子對多個指標和因素間的相關(guān)性進行描述,一般將密切相關(guān)的多個變量歸納為一類,這一類數(shù)據(jù)就屬于一個影響因子,用較少的因子反應大量數(shù)據(jù)的信息。聚類分析技術(shù)是指把具有某種共同特性的事物或者物體歸屬于一個類型,并按照這些特性劃分為幾個類別,同種類型的事物相似性較高。這樣更利于辨別預先未知的事物特征。回歸分析是指在一組數(shù)據(jù)的基礎之上,研究一個變量和其他變量間隱藏的關(guān)系。利用回歸方程,進行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復雜關(guān)系簡單得表示出來。
在使用大數(shù)據(jù)進行分析時,數(shù)據(jù)挖掘技術(shù)是最關(guān)鍵的一門技術(shù)。該技術(shù)將大量復雜的、隨機性的、模糊的、不完整的數(shù)據(jù)進行分析,挖掘出對人類未來有用的數(shù)據(jù),即提前獲得未知信息的過程[3]。數(shù)據(jù)挖掘功能分為預測功能和描述功能。數(shù)據(jù)預測是指對數(shù)據(jù)進行處理推算,完成預測的目的。數(shù)據(jù)描述是展現(xiàn)集體數(shù)據(jù)的特性。數(shù)據(jù)挖掘功能是與數(shù)據(jù)的目標類型有關(guān),有的功能適用于不同類型的數(shù)據(jù),有的功能則只適用于特定功能的數(shù)據(jù)。數(shù)據(jù)挖掘的作用就是讓人們能夠提前得到未知的消息,提升數(shù)據(jù)的有效性,使其可以應用于不同的領域。
4 大數(shù)據(jù)分析在油田生產(chǎn)中的應用研究
4.1 異常井自動識別
油田生產(chǎn)過程中影響最大的一個因素是異常井的出現(xiàn),因此生產(chǎn)管理人員加大了對異常井的重視。最初,異常井的識別主要是依靠生產(chǎn)部門的生產(chǎn)人員,必須經(jīng)過人工查閱許多關(guān)于油田生產(chǎn)的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說大量的檢索工作、耗費時間長等,對異常井的診斷和措施制定造成很大的困難。異常井是指油井當天的產(chǎn)油量和上個月相比波動很大,并大于正常的波動范圍。目前廣泛采用數(shù)據(jù)挖掘技術(shù)和聚類分析技術(shù)對異常井進行識別,提高效率。為了實現(xiàn)算法編譯使用技術(shù),系統(tǒng)架構(gòu)B/S模式進行,能夠及時發(fā)現(xiàn)異常井的存在。
4.2 異常井智能診斷
異常井診斷是油田每天進行生產(chǎn)必須要完成的工序。而大部分油田采用人工方法對其進行異常診斷,工作量極大,影響因素較多,診斷結(jié)果的可靠性較低,對后期進行計劃實施造成很大的影響。這時可以采用智能診斷方法,利用灰度圖像處理技術(shù)和人臉識別算法建立抽油井的特征功圖庫,對比油井當前的功圖和所建立的特征功圖,實現(xiàn)異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時一種工況可能會有許多中表現(xiàn)方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個工況下關(guān)聯(lián)的因子間是如何變化,然后建立參數(shù)診斷數(shù)據(jù)庫,對比相關(guān)因子的指標項,找到異常的原因,采取適合的方案進行修改,從而提高單井的生產(chǎn)效率。
4.3 間抽井開關(guān)井計劃制訂
當油田開發(fā)進入后期階段就會出現(xiàn)很多問題,過度開發(fā)使得地層的能量越來越少,致使更多供液不足的井開發(fā)出來。將這類井稱之為間歇出油井。新疆油田一般會使用人工方法制訂間歇出油井的開關(guān)時間計劃,但是對于計劃的合理性沒有進行檢驗。若是能夠控制好間歇出油井的開關(guān)時間,對油田實現(xiàn)節(jié)能減排是至關(guān)重要的。這時可以采用因子分析方法和回歸分析法進行研究,利用數(shù)據(jù)挖掘技術(shù)找出影響間歇出油井的開關(guān)時間的因素,建立合適的分析模型,對模型進行線性回歸,進行歸一化處理。從而為業(yè)務人員提供制訂間歇出油井開關(guān)時間的合理方案,達到節(jié)能減排的效果。
4.4 油井清防蠟預測
目前油田上對于油井清蠟采取平均每口井一個月清洗一次蠟的措施,按照人工計劃進行,出現(xiàn)了許多問題。比如,一些井還沒有結(jié)蠟就已被清洗,有些井已經(jīng)結(jié)蠟,卻沒有得到及時清洗。這樣既浪費大量的人力物力,而且還對油田的生產(chǎn)效率產(chǎn)生不利影響。若是利用因子分析法,將收集的關(guān)于結(jié)蠟周期、清蠟方式、清蠟用量、油井狀況等數(shù)據(jù)進行分析,建立油井Y蠟模型,再利用回歸分析法對建立的模型建立曲線方程,進行預測,找到結(jié)蠟時間,推斷出結(jié)蠟周期,更好的指導油田清蠟工序的進行,提高油田的精細化管理。
5 結(jié)束語
總之,對比以前利用人工進行油田生產(chǎn)可以發(fā)現(xiàn)大數(shù)據(jù)對于油田生產(chǎn)是非常必要的,可以更快的挖掘油田的生產(chǎn)作業(yè)規(guī)律,解決油田生產(chǎn)的困難。而且,可以利用油田數(shù)據(jù)進行可視化分析,關(guān)注問題的主要影響因素找到管理中存在的不足,預防未來問題的出現(xiàn)。大數(shù)據(jù)的核心價值就是通過以往大量數(shù)據(jù)進行分析,預測出未來,從而更好地指導油田的生產(chǎn)工作。
參考文獻
[1]楊澤民.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013(11):71-72.
論文摘要:電子商務(EC)在現(xiàn)代商務企業(yè)的發(fā)展中占有越來越重要的地位。如何利用信息技術(shù)掌握更多的商務信息已備受商家們的關(guān)注,站點分析技術(shù)正是為商家和網(wǎng)站提供了這樣一種有效的分析工具。
本文討論了一些站點分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉庫的相關(guān)理論知識。并對站點日志數(shù)據(jù)進行了實例分析,并指出了站點分析技術(shù)發(fā)展的方向。
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟帶來新的革命,從而也影響著人們的生活。互聯(lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對廣大網(wǎng)民的信息載體,企業(yè)通過這一載體,可以自由地將企業(yè)的產(chǎn)品、服務等其他相關(guān)信息在線。
電子商務就是網(wǎng)上實行各種商務活動的總包裝,種種所謂電子商務解決方案,實際上就是實現(xiàn)各種網(wǎng)上商務活動的硬件與軟件系統(tǒng)。它將影響到每一個人、每一個企業(yè)。電子商務的主體是我們每一個人、每一個企業(yè),電子商務發(fā)展的過程就是對人們的生活、企業(yè)的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機。
電子商務站點用戶行為的分析這一問題也因此成為現(xiàn)如今的熱門話題,被人們普遍關(guān)心起來,尤其是被眾商家所重視。Web站點的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點用戶行為分析就可為網(wǎng)站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業(yè)廣告點擊情況總括、產(chǎn)品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據(jù)不同的頁面內(nèi)容來分類瀏覽者,以便做出更合理的頁面分類,促使網(wǎng)站逐步向個性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對信息技術(shù)亦將產(chǎn)生深遠的影響。
在電子商務早期階段時,Web站點數(shù)據(jù)流分析通常是在主頁上安裝計數(shù)器以及在一個外部日志文件上運行簡單的統(tǒng)計程序記錄點擊率。但是,簡單的點擊計數(shù)既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司W(wǎng)eb站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務器的訪問日志。每當用戶在站點上請求一個網(wǎng)頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網(wǎng)頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習慣的詳細報告。
二、站點信息統(tǒng)計方法
Web頁面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計算機網(wǎng)絡技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒有模式的無序數(shù)據(jù)之間,在查詢前無法預先確定其具體的類型和格式;同時它們相應的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進行抽取。而有時,盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點:
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時部分數(shù)據(jù)根本無結(jié)構(gòu),而部分數(shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫使用嚴格的分類策略來保護數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過當前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導。模式有時可被忽略,同時數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁面的數(shù)據(jù)通常是利用統(tǒng)計模型和數(shù)學模型來分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統(tǒng)計分析工具能提供可視化功能和分析功能來尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來分析、解釋數(shù)據(jù)。并通過交互式過程和迭代過程用來求精模型,最終開發(fā)出最具適應性的模型來將數(shù)據(jù)轉(zhuǎn)化為有價值的信息。
知識發(fā)現(xiàn)是從數(shù)據(jù)倉庫的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢并發(fā)掘?qū)嵤K欠治鯳eb頁面數(shù)據(jù)的重要方法。知識發(fā)現(xiàn)與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數(shù)據(jù)倉庫的條目和對象,從中尋找重復出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對象的信息來推斷另一數(shù)據(jù)對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經(jīng)過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數(shù)據(jù)類,用聚類算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類或懷疑的數(shù)據(jù)類。聚類的過程是以某一特定時間為依據(jù),找出一個共享一些公共類別的群體,它稱為無監(jiān)督學習。分類過程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類很少在關(guān)系數(shù)據(jù)庫中進行定義,因而規(guī)范的數(shù)據(jù)模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監(jiān)督學習。
3.神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡通過學習待分析數(shù)據(jù)中的模式來構(gòu)造模型。它對隱式類型進行分類。圖像分析是神經(jīng)網(wǎng)絡最成功的應用之一。神經(jīng)網(wǎng)絡用于模型化非線性的、復雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個層次組成:數(shù)據(jù)倉庫數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當?shù)臄?shù)據(jù)庫示例來訓練和學習、校正預測的模型,提高預測結(jié)果的準確性。
4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個重要內(nèi)容,通常關(guān)聯(lián)規(guī)則反映的是數(shù)據(jù)間的定性關(guān)聯(lián)關(guān)系。如一個商品交易數(shù)據(jù)庫,一條記錄表示用戶一次購買的商品種類,每個屬性(A、B……)代表一種商品,每個屬性都是布爾類型的。一條關(guān)聯(lián)規(guī)則的例子是:{A、B}{D}[2%][60%],規(guī)則的含義是“如果用戶購買商品A和B,那么也可能購買商品D,因為同時購買商品A、B和D的交易記錄占總交易數(shù)的2%而購買A和B的交易中,有60%的交易也包含D”。規(guī)則中60%是規(guī)則的信任度,2%是規(guī)則的支持度。數(shù)據(jù)挖掘就是要發(fā)現(xiàn)所有滿足用戶定義的最小信任度和支持度閥值限制的關(guān)聯(lián)規(guī)則。數(shù)據(jù)只是定性地描述一個交易是否包含某商品,而對交易量沒有定量描述,這種布爾類型數(shù)據(jù)間的關(guān)聯(lián)規(guī)則被稱為定性關(guān)聯(lián)規(guī)則。但數(shù)據(jù)記錄的屬性往往是數(shù)值型或字符型的,這些數(shù)據(jù)間也存在對決策有幫助的關(guān)聯(lián)規(guī)則,相對于定性關(guān)聯(lián)規(guī)則,這些規(guī)則被稱為定量關(guān)聯(lián)規(guī)則。
另外,數(shù)據(jù)挖掘目前仍面臨著數(shù)據(jù)質(zhì)量的問題。由于數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個數(shù)據(jù)源,而在合并中存在很多障礙,如:沒有建立合并視圖所需的公共關(guān)鍵字;數(shù)據(jù)值相互抵觸;元數(shù)據(jù)的說明不完備或丟失;數(shù)據(jù)值的不潔凈等等。數(shù)據(jù)挖掘是在標準化的數(shù)據(jù)基礎上進行的,因而這些都會嚴重破壞數(shù)據(jù)的準確性,導致最終決策的失誤。所有這些問題都在等待著人們?nèi)グl(fā)掘更好的解決方法。
參考資料
1.周斌,吳泉源,高洪奎:“用戶訪問模式數(shù)據(jù)挖掘的模型與算法研究”,《計算機研究與發(fā)展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
4.Inmon,William H,Building the DataWarehouse(2nd ed.).Wiley.NewYork(1996);
【關(guān)鍵詞】Hadoop 電力行業(yè) 大數(shù)據(jù)分析
隨著互聯(lián)網(wǎng)+時代的到來,各行業(yè)數(shù)據(jù)的共享與融合越來越迫切。電力生產(chǎn)關(guān)系民生和經(jīng)濟發(fā)展,隨著電力信息化的發(fā)展,涉及發(fā)電、輸電、變電、配電、用電等各個環(huán)節(jié)的數(shù)據(jù)呈爆發(fā)性增長,PB數(shù)量級的數(shù)據(jù),已無法通過傳統(tǒng)的數(shù)據(jù)管理、抽取、分析技術(shù)挖掘數(shù)據(jù)間的多重關(guān)聯(lián)關(guān)系,從而更有效的實現(xiàn)電力風險預警,提高生產(chǎn)效率和智能調(diào)度功能。
1 Hadoop平臺介紹
Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統(tǒng)和MapReduce為核心的Hadoop為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎架構(gòu)。HDFS的高容錯性、高伸縮性等優(yōu)點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng),MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并行應用程序。所以用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數(shù)據(jù)的處理。
Avro是doug cutting主持的RPC項目,有點類似Google的protobuf和Facebook的thrift。是用于數(shù)據(jù)序列化的系統(tǒng)。提供了豐富的數(shù)據(jù)結(jié)構(gòu)類型、快速可壓縮的二進制數(shù)據(jù)格式、存儲持久性數(shù)據(jù)的文件集、遠程PRC調(diào)用以及簡單的動態(tài)語言集成功能。
實現(xiàn)了MapReduce編程框架,用于大規(guī)模數(shù)據(jù)集的并行運算。能夠使編程人員在不理解分布式并行編程概念的情況下也能方便將自己的程序運行在分布式系統(tǒng)上。
HDFS分布式文件系統(tǒng),其設計目標包括:檢測和快速恢復硬件故障;數(shù)據(jù)流的訪問;簡化一致性模型等。
Zookeeper是Google的Chubby一個開源的實現(xiàn)。它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關(guān)鍵服務,將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。
Pig是SQL-like語言,是在MapReduce上構(gòu)建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Yahoo網(wǎng)格運算部門開發(fā)的又一個克隆Google的項目Sawzall。
Chukwa是基于Hadoop的大集群監(jiān)控系統(tǒng),是開源的數(shù)據(jù)搜集系統(tǒng)。通過HDFS來存儲數(shù)據(jù),并依賴MapReduce來處理數(shù)據(jù)。
2 數(shù)據(jù)抽取分析模型
目前電力行業(yè)數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)如常規(guī)oracle,MySQL等數(shù)據(jù)庫類型,同時也存在大量log日志文件,e文件等非結(jié)構(gòu)化數(shù)據(jù),為能全面有效的實現(xiàn)多業(yè)務,多數(shù)據(jù)綜合建模分析,設計如圖2所示,數(shù)據(jù)處理模型。主要由數(shù)據(jù)抽取、格式清洗和DFS分布式文件系統(tǒng)構(gòu)成,同時為下一步大數(shù)據(jù)建模分析打好基礎。
數(shù)據(jù)抽取模塊主要負責從原業(yè)務系統(tǒng)獲得結(jié)構(gòu)化和非結(jié)構(gòu)化業(yè)務數(shù)據(jù)。通過在數(shù)據(jù)抽取工具中配置前端機器名稱、端口號、加密用戶名密碼、數(shù)據(jù)表等信息,實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的抽取工作。對于日志類文件由于在原服務運行期間日志文件是持續(xù)寫入狀態(tài),因此必須在原系統(tǒng)設置,系統(tǒng)日志按時間節(jié)點分割,一般可按具體業(yè)務運行情況和日志產(chǎn)生量和產(chǎn)生大小進行設定,避免因日志文件過大或網(wǎng)絡繁忙,在抽取時對業(yè)務造成影響。
格式清洗模塊主要是對原始數(shù)據(jù)中多種不同配置格式進行統(tǒng)一,特別是對非結(jié)構(gòu)化數(shù)據(jù),需定義每個字段的含義和位置以及統(tǒng)一分隔符,同時還會去掉一些記錄不完整的壞數(shù)據(jù),保證數(shù)據(jù)的格式統(tǒng)一,信息完成。最后導入HDFS文件系統(tǒng)進行存儲。
數(shù)據(jù)分析通過Map/Reduce操作實現(xiàn),通過設計業(yè)務分析模型,定位此項數(shù)據(jù)分析所需輸入數(shù)據(jù),并將數(shù)據(jù)數(shù)據(jù)分割成若干獨立的塊,并根據(jù)Inputformat把Y料讀入成一組(key,value)對,然后通過mapper count分給不同的mapper進行處理。再設計模型中,通過設置滿足要求的map任務值,并引入哈希算法,將mapper對應初始的(initialkey,initialvalue)生成中間數(shù)據(jù)集(interkey,intervalue)劃分為多個任務,將模值相等的任務丟到統(tǒng)一節(jié)點上計算,以實現(xiàn)比較平衡的分類效果。
Reducer對mapper產(chǎn)生的(interkey,intervalue)中間數(shù)據(jù)集,進行驅(qū)蟲、過濾等后期處理后,得到結(jié)果。為實現(xiàn)輸出文件格式支持通過key來高效的自由訪問,并得到有序的數(shù)據(jù)輸出,在reducer中加入排序環(huán)節(jié),將所有的中間數(shù)據(jù)集根據(jù)key來排序的。這樣每個小塊都很容易生成一個序列化的輸出文件。
通過展示系統(tǒng),實現(xiàn)各業(yè)務模型數(shù)據(jù)分析結(jié)果圖形化的展示在監(jiān)控大屏上,同時桌面用戶還可通過瀏覽器或客戶端在終端上查詢分析結(jié)果。
3 總結(jié)
通過hadoop平臺構(gòu)建電力行業(yè)大數(shù)據(jù)分析模型,可按照業(yè)務需要進行靈活進行組合,提高各專業(yè)間的數(shù)據(jù)共享融合,實現(xiàn)由點狀業(yè)務分析模式,到貫穿“三集五大”各專業(yè)的網(wǎng)狀業(yè)務分析模式,可進一步提高電網(wǎng)的健壯性、互動性和智能化,為社會經(jīng)濟穩(wěn)定發(fā)展提供保障。
關(guān)鍵詞:大數(shù)據(jù)分析; 工程造價; 精確性
一、大數(shù)據(jù)分析對工程造價精確性的影響原理
(一)工程造價影響評估數(shù)據(jù)優(yōu)化處理利用大數(shù)據(jù)分析技術(shù)開展工程造價分析的過程中,需要針對工程收集相關(guān)的數(shù)據(jù),針對數(shù)據(jù)進行全面的分析。針對工程確定造價的過程中,可以更好的收集相關(guān)信息,實現(xiàn)對于信息的全面管理。利用大數(shù)據(jù)分析技能夠?qū)τ诠こ淘靸r項目進行精準評估,具體應用公式如下X=X-XminXmax-Xmin。根據(jù)該公式我們能夠看到,利用大數(shù)據(jù)分析技術(shù)減去最低值與最高值,通過這種方式確定工程造價的評估范圍,該范圍具有很強的適用性。
(二)恢復評估結(jié)果原值針對評估結(jié)果需要恢復其原值,這樣才能進一步縮小工程造價的影響范圍。具體的公式如下:X=X′(Xmax-Xmin)+Xmin。通過這一公式針對工程總價結(jié)果恢復原則,最終進一步提高評估數(shù)據(jù)的科學性與合理性,這樣工程造價數(shù)據(jù)更具真實性與可靠性。
(三)建立數(shù)據(jù)分析機制施工項目應該建立數(shù)據(jù)分析機制,建立專門的數(shù)據(jù)分析機構(gòu),針對施工項目的特征以及相關(guān)數(shù)據(jù)進行數(shù)據(jù)分析,全面評估施工項目的相關(guān)成本。施工企業(yè)應該在內(nèi)部購入信息化設備,建立符合工程項目的模型,確定粒子群模型,通過建立相關(guān)的模型簡化計算過程,提升工程造價的核算價值。同時施工項目還要訓練相關(guān)的工作人員應用大數(shù)據(jù)技術(shù)的能力,這樣才能最大限度的保證數(shù)據(jù)分析工作的順利開展,提升大數(shù)據(jù)分析效果。
(四)靈活開展數(shù)據(jù)分析利用大數(shù)據(jù)分析技術(shù)開展工程造價工作的過程中,應該保證數(shù)據(jù)分析的靈活性,從不同的角度開展數(shù)據(jù)分析,全面的分析施工項目中的各種數(shù)據(jù),及時發(fā)現(xiàn)問題。不同的數(shù)據(jù)之間能夠形成相互驗證的關(guān)系,這對于提升工程造價工作水準具有積極的效果。
二、大數(shù)據(jù)分析對于提升工程造價精準性的影響
(一)提升工程造價的合理性。大數(shù)據(jù)分析能夠?qū)τ诖罅康臄?shù)據(jù)進行全面的分析,數(shù)據(jù)更加全面合理,因此能夠全面的提升工程造價的合理性,對于提高工程造價數(shù)據(jù)的科學性具有積極意義。大數(shù)據(jù)分析技術(shù)的應用能夠從不同角度提供工程預算數(shù)據(jù),這樣能夠多方位的印證施工項目工程造價中的相關(guān)數(shù)據(jù),發(fā)現(xiàn)問題能夠及時的進行更改,這樣才能全面的提升工程總價水平,為施工項目的開展提供更加可靠的數(shù)據(jù)。
(二)增加工程造價的動態(tài)性。傳統(tǒng)的工程造價項目數(shù)據(jù)都是固定的,不會根據(jù)工程項目的開展進行變動,這種情況下一旦實際工程中出現(xiàn)一些偏離,工程造價數(shù)據(jù)的利用價值就會降低。利用大數(shù)據(jù)分析進行工程造價的過程中,在項目施工的過程中能夠根據(jù)項目施工情況的變化調(diào)整工程施工項目數(shù)據(jù),改變前期確定的工程造價。由此我們能夠看到大數(shù)據(jù)分析能夠提升工程造價的動態(tài)性,對于全面提升工程造價水平具有積極意義。
(三)增加工程造價的全面性工程造價需要對于工程項目各個方面進行數(shù)據(jù)分析,這樣才能全面提升工程造價數(shù)據(jù)的科學性。大數(shù)據(jù)分析是對于工程項目的各個方面的數(shù)據(jù)進行全面的收集,這樣工程項目的全面性得以提升。利用大數(shù)據(jù)分析計算不僅能夠分析工程項目數(shù)據(jù)中的各種財務數(shù)據(jù),還會分析一些非財務數(shù)據(jù),這些數(shù)據(jù)非常的全面,能夠從不同的角度體現(xiàn)工程項目施工情況,這對于提升工程造價精確性具有積極意義。
(四)增加工程造價的指導作用工程造價是為了更好的指導工程項目的施工工作,利用大數(shù)據(jù)分析技術(shù)能夠全面的開展對于工程項目相關(guān)數(shù)據(jù)的收集與分析,提高工程造價的可參考性,因此項目開展施工的過程中會更多的參考工程造價數(shù)據(jù)進行施工管理,這樣能夠全面的提升工程造價的實用性,對于提升工程項目管理水平具有積極意義。為了更好的發(fā)揮其指導意義,利用大數(shù)據(jù)分析計算開展工程造價工作的過程中,應該加強數(shù)據(jù)與施工項目數(shù)據(jù)之間的聯(lián)系,這樣才能保證工程造價的可參考價值,為施工項目的順利完成提供可靠的保證。
三、利用大數(shù)據(jù)分析提升工程造價精準性的措施
(一)優(yōu)化硬件設施大數(shù)據(jù)分析的應用需要擁有良好的硬件設置作為保證,為了能夠更好地利用大數(shù)據(jù)分析技術(shù)開展工程造價工作,施工項目單位的工作人員應該不斷的優(yōu)化數(shù)據(jù)分析相關(guān)的硬件設施。首先,施工項目應該引進更加先進的設備,通過硬件設備的完善為工程造價工作的開展提供良好的環(huán)境。其次,施工單位需要培養(yǎng)大量的優(yōu)秀人才。大數(shù)據(jù)分析工作屬于一種系統(tǒng)性非常強的工作,需要大量的掌握計算機技術(shù)的人才,因此為了能夠讓大數(shù)據(jù)分析技術(shù)更好地應用工程造價,施工單位內(nèi)部應該培養(yǎng)與之配套的人才,這樣才能讓大數(shù)據(jù)技術(shù)真正的應用工程造價工作中去,為工程造價工作更好地開展提供可靠地保證。再次,施工項目人員應該在內(nèi)部建立一個數(shù)據(jù)庫,把項目施工中的各種數(shù)據(jù)信息都存在在數(shù)據(jù)庫中,這樣能夠更方面數(shù)據(jù)分析人員利用大數(shù)據(jù)技術(shù)開展數(shù)據(jù)分析,全面提升數(shù)據(jù)分析水準。
(二)加強軟件管理大數(shù)據(jù)技術(shù)的應用不僅需要硬件支撐,還需要與之配套的軟件設施,這樣才能最大限度的發(fā)揮大數(shù)據(jù)分析的優(yōu)勢作用。因此,施工項目單位開展工程造價工作前應該加強對于單位內(nèi)部的軟件管理。首先,應該優(yōu)化人力資源,提升員工對數(shù)據(jù)分析技術(shù)的掌握程度,針對工作人員進行技能培訓,讓相關(guān)的工作人員掌握必要的大數(shù)據(jù)技術(shù)開展數(shù)據(jù)分析。其次,施工單位應該建立與施工項目適應的軟件設置,根據(jù)施工項目實際情況以及數(shù)據(jù)分析需要設置必要的數(shù)據(jù)分析職能,建立屬于施工項目自身的軟件系統(tǒng),這樣才能更好地發(fā)揮大數(shù)據(jù)分析的優(yōu)勢,讓數(shù)據(jù)分析全面的服務于工程造價工作,全面提升工程總價水準。
(三)建立造價分析工作常態(tài)化分工協(xié)作體系工程造價分析工作需要各個部門互相配合,這樣才能最大限度地提升工程總價工作水平。因此為了能夠更好地利用大數(shù)據(jù)分析技術(shù)開展工程造價工作,施工單位應該建立造價分析工作常態(tài)化的分工協(xié)調(diào)體系。優(yōu)化單位內(nèi)部工作流程,落實工作責任,把大數(shù)據(jù)分析的具體職能深入的落實到單位內(nèi)部的各個人員以及相關(guān)部門手中,這樣才能最大限度的保證工程施工項目能夠更好地開展施工,提高工程造價數(shù)據(jù)的精確性。在數(shù)據(jù)收集的過程總,應該讓每個工作部門都積極的參與進來,這樣能夠提升數(shù)據(jù)的范圍,保證數(shù)據(jù)更加真實可靠。只有真實可靠的數(shù)據(jù)來源才能更好地保證大數(shù)據(jù)分析結(jié)果更加的科學。另外,還要做好數(shù)據(jù)的存儲與保管工作,把大量數(shù)據(jù)存儲于數(shù)據(jù)庫內(nèi)部,這樣才能夠擴大大數(shù)據(jù)分析的范圍,提升分析結(jié)果的科學性。
(四)加強對于大數(shù)據(jù)分析環(huán)境下對于工程造價的監(jiān)督為了能夠更好地利用大數(shù)據(jù)分析開展工程造價工作,施工單位利用大數(shù)據(jù)分析技術(shù)的過程中,應該加強對于大數(shù)據(jù)分析工作的監(jiān)督與管理,這樣能夠及時的發(fā)現(xiàn)大數(shù)據(jù)分析中的問題,針對問題提出有效的解決措施,防止大數(shù)據(jù)分析技術(shù)應用不充分影響工程造價工作的開展。在監(jiān)督管理工作開展的過程中,需要保證相關(guān)工作人員的獨立性與專業(yè)性,只有保證獨立性才能提升監(jiān)督管理效果。保證專業(yè)性是為了更好地發(fā)揮監(jiān)管職能,及時的發(fā)現(xiàn)問題,解決問題。
一、制約稅收風險數(shù)據(jù)分析的因素分析
1.基礎數(shù)據(jù)質(zhì)量不高,影響風險數(shù)據(jù)分析的準確度。數(shù)據(jù)分析應用必須建立在真實、準確、完整的數(shù)據(jù)基礎之上。在目前的數(shù)據(jù)分析應用實踐中,一些基礎數(shù)據(jù)質(zhì)量不高,還不能適應稅收風險數(shù)據(jù)分析的需要。外部數(shù)據(jù)方面表現(xiàn)為納稅人稅務登記、日常申報及財務數(shù)據(jù)中存在錯誤或不完整,導致信息采集缺失或分析失誤;第三方涉稅信息不足,缺乏有效流轉(zhuǎn)渠道,導致不能進行縱向比對,不能獲取更多地數(shù)據(jù)資源,不能檢驗納稅人自行報送數(shù)據(jù)的真實性和準確性。內(nèi)部數(shù)據(jù)方面表現(xiàn)為前臺工作人中責任心不強,錄入基礎數(shù)據(jù)不準確、不完善;基層稅源管理部門對信息采集不重視,不能及時更新納稅人相關(guān)生產(chǎn)經(jīng)營數(shù)據(jù)等導致信息分析不準確。2.數(shù)據(jù)來源應用范圍窄,影響風險數(shù)據(jù)分析的深入性和實用性。從目前風險數(shù)據(jù)分析的來源來看,主要依靠金三系統(tǒng)風險預警評估系統(tǒng)的風險預警信息、部分省區(qū)數(shù)據(jù)綜合分析利用平臺的預警信息和上級部門推送的專項分析任務,真正依靠自己挖掘出的數(shù)據(jù)進行分析的部分還較少。在日常稅源監(jiān)控、納稅評估工作中運用分析多,針對稅收收入變化、稅收政策變化、稅制改革影響等方面應用較少,對區(qū)域經(jīng)濟有針對性和指導性的分析少。在宏觀指標的分析上應用少,導致數(shù)據(jù)分析的實用性變?nèi)酢?.信息化水平不高,影響風險數(shù)據(jù)分析的質(zhì)量與效率。在基層稅務部門,目前的信息化應用水平還不夠高,成為制約數(shù)據(jù)分析應用的重要因素之一。主要表現(xiàn)為基層稅務干部信息化水平普遍不高,受年齡和學歷限制,稅收知識更新?lián)Q代慢,計算機基礎薄弱,不能主動利用手中掌握的數(shù)據(jù)資源發(fā)現(xiàn)問題或進行分析。復合型人才缺乏,不能適應數(shù)據(jù)分析的需要。另一方面,上級局在下達專項分析任務后需要基層進行落實時,無法按照疑點進行深入分析和落實,影響了工作質(zhì)量和效率。4.綜合涉稅信息不健全,影響風險數(shù)據(jù)分析的完整性。全面掌握納稅人涉稅信息是做好數(shù)據(jù)分析應用的基礎和前提之一。目前僅依靠稅務部門的信息資源,還不能全面、及時、準確的掌握納稅人所有的數(shù)據(jù)資源。與供電、財政、銀行、海關(guān)、銀行、房管、土地等政府部門缺乏有效的信息傳遞與反饋渠道,信息的集中度和共享度不高,導致風險分析和識別質(zhì)量不高,指向性不強,不能適用數(shù)據(jù)分析應用的要求。日常工作中真正采集到的第三方信息運用的很少,信息的不對稱導致數(shù)據(jù)的完整性受限,分析應用的作用得不到有效發(fā)揮。
二、深化稅收風險數(shù)據(jù)分析應用的思路
1.提高思想認識,牢固樹立信息管稅理念。一是基層稅務部門應該樹立風險管理和信息管稅的理念,充分利用現(xiàn)代信息技術(shù),對涉稅信息進行采集、分析和利用,從宏觀上加以把握和引導,達到提高稅收風險管理水平的目的。二是引導廣大稅務干部樹立信息管稅的理念,適應信息化時代的要求,及時更新自己的觀念和知識。在日常工作中要注意采集涉稅信息,熟練掌握稅收政策,并進行各種稅收軟件進行基本的分析,提高信息化應用管理的能力。2.提高數(shù)據(jù)質(zhì)量,打好風險數(shù)據(jù)分析應用基礎。做好數(shù)據(jù)分析工作,首先要保證數(shù)據(jù)采集的質(zhì)量。一是做好基礎數(shù)據(jù)的采集工作。針對納稅人自行報送的稅務登記、日常申報、財務數(shù)據(jù)等要加強審核,確保錄入的真實性和完整性。二是做好第三方信息的采集工作。加強與政府有關(guān)部門的溝通和協(xié)調(diào),做好第三方信息的采集和利用工作,確保信息渠道暢通,通過內(nèi)外部信息數(shù)據(jù)的分析,及時掌握稅源管理的情況。三是加強對數(shù)據(jù)的監(jiān)控工作。通過數(shù)據(jù)綜合分析利用平臺加強對數(shù)據(jù)的分析監(jiān)控,發(fā)現(xiàn)存在疑點數(shù)據(jù)時及時進行通報,并傳遞到前臺和基層稅源管理部門進行處理和反饋。3.拓寬分析范圍,提高風險數(shù)據(jù)分析系統(tǒng)性。風險數(shù)據(jù)的分析是一項綜合性工作,數(shù)據(jù)的選取、分析目標的選擇、分析的手段等,都要從稅收工作的多方面入手,而不應局限于某一方面。一是綜合確定分析選題,堅持宏觀定方向,微觀找問題的原則。宏觀方面可以根據(jù)稅收政策的變動、稅制改革的影響來選擇,從稅源結(jié)構(gòu)、收入變化、稅源增減變化等等入手,圍繞領導關(guān)注的熱點、階段工作重點、業(yè)務管理難點等尋找數(shù)據(jù)分析的突破口。微觀方面可以通過日常稅源監(jiān)控發(fā)現(xiàn)有價值的信息,再由業(yè)務部門和技術(shù)部門進行數(shù)據(jù)的提取和分析,查找問題存在的原因,提出專題分析的措施和意見。二是完善分析手段。充分利用金稅三期系統(tǒng)、數(shù)據(jù)綜合分析利用平臺等,密切注意信息技術(shù)的發(fā)展和新形勢,利用先進的數(shù)據(jù)庫技術(shù)、數(shù)據(jù)展現(xiàn)工具和數(shù)據(jù)挖掘工具,不斷創(chuàng)新分析手段。進一步完善分析指標體系,拓展數(shù)據(jù)分析模型,提高對數(shù)據(jù)的深度挖掘能力和綜合分析能力。4.加強協(xié)調(diào)配合,健全風險數(shù)據(jù)分析應用機制。稅收風險管理工作是一項系統(tǒng)性的工程,風險數(shù)據(jù)產(chǎn)生于稅收工作中的多個環(huán)節(jié),也涉及到多個部門,因此風險數(shù)據(jù)的分析應用需要各個部門的通力配合。一是做好統(tǒng)籌規(guī)劃,設立專門部門,具體承擔數(shù)據(jù)分析應用工作的組織、協(xié)調(diào)、監(jiān)督等工作,制定風險數(shù)據(jù)分析的工作流程,明確各部門的職責,設置相應的崗位,確保數(shù)據(jù)分析工作流暢運轉(zhuǎn)。二是各級、各部門要共同參與、密切配合,政策法規(guī)、稅收、收入核算、征管、信息中心等部門都要參與進來,形成數(shù)據(jù)分析的工作機制。5.積極培養(yǎng)人才,提高風險數(shù)據(jù)分析應用水平。風險數(shù)據(jù)分析工作對數(shù)據(jù)分析人員提出了更深更高的要求。要勝任數(shù)據(jù)分析工作,需要既掌握稅收業(yè)務知識、計算機知識,又掌握稅收政策的變化、經(jīng)濟形勢發(fā)展變化的復合型人才。一是善于用人,把業(yè)務能力強、信息技術(shù)水平高的人才充實到數(shù)據(jù)分析崗上,給予他們施展才華的平臺。二是加強對人才的培訓,通過短期培訓、繼續(xù)教育等多種形式,促進數(shù)據(jù)分析人才的快速成長。三是強化基層稅務干部的培訓。采取不同方式,加強對稅收政策、業(yè)務以及計算機知識等的培訓,使全體干部掌握數(shù)據(jù)分析方法,提高數(shù)據(jù)分析的綜合能力,為數(shù)據(jù)分析應用打好人才基礎
作者:黎濤