三分鐘帶你了解什么是數(shù)據(jù)分析

2022-03-2619:25:15三分鐘帶你了解什么是數(shù)據(jù)分析已關(guān)閉評論



數(shù)據(jù)分析導(dǎo)論

數(shù)據(jù)分析是對原始數(shù)據(jù)進(jìn)行分析得出結(jié)論的科學(xué)。數(shù)據(jù)分析指的是分析數(shù)據(jù)以提高生產(chǎn)力和企業(yè)利潤的技術(shù)。從不同來源提取和清理數(shù)據(jù),以分析各種模式。許多數(shù)據(jù)分析技術(shù)和流程被自動化為機(jī)械流程和算法,這些流程和算法處理原始數(shù)據(jù)供人類使用。

數(shù)據(jù)分析的類型

根據(jù)分析數(shù)據(jù)的目的,數(shù)據(jù)分析過程主觀上分為三類:

Hadoop、數(shù)據(jù)科學(xué)、統(tǒng)計(jì)和;其他

  • 描述性分析
  • 預(yù)測分析
  • 規(guī)定性分析

上述分析類型的特征如下所示:

1。描述性分析

描述性分析側(cè)重于總結(jié)過去的數(shù)據(jù)以得出推論。
定量描述歷史數(shù)據(jù)分布最常用的方法包括:

  • 中心趨勢的衡量標(biāo)準(zhǔn):平均值、中位數(shù)、四分位數(shù)、模式
  • 可變性或擴(kuò)散的衡量標(biāo)準(zhǔn):范圍、四分位間范圍、百分位

近年來,通過統(tǒng)計(jì)推斷過程克服了收集、存儲和理解海量數(shù)據(jù)堆的困難和局限性。利用抽樣方法,結(jié)合中心極限理論,推導(dǎo)出關(guān)于人口數(shù)據(jù)集統(tǒng)計(jì)的廣義推論。一家領(lǐng)先的新聞廣播公司在選舉日在投票站出口收集隨機(jī)選擇的選民的投票細(xì)節(jié),以得出有關(guān)全體民眾偏好的統(tǒng)計(jì)推斷。

人口數(shù)據(jù)集的重復(fù)采樣會產(chǎn)生大量樣本。通常,為了生成分層良好、無偏的人口數(shù)據(jù)集代表,最好采用聚類抽樣。在采樣數(shù)據(jù)塊上計(jì)算感興趣的統(tǒng)計(jì)度量,以獲得稱為采樣分布的樣本統(tǒng)計(jì)值分布。利用中心極限理論,將抽樣分布的特征與總體數(shù)據(jù)集的特征聯(lián)系起來。

2。預(yù)測分析

預(yù)測分析利用歷史或過去數(shù)據(jù)中的模式來估計(jì)未來的結(jié)果、識別趨勢、發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)和機(jī)會,或預(yù)測流程行為。由于預(yù)測用例在本質(zhì)上是合理的,這些方法使用概率模型來測量所有可能結(jié)果的可能性。金融公司客戶服務(wù)門戶中的聊天機(jī)器人根據(jù)客戶過去在其web域中的活動主動了解客戶的意圖或需求。根據(jù)預(yù)測的上下文,聊天機(jī)器人與客戶進(jìn)行交互對話,以快速提供apt服務(wù),并獲得更好的客戶滿意度。
除了根據(jù)可用的過去數(shù)據(jù)預(yù)測未來會發(fā)生什么的外推場景外,很少有應(yīng)用程序借助可用的數(shù)據(jù)樣本猜測遺漏的數(shù)據(jù)條目。給定數(shù)據(jù)樣本范圍內(nèi)缺失值的這種近似在技術(shù)上稱為插值。一個(gè)強(qiáng)大的圖像編輯器應(yīng)用程序支持通過在缺失塊處插值特征函數(shù)來重建由于超文本而丟失的紋理部分。特征函數(shù)可以解釋為扭曲圖像紋理中圖案的數(shù)學(xué)表示法。
影響預(yù)測模型/策略選擇的重要因素包括:

  • 預(yù)測精度:表示預(yù)測值和實(shí)際值之間的接近程度。預(yù)測值與實(shí)際值之差的方差越小,則表明預(yù)測模型的精度越高</李>
  • 預(yù)測速度:在實(shí)時(shí)跟蹤應(yīng)用中,它的優(yōu)先級很高
  • 模型學(xué)習(xí)率:它取決于模型的復(fù)雜性和計(jì)算模型參數(shù)所涉及的計(jì)算</李>

3。規(guī)定性分析

規(guī)定性分析將所發(fā)現(xiàn)的知識作為描述性和預(yù)測性分析的一部分,來推薦一個(gè)上下文感知的行動方案。采用先進(jìn)的統(tǒng)計(jì)技術(shù)和計(jì)算密集型優(yōu)化方法來理解估計(jì)預(yù)測的分布。
準(zhǔn)確地說,在預(yù)測分析過程中估計(jì)的每個(gè)結(jié)果的影響和益處都會被評估,以針對給定的一組條件做出啟發(fā)式和時(shí)間敏感的決策。一家股票市場咨詢公司對投資者投資組合中股票的預(yù)測價(jià)格進(jìn)行SWOT(優(yōu)勢、劣勢、機(jī)會和威脅)分析,并向客戶推薦最佳買入賣出期權(quán)。

數(shù)據(jù)分析中的流程

數(shù)據(jù)分析過程包括以下不同的數(shù)據(jù)處理階段:

1。數(shù)據(jù)提取

從不同類型的多個(gè)數(shù)據(jù)源(包括網(wǎng)頁、數(shù)據(jù)庫、遺留應(yīng)用程序)攝取數(shù)據(jù)會產(chǎn)生不同格式的輸入數(shù)據(jù)集。
輸入數(shù)據(jù)分析流程的數(shù)據(jù)格式大致可分為:

  • 結(jié)構(gòu)化數(shù)據(jù)對數(shù)據(jù)類型以及相關(guān)字段長度或字段分隔符有明確的定義。這類數(shù)據(jù)可以像存儲在關(guān)系數(shù)據(jù)庫(RDBMS)中的內(nèi)容一樣輕松查詢</李>
  • 半結(jié)構(gòu)化數(shù)據(jù)缺乏精確的布局定義,但可以根據(jù)標(biāo)準(zhǔn)模式或其他元數(shù)據(jù)規(guī)則識別、分離和分組數(shù)據(jù)元素。XML文件使用標(biāo)記來保存數(shù)據(jù),而Javascript對象表示法文件(JSON)以名稱-值對的形式保存數(shù)據(jù)。NoSQL(不僅是SQL)數(shù)據(jù)庫,比如MongoDB和Coach base,也用于存儲半結(jié)構(gòu)化數(shù)據(jù)</李>
  • 非結(jié)構(gòu)化數(shù)據(jù)包括社交媒體對話、圖像、音頻片段等。傳統(tǒng)的數(shù)據(jù)解析方法無法理解這些數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)存儲在數(shù)據(jù)池中</李>

結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)解析實(shí)現(xiàn)被整合到各種ETL工具中,如從頭算、Informatica、Datastage和Talend等開源替代工具。

2。數(shù)據(jù)清理和轉(zhuǎn)換

清理解析后的數(shù)據(jù)是為了確保數(shù)據(jù)的一致性和相關(guān)數(shù)據(jù)在流程的后期階段的可用性。
數(shù)據(jù)分析中的主要清理操作包括:

  • 檢測和消除數(shù)據(jù)量中的異常值</李>
  • 刪除數(shù)據(jù)集中的重復(fù)項(xiàng)</李>
  • 在理解功能或用例的情況下處理數(shù)據(jù)記錄中缺失的條目</李>
  • 數(shù)據(jù)記錄(如“2月31日”)中允許的字段值的驗(yàn)證在任何日期字段中都不能是有效值</李>

清理后的數(shù)據(jù)被轉(zhuǎn)換成合適的格式來分析數(shù)據(jù)。
數(shù)據(jù)轉(zhuǎn)換包括:

  • 不需要的數(shù)據(jù)記錄的過濾器</李>
  • 連接從不同來源獲取的數(shù)據(jù)</李>
  • 數(shù)據(jù)的聚合或分組</李>
  • 數(shù)據(jù)類型轉(zhuǎn)換</李>

3。關(guān)鍵績效指標(biāo)/洞察力推導(dǎo)

數(shù)據(jù)挖掘、深度學(xué)習(xí)方法用于評估關(guān)鍵績效指標(biāo)(KPI),或從清理和轉(zhuǎn)換的數(shù)據(jù)中獲得有價(jià)值的見解。基于分析的目標(biāo),使用各種模式識別技術(shù)(如k-means聚類、SVM分類、貝葉斯分類器等)和機(jī)器學(xué)習(xí)模型(如馬爾可夫模型、高斯混合模型(GMM))進(jìn)行數(shù)據(jù)分析。
概率模型在訓(xùn)練階段學(xué)習(xí)最優(yōu)模型參數(shù),在驗(yàn)證階段,使用k-折疊交叉驗(yàn)證測試對模型進(jìn)行測試,以避免過擬合和欠擬合錯(cuò)誤。數(shù)據(jù)分析最常用的編程語言是R和Python。兩者都有一套豐富的庫(SciPy、NumPy、Pandas),它們都是開源的,可以執(zhí)行復(fù)雜的數(shù)據(jù)分析。

4。數(shù)據(jù)可視化

數(shù)據(jù)可視化是清晰有效地展示未發(fā)現(xiàn)模式的過程,使用圖形、繪圖、儀表盤和圖形從數(shù)據(jù)中得出結(jié)論。

  • QlikView、Tableau等數(shù)據(jù)報(bào)告工具以不同的粒度級別顯示KPI和其他衍生指標(biāo)</李>
  • 報(bào)告工具使最終用戶能夠使用用戶友好的拖放界面,使用pivot和drill-down選項(xiàng)創(chuàng)建自定義報(bào)告</李>
  • 交互式數(shù)據(jù)可視化庫,如D3。js(數(shù)據(jù)驅(qū)動文檔)、HTML5圖表等。。用于提高探索分析數(shù)據(jù)的能力</李>