數(shù)據(jù)分析的常用邏輯(數(shù)據(jù)分析常用術(shù)語)
數(shù)據(jù)分析相關(guān)概念多且雜,容易搞混。為了便于大家區(qū)分,今天小編就來盤點一下數(shù)據(jù)分析常用的術(shù)語解釋。建議大家收藏起來方便查看。
按照以下三類進行匯總。
1、互聯(lián)網(wǎng)常用名詞解釋
2、統(tǒng)計學(xué)名詞解釋
3、數(shù)據(jù)分析名詞解釋
一、互聯(lián)網(wǎng)常用名詞解釋
1、PV(Page View)頁面瀏覽量
指某段時間內(nèi)訪問網(wǎng)站或某一頁面的用戶的總數(shù)量,通常用來衡量一篇文章或一次活動帶來的流量效果,也是評價網(wǎng)站日常流量數(shù)據(jù)的重要指標。PV可重復(fù)累計,以用戶訪問網(wǎng)站作為統(tǒng)計依據(jù),用戶每刷新一次即重新計算一次。
2、UV(Unique Visitor)獨立訪客
指來到網(wǎng)站或頁面的用戶總數(shù),這個用戶是獨立的,同一用戶不同時段訪問網(wǎng)站只算作一個獨立訪客,不會重復(fù)累計,通常以PC端的Cookie數(shù)量作為統(tǒng)計依據(jù)。
3、Visit 訪問
指用戶通過外部鏈接來到網(wǎng)站,從用戶來到網(wǎng)站到用戶在瀏覽器中關(guān)閉頁面,這一過程算作一次訪問。
Visit可重復(fù)累計,比如我打開一個網(wǎng)站又關(guān)閉,再重新打開,這就算作兩次訪問。
4、Home Page 主頁
指一個網(wǎng)站起主目錄功能的頁面,也是網(wǎng)站起點。通常是網(wǎng)站首頁。
5、Landing Page 著陸頁
指用戶從外部鏈接來到網(wǎng)站,直接跳轉(zhuǎn)到的第一個頁面。比如朋友給我發(fā)了一個介紹爆款T恤的淘寶鏈接,我點開會直接跳轉(zhuǎn)到介紹T恤的那個頁面,而不是淘寶網(wǎng)眾多其他頁面之一,這個介紹T恤的頁面可以算作是著陸頁。
6、Bounce Rate 跳出率
指用戶通過鏈接來到網(wǎng)站,在當前頁面沒有任何交互就離開網(wǎng)站的行為,這就算作此頁面增加了一個“跳出”,跳出率一般針對網(wǎng)站的某個頁面而言。
跳出率=在這個頁面跳出的用戶數(shù)/PV
7、退出率
一般針對某個頁面而言。指用戶訪問某網(wǎng)站的某個頁面之后,從瀏覽器中將與此網(wǎng)站相關(guān)的所有頁面全部關(guān)閉,就算此頁面增加了一個“退出“。
退出率=在這個頁面退出的用戶數(shù)/PV
8、Click 點擊
一般針對付費廣告而言,指用戶點擊某個鏈接、頁面、banner的次數(shù),可重復(fù)累計。比如我在PC端看到一則新聞鏈接點進去看了一會就關(guān)了,過了一會又點進去看了一遍,這就算我為這篇新聞貢獻兩次點擊。
9、avr.time 平均停留時長
指某個頁面被用戶訪問,在頁面停留時長的平均值,通常用來衡量一個頁面內(nèi)容的質(zhì)量。
avr.time=訪客數(shù)量/用戶總停留時長
10、CTR 點擊率
指某個廣告、Banner、URL被點擊的次數(shù)和被瀏覽的總次數(shù)的比值。一般用來考核廣告投放的引流效果。
CTR=點擊數(shù)(click)/被用戶看到的次數(shù)
11、Conversion rate 轉(zhuǎn)化率
指用戶完成設(shè)定的轉(zhuǎn)化環(huán)節(jié)的次數(shù)和總會話人數(shù)的百分比,通常用來評價一個轉(zhuǎn)化環(huán)節(jié)的好壞,如果轉(zhuǎn)化率較低則急需優(yōu)化該轉(zhuǎn)化環(huán)節(jié)。
轉(zhuǎn)化率=轉(zhuǎn)化會話數(shù)/總會話數(shù)
12、漏斗
通常指產(chǎn)生目標轉(zhuǎn)化前的明確流程,比如在淘寶購物,從點擊商品鏈接到查看詳情頁,再到查看顧客評價、領(lǐng)取商家優(yōu)惠券,再到填寫地址、付款,每個環(huán)節(jié)都有可能流失用戶,這就要求商家必須做好每一個轉(zhuǎn)化環(huán)節(jié),漏斗是評價轉(zhuǎn)化環(huán)節(jié)優(yōu)劣的指標。
13、投資回報率(ROI:Return On Investment )
反映投入和產(chǎn)出的關(guān)系,衡量我這個投資值不值得,能給到我多少價值的東西(非單單的利潤),這個是站在投資的角度或長遠生意上看的。
其計算公式為:投資回報率(ROI)=年利潤或年均利潤/投資總額×100%,通常用于評估企業(yè)對于某項活動的價值,ROI高表示該項目價值高。
14、重復(fù)購買率
指消費者在網(wǎng)站中的重復(fù)購買次數(shù)。
15、Referrer 引薦流量
通常指將用戶引導(dǎo)至目標頁面的URL(超鏈接)。在百度統(tǒng)計中,引薦流量叫做“外部鏈接”。
16、流失分析(Churn Analysis/Attrition Analysis)
描述哪些顧客可能停止使用公司的產(chǎn)品/業(yè)務(wù),以及識別哪些顧客的流失會帶來最大損失。流失分析的結(jié)果用于為可能要流失的顧客準備新的優(yōu)惠。
17、顧客細分&畫像(Customer Segmentation & Profiling)
根據(jù)現(xiàn)有的顧客數(shù)據(jù),將特征、行為相似的顧客歸類分組。描述和比較各組。
18、顧客的生命周期價值 (Lifetime Value, LTV)
顧客在他/她的一生中為一個公司產(chǎn)生的預(yù)期折算利潤。
19、購物籃分析(Market Basket Analysis)
識別在交易中經(jīng)常同時出現(xiàn)的商品組合或服務(wù)組合,例如經(jīng)常被一起購買的產(chǎn)品。此類分析的結(jié)果被用于推薦附加商品,為陳列商品的決策提供依據(jù)等。
20、實時決策(Real Time Decisioning, RTD)
幫助企業(yè)做出實時(近乎無延遲)的最優(yōu)銷售/營銷決策。比如,實時決策系統(tǒng)(打分系統(tǒng))可以通過多種商業(yè)規(guī)則或模型,在顧客與公司互動的瞬間,對顧客進行評分和排名。
21、留存/顧客留存(Retention / Customer Retention)
指建立后能夠長期維持的客戶關(guān)系的百分比。
22、社交網(wǎng)絡(luò)分析(Social Network Analysis, SNA)
描繪并測量人與人、組與組、機構(gòu)與機構(gòu)、電腦與電腦、URL與URL、以及其他種類相連的信息/知識實體之間的關(guān)系與流動。這些人或組是網(wǎng)絡(luò)中的節(jié)點,而它們之間的連線表示關(guān)系或流動。SNA為分析人際關(guān)系提供了一種方法,既是數(shù)學(xué)的又是視覺的。
23、生存分析(Survival Analysis)
估測一名顧客繼續(xù)使用某業(yè)務(wù)的時間,或在后續(xù)時段流失的可能性。此類信息能讓企業(yè)判斷所要預(yù)測時段的顧客留存,并引入合適的忠誠度政策。
二、統(tǒng)計學(xué)名詞解釋
1、絕對數(shù)和相對數(shù)
絕對數(shù):是反應(yīng)客觀現(xiàn)象總體在一定時間、一定地點下的總規(guī)模、總水平的綜合性指標,也是數(shù)據(jù)分析中常用的指標。比如年GDP,總?cè)丝诘鹊取?/p>
相對數(shù):是指兩個有聯(lián)系的指標計算而得出的數(shù)值,它是反應(yīng)客觀現(xiàn)象之間的數(shù)量聯(lián)系緊密程度的綜合指標。相對數(shù)一般以倍數(shù)、百分數(shù)等表示。相對數(shù)的計算公式:
相對數(shù)=比較值(比數(shù))/基礎(chǔ)值(基數(shù))
2、百分比和百分點
百分比:是相對數(shù)中的一種,他表示一個數(shù)是另一個數(shù)的百分之幾,也成為百分率或百分數(shù)。百分比的分母是100,也就是用1%作為度量單位,因此便于比較。
百分點:是指不同時期以百分數(shù)的形式表示的相對指標的變動幅度,1%等于1個百分點。
3、頻數(shù)和頻率
頻數(shù):一個數(shù)據(jù)在整體中出現(xiàn)的次數(shù)。
頻率:某一事件發(fā)生的次數(shù)與總的事件數(shù)之比。頻率通常用比例或百分數(shù)表示。
4、比例與比率
比例:是指在總體中各數(shù)據(jù)占總體的比重,通常反映總體的構(gòu)成和比例,即部分與整體之間的關(guān)系。
比率:是樣本(或總體)中各不同類別數(shù)據(jù)之間的比值,由于比率不是部分與整體之間的對比關(guān)系,因而比值可能大于1。
5、倍數(shù)和番數(shù)
倍數(shù):用一個數(shù)據(jù)除以另一個數(shù)據(jù)獲得,倍數(shù)一般用來表示上升、增長幅度,一般不表示減少幅度。
番數(shù):指原來數(shù)量的2的n次方。
6、同比和環(huán)比
同比:指的是與歷史同時期的數(shù)據(jù)相比較而獲得的比值,反應(yīng)事物發(fā)展的相對性。
環(huán)比:指與上一個統(tǒng)計時期的值進行對比獲得的值,主要反映事物的逐期發(fā)展的情況。
7、變量
變量來源于數(shù)學(xué),是計算機語言中能儲存計算結(jié)果或能表示值抽象概念。變量可以通過變量名訪問。
8、連續(xù)變量
在統(tǒng)計學(xué)中,變量按變量值是否連續(xù)可分為連續(xù)變量與離散變量兩種。在一定區(qū)間內(nèi)可以任意取值的變量叫連續(xù)變量,其數(shù)值是連續(xù)不斷的,相鄰兩個數(shù)值可作無限分割,即可取無限個數(shù)值。如:年齡、體重等變量。
9、離散變量
離散變量的各變量值之間都是以整數(shù)斷開的,如人數(shù)、工廠數(shù)、機器臺數(shù)等,都只能按整數(shù)計算。離散變量的數(shù)值只能用計數(shù)的方法取得。
10、定性變量
又名分類變量:觀測的個體只能歸屬于幾種互不相容類別中的一種時,一般是用非數(shù)字來表達其類別,這樣的觀測數(shù)據(jù)稱為定性變量??梢岳斫獬煽梢苑诸悇e的變量,如學(xué)歷、性別、婚否等。
11、均值
即平均值,平均數(shù)是表示一組數(shù)據(jù)集中趨勢的量數(shù),是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)。
12、中位數(shù)
對于有限的數(shù)集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數(shù)。如果觀察值有偶數(shù)個,通常取最中間的兩個數(shù)值的平均數(shù)作為中位數(shù)。
13、缺失值
它指的是現(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完全的。
14、缺失率
某屬性的缺失率=數(shù)據(jù)集中某屬性的缺失值個數(shù)/數(shù)據(jù)集總行數(shù)。
15、異常值
指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。
16、方差
是在概率論和統(tǒng)計方差衡量隨機變量或一組數(shù)據(jù)時離散程度的度量。概率論中方差用來度量隨機變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。統(tǒng)計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數(shù)據(jù)和期望值相差的度量值。
17、標準差
中文環(huán)境中又常稱均方差,是離均差平方的算術(shù)平均數(shù)的平方根,用σ表示。標準差是方差的算術(shù)平方根。標準差能反映一個數(shù)據(jù)集的離散程度。平均數(shù)相同的兩組數(shù)據(jù),標準差未必相同。
18、皮爾森相關(guān)系數(shù)
皮爾森相關(guān)系數(shù)是用來反映兩個變量線性相關(guān)程度的統(tǒng)計量。相關(guān)系數(shù)用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關(guān)強弱的程度。r的絕對值越大表明相關(guān)性越強。
19、相關(guān)系數(shù)
相關(guān)系數(shù)是最早由統(tǒng)計學(xué)家卡爾·皮爾遜設(shè)計的統(tǒng)計指標,是研究變量之間線性相關(guān)程度的量,一般用字母r表示。由于研究對象的不同,相關(guān)系數(shù)有多種定義方式,較為常用的是皮爾森相關(guān)系數(shù)。
20、特征值
特征值是線性代數(shù)中的一個重要概念。在數(shù)學(xué)、物理學(xué)、化學(xué)、計算機等領(lǐng)域有著廣泛的應(yīng)用。設(shè)A是向量空間的一個線性變換,如果空間中某一非零向量通過A變換后所得到的向量和X僅差一個常數(shù)因子,即AX=kX,則稱k為A的特征值,X稱為A的屬于特征值k的特征向量或特征矢量。
三、數(shù)據(jù)分析名詞解釋
A
聚合(Aggregation):搜索、合并、顯示數(shù)據(jù)的過程。
算法(Algorithms):可以完成某種數(shù)據(jù)分析的數(shù)學(xué)公式。
分析法(Analytics):用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義。
異常檢測(Anomaly detection):在數(shù)據(jù)集中搜索與預(yù)期模式或行為不匹配的數(shù)據(jù)項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers,exceptions,surprises,contaminants.他們通??商峁╆P(guān)鍵的可執(zhí)行信息。
匿名化(Anonymization):使數(shù)據(jù)匿名,即移除所有與個人隱私相關(guān)的數(shù)據(jù)。
分析型客戶關(guān)系管理(Analytical CRM/aCRM):用于支持決策,改善公司跟顧客的互動或提高互動的價值。針對有關(guān)顧客的知識,和如何與顧客有效接觸的知識,進行收集、分析、應(yīng)用。
B
行為分析法(Behavioural Analytics):這種分析法是根據(jù)用戶的行為如“怎么做”,“為什么這么做”,以及“做了什么”來得出結(jié)論,而不是僅僅針對人物和時間的一門分析學(xué)科,它著眼于數(shù)據(jù)中的人性化模式。
批量處理(Batch processing):盡管從大型計算機時代開始,批量處理就已經(jīng)出現(xiàn)了。由于處理大型數(shù)據(jù)集,批量處理對大數(shù)據(jù)具有額外的意義。批量數(shù)據(jù)處理是處理一段時間內(nèi)收集的大量數(shù)據(jù)的有效方式。
商業(yè)智能(Business Intelligence): 分析數(shù)據(jù)、展示信息以幫助企業(yè)的執(zhí)行者、管理層、其他人員進行更有根據(jù)的商業(yè)決策的應(yīng)用、設(shè)施、工具、過程。
C
分類分析(Classification analysis):從數(shù)據(jù)中獲得重要的相關(guān)性信息的系統(tǒng)化過程;這類數(shù)據(jù)也被稱為元數(shù)據(jù)(meta data),是描述數(shù)據(jù)的數(shù)據(jù)。
云計算(Cloud computing):構(gòu)建在網(wǎng)絡(luò)上的分布式計算系統(tǒng),數(shù)據(jù)是存儲于機房外的(即云端)。
集群計算(Cluster computing):這是一個使用多個服務(wù)器集合資源的“集群”的計算術(shù)語。要想更技術(shù)性的話,就會涉及到節(jié)點,集群管理層,負載平衡和并行處理等概念。
聚類分析(Clustering analysis):它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性。
冷數(shù)據(jù)存儲(Cold data storage):在低功耗服務(wù)器上存儲那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來將會很耗時。
對比分析(Comparative analysis):在非常大的數(shù)據(jù)集中進行模式匹配時,進行一步步的對比和計算過程得到分析結(jié)果。
相關(guān)性分析(Correlation analysis):是一種數(shù)據(jù)分析方法,用于分析變量之間是否存在正相關(guān),或者負相關(guān)。
D
儀表板(Dashboard):使用算法分析數(shù)據(jù),并將結(jié)果用圖表方式顯示于儀表板中。
數(shù)據(jù)聚合工具(Data aggregation tools):將分散于眾多數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)化成一個全新數(shù)據(jù)源的過程。
數(shù)據(jù)分析師(Data analyst):從事數(shù)據(jù)分析、建模、清理、處理的專業(yè)人員。
數(shù)據(jù)庫(Database):一個以某種特定的技術(shù)來存儲數(shù)據(jù)集合的倉庫。
數(shù)據(jù)湖(Data lake):數(shù)據(jù)湖是原始格式的企業(yè)級數(shù)據(jù)的大型存儲庫。與此同時我們可以涉及數(shù)據(jù)倉庫,它在概念上是相似的,也是企業(yè)級數(shù)據(jù)的存儲庫,但在清理、與其他來源集成之后是以結(jié)構(gòu)化格式。數(shù)據(jù)倉庫通常用于常規(guī)數(shù)據(jù)(但不是專有的)。數(shù)據(jù)湖使得訪問企業(yè)級數(shù)據(jù)更加容易,你需要明確你要尋找什么,以及如何處理它并明智地試用它。
暗數(shù)據(jù)(Dark Data):基本上指的是,由企業(yè)收集和處理的,但并不用于任何意義性目的的數(shù)據(jù),因此它是“暗”的,可能永遠不會被分析。它可以是社交網(wǎng)絡(luò)反饋,呼叫中心日志,會議筆記等等。有很多人估計,所有企業(yè)數(shù)據(jù)中的 60-90% 可能是“暗數(shù)據(jù)”,但誰又真正知道呢?
數(shù)據(jù)挖掘(Data mining):數(shù)據(jù)挖掘是通過使用復(fù)雜的模式識別技術(shù),從而找到有意義的模式,并得出大量數(shù)據(jù)的見解。
數(shù)據(jù)中心(Data centre):一個實體地點,放置了用來存儲數(shù)據(jù)的服務(wù)器。
數(shù)據(jù)清洗(Data cleansing):對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。
數(shù)據(jù)質(zhì)量(Data Quality):有關(guān)確保數(shù)據(jù)可靠性和實用價值的過程和技術(shù)。高質(zhì)量的數(shù)據(jù)應(yīng)該忠實體現(xiàn)其背后的事務(wù)進程,并能滿足在運營、決策、規(guī)劃中的預(yù)期用途。
數(shù)據(jù)訂閱(Data feed):一種數(shù)據(jù)流,例如Twitter訂閱和RSS。
數(shù)據(jù)集市(Data Mart):進行數(shù)據(jù)集買賣的在線交易場所。
數(shù)據(jù)建模(Data modelling):使用數(shù)據(jù)建模技術(shù)來分析數(shù)據(jù)對象,以此洞悉數(shù)據(jù)的內(nèi)在涵義。
數(shù)據(jù)集(Data set):大量數(shù)據(jù)的集合。
數(shù)據(jù)虛擬化(Data virtualization):數(shù)據(jù)整合的過程,以此獲得更多的數(shù)據(jù)信息,這個過程通常會引入其他技術(shù),例如數(shù)據(jù)庫,應(yīng)用程序,文件系統(tǒng),網(wǎng)頁技術(shù),大數(shù)據(jù)技術(shù)等等。
判別分析(Discriminant analysis):將數(shù)據(jù)分類,按不同的分類方式,可將數(shù)據(jù)分配到不同的群組,類別或者目錄。是一種統(tǒng)計分析法,可以對數(shù)據(jù)中某些群組或集群的已知信息進行分析,并從中獲取分類規(guī)則。
分布式文件系統(tǒng)(Distributed File System):提供簡化的,高可用的方式來存儲、分析、處理數(shù)據(jù)的系統(tǒng)。
文件存貯數(shù)據(jù)庫(Document Store Databases):又稱為文檔數(shù)據(jù)庫,為存儲、管理、恢復(fù)文檔數(shù)據(jù)而專門設(shè)計的數(shù)據(jù)庫,這類文檔數(shù)據(jù)也稱為半結(jié)構(gòu)化數(shù)據(jù)。
E
探索性分析(Exploratory analysis):在沒有標準的流程或方法的情況下從數(shù)據(jù)中發(fā)掘模式。是一種發(fā)掘數(shù)據(jù)和數(shù)據(jù)集主要特性的一種方法。
提取-轉(zhuǎn)換-加載(ETL:Extract,Transform and Load):是一種用于數(shù)據(jù)庫或者數(shù)據(jù)倉庫的處理過程,天善學(xué)院有國內(nèi)唯一的最全的ETL學(xué)習(xí)課程。即從各種不同的數(shù)據(jù)源提取(E)數(shù)據(jù),并轉(zhuǎn)換(T)成能滿足業(yè)務(wù)需要的數(shù)據(jù),最后將其加載(L)到數(shù)據(jù)庫。
G
游戲化(Gamification):在其他非游戲領(lǐng)域中運用游戲的思維和機制,這種方法可以以一種十分友好的方式進行數(shù)據(jù)的創(chuàng)建和偵測,非常有效。
圖形數(shù)據(jù)庫(Graph Databases):運用圖形結(jié)構(gòu)(例如,一組有限的有序?qū)Γ蛘吣撤N實體)來存儲數(shù)據(jù),這種圖形存儲結(jié)構(gòu)包括邊緣、屬性和節(jié)點。它提供了相鄰節(jié)點間的自由索引功能,也就是說,數(shù)據(jù)庫中每個元素間都與其他相鄰元素直接關(guān)聯(lián)。
網(wǎng)格計算(Grid computing):將許多分布在不同地點的計算機連接在一起,用以處理某個特定問題,通常是通過云將計算機相連在一起。
H
Hadoop:一個開源的分布式系統(tǒng)基礎(chǔ)框架,可用于開發(fā)分布式程序,進行大數(shù)據(jù)的運算與存儲。
Hadoop數(shù)據(jù)庫(HBase):一個開源的、非關(guān)系型、分布式數(shù)據(jù)庫,與Hadoop框架共同使用。
HDFS:Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System);是一個被設(shè)計成適合運行在通用硬件 戴表是一種品位一個人難得的好品味,首先是他穿著搭配得體,符合場合,而在服裝與手表的關(guān)系也非常微妙,合體的衣服與手表能起到畫龍點睛的作用。手表不同于服裝,更能從細節(jié)體現(xiàn)出一個人的獨特的品位,好的品牌手表做工精細,造型考究,戴上一只精制的腕表,給你的身份和儀表加分。成功男士喜歡佩戴手表可以讓自己更有內(nèi)涵,美麗的女士凹上手表硬是把街上的妖艷賤貨甩出了十條街。如果一個屌絲帶上一條金燦燦的金項鏈,給人什么感覺?登徒浪子?暴發(fā)戶?還是……?而帶上一只手表,既能顯示自己的經(jīng)濟實力,又能體現(xiàn)自己的品味,含蓄而不張揚,恰到好處,給你無限的風(fēng)度、氣質(zhì)和自信。(commodity hardware)上的分布式文件系統(tǒng)。
高性能計算(HPC:High-Performance-Computing):使用超級計算機來解決極其復(fù)雜的計算問題。
I
內(nèi)存數(shù)據(jù)庫(IMDB:In-memory):一種數(shù)據(jù)庫管理系統(tǒng),與普通數(shù)據(jù)庫管理系統(tǒng)不同之處在于,它用主存來存儲數(shù)據(jù),而非硬盤。其特點在于能高速地進行數(shù)據(jù)的處理和存取。
物聯(lián)網(wǎng)(IoT):最新的流行語是物聯(lián)網(wǎng)(IOT)。IOT通過互聯(lián)網(wǎng)將嵌入式對象(傳感器,可穿戴設(shè)備,汽車,冰箱等)中的計算設(shè)備進行互連,并且能夠發(fā)送以及接收數(shù)據(jù)。IOT生成大量數(shù)據(jù),提供了大量大數(shù)據(jù)分析的機會。
K
鍵值數(shù)據(jù)庫(Key-Value Databases):數(shù)據(jù)的存儲方式是使用一個特定的鍵,指向一個特定的數(shù)據(jù)記錄,這種方式使得數(shù)據(jù)的查找更加方便快捷。鍵值數(shù)據(jù)庫中所存的數(shù)據(jù)通常為編程語言中基本數(shù)據(jù)類型的數(shù)據(jù)。
L
負載均衡(Load balancing):將工作量分配到多臺電腦或服務(wù)器上,以獲得最優(yōu)結(jié)果和最大的系統(tǒng)利用率。
位置信息(Location data):GPS信息,即地理位置信息。
日志文件(Log file):由計算機系統(tǒng)自動生成的文件,記錄系統(tǒng)的運行過程。
M
M2M數(shù)據(jù)(Machine 2 Machine data):兩臺或多臺機器間交流與傳輸?shù)膬?nèi)容。
機器數(shù)據(jù)(Machine data):由傳感器或算法在機器上產(chǎn)生的數(shù)據(jù)。
機器學(xué)習(xí)(Machine learning):人工智能的一部分,指的是機器能夠從它們所完成的任務(wù)中進行自我學(xué)習(xí),通過長期的累積實現(xiàn)自我改進。
Map Reduce:是處理大規(guī)模數(shù)據(jù)的一種軟件框架(Map:映射,Reduce:歸納)。
大規(guī)模并行處理(MPP:Massivel yParallel Processing):同時使用多個處理器(或多臺計算機)處理同一個計算任務(wù)。
元數(shù)據(jù)(Meta data):被稱為描述數(shù)據(jù)的數(shù)據(jù),即描述數(shù)據(jù)數(shù)據(jù)屬性(數(shù)據(jù)是什么)的信息。
多維數(shù)據(jù)庫(Multi-Dimensional Databases):用于優(yōu)化數(shù)據(jù)聯(lián)機分析處理(OLAP)程序,優(yōu)化數(shù)據(jù)倉庫的一種數(shù)據(jù)庫。
多值數(shù)據(jù)庫(MultiValue Databases):是一種非關(guān)系型數(shù)據(jù)庫(NoSQL),一種特殊的多維數(shù)據(jù)庫:能處理3個維度的數(shù)據(jù)。主要針對非常長的字符串,能夠完美地處理HTML和XML中的字串。
N
自然語言處理(Natural Language Processing):是計算機科學(xué)的一個分支領(lǐng)域,它研究如何實現(xiàn)計算機與人類語言之間的交互。
網(wǎng)絡(luò)分析(Network analysis):分析網(wǎng)絡(luò)或圖論中節(jié)點間的關(guān)系,即分析網(wǎng)絡(luò)中節(jié)點間的連接和強度關(guān)系。
NewSQL:一個優(yōu)雅的、定義良好的數(shù)據(jù)庫系統(tǒng),比SQL更易學(xué)習(xí)和使用,比NoSQL更晚提出的新型數(shù)據(jù)庫。
NoSQL:顧名思義,就是“不使用SQL”的數(shù)據(jù)庫。這類數(shù)據(jù)庫泛指傳統(tǒng)關(guān)系型數(shù)據(jù)庫以外的其他類型的數(shù)據(jù)庫。這類數(shù)據(jù)庫有更強的一致性,能處理超大規(guī)模和高并發(fā)的數(shù)據(jù)。
O
對象數(shù)據(jù)庫(Object Databases):(也稱為面象對象數(shù)據(jù)庫)以對象的形式存儲數(shù)據(jù),用于面向?qū)ο缶幊獭K煌陉P(guān)系型數(shù)據(jù)庫和圖形數(shù)據(jù)庫,大部分對象數(shù)據(jù)庫都提供一種查詢語言,允許使用聲明式編程(declarative programming)訪問對象。
基于對象圖像分析(Object-based Image Analysis):數(shù)字圖像分析方法是對每一個像素的數(shù)據(jù)進行分析,而基于對象的圖像分析方法則只分析相關(guān)像素的數(shù)據(jù),這些相關(guān)像素被稱為對象或圖像對象。
操作型數(shù)據(jù)庫(Operational Databases):這類數(shù)據(jù)庫可以完成一個組織機構(gòu)的常規(guī)操作,對商業(yè)運營非常重要,一般使用在線事務(wù)處理,允許用戶訪問、收集、檢索公司內(nèi)部的具體信息。
優(yōu)化分析(Optimization analysis):在產(chǎn)品設(shè)計周期依靠算法來實現(xiàn)的優(yōu)化過程,在這一過程中,公司可以設(shè)計各種各樣的產(chǎn)品并測試這些產(chǎn)品是否滿足預(yù)設(shè)值。
本體論(Ontology):表示知識本體,用于定義一個領(lǐng)域中的概念集及概念之間的關(guān)系的一種哲學(xué)思想。(譯者注:數(shù)據(jù)被提高到哲學(xué)的高度,被賦予了世界本體的意義,成為一個獨立的客觀數(shù)據(jù)世界)
異常值檢測(Outlier detection):異常值是指嚴重偏離一個數(shù)據(jù)集或一個數(shù)據(jù)組合總平均值的對象,該對象與數(shù)據(jù)集中的其他它相去甚遠,因此,異常值的出現(xiàn)意味著系統(tǒng)發(fā)生問題,需要對此另加分析。
聯(lián)機分析處理(On-Line Analytical Processing,OLAP):能讓用戶輕松制作、瀏覽報告的工具,這些報告總結(jié)相關(guān)數(shù)據(jù),并從多角度分析。
P
模式識別(Pattern Recognition):通過算法來識別數(shù)據(jù)中的模式,并對同一數(shù)據(jù)源中的新數(shù)據(jù)作出預(yù)測
平臺即服務(wù)(PaaS:Platform-as-a-Service):為云計算解決方案提供所有必需的基礎(chǔ)平臺的一種服務(wù)。
預(yù)測分析(Predictive analysis):大數(shù)據(jù)分析方法中最有價值的一種分析方法,這種方法有助于預(yù)測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網(wǎng)站,做某些事情或者產(chǎn)生某種行為。通過使用各種不同的數(shù)據(jù)集,例如歷史數(shù)據(jù),事務(wù)數(shù)據(jù),社交數(shù)據(jù),或者客戶的個人信息數(shù)據(jù),來識別風(fēng)險和機遇。
公共數(shù)據(jù)(Public data):由公共基金創(chuàng)建的公共信息或公共數(shù)據(jù)集。
Q
數(shù)字化自我(Quantified Self):使用應(yīng)用程序跟蹤用戶一天的一舉一動,從而更好地理解其相關(guān)的行為。
R
R:是一種編程語言,在統(tǒng)計計算方面很出色。如果你不知道 R,你就稱不上是數(shù)據(jù)科學(xué)家。R 是數(shù)據(jù)科學(xué)中最受歡迎的語言之一。
再識別(Re-identification):將多個數(shù)據(jù)集合并在一起,從匿名化的數(shù)據(jù)中識別出個人信息。
回歸分析(Regression analysis):確定兩個變量間的依賴關(guān)系。這種方法假設(shè)兩個變量之間存在單向的因果關(guān)系(譯者注:自變量,因變量,二者不可互換)。
實時數(shù)據(jù)(Real-time data):指在幾毫秒內(nèi)被創(chuàng)建、處理、存儲、分析并顯示的數(shù)據(jù)。
推薦引擎(Recommendation engine):推薦引擎算法根據(jù)用戶之前的購買行為或其他購買行為向用戶推薦某種產(chǎn)品。
路徑分析(Routing analysis):–針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優(yōu)路徑,以達到降低燃料費用,提高效率的目的。
S
半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured data):半結(jié)構(gòu)化數(shù)據(jù)并不具有結(jié)構(gòu)化數(shù)據(jù)嚴格的存儲結(jié)構(gòu),但它可以使用標簽或其他形式的標記方式以保證數(shù)據(jù)的層次結(jié)構(gòu)。
結(jié)構(gòu)化數(shù)據(jù)(Structured data):可以組織成行列結(jié)構(gòu),可識別的數(shù)據(jù)。這類數(shù)據(jù)通常是一條記錄,或者一個文件,或者是被正確標記過的數(shù)據(jù)中的某一個字段,并且可以被精確地定位到。
情感分析(Sentiment Analysis):通過算法分析出人們是如何看待某些話題。
信號分析(Signal analysis):指通過度量隨時間或空間變化的物理量來分析產(chǎn)品的性能。特別是使用傳感器數(shù)據(jù)。
相似性搜索(Similarity searches):在數(shù)據(jù)庫中查詢最相似的對象,這里所說的數(shù)據(jù)對象可以是任意類型的數(shù)據(jù)。
仿真分析(Simulation analysis):仿真是指模擬真實環(huán)境中進程或系統(tǒng)的操作。仿真分析可以在仿真時考慮多種不同的變量,確保產(chǎn)品性能達到最優(yōu)。
軟件即服務(wù)(SaaS:Software-as-a-Service):基于Web的通過瀏覽器使用的一種應(yīng)用軟件。
空間分析(Spatial analysis):空間分析法分析地理信息或拓撲信息這類空間數(shù)據(jù),從中得出分布在地理空間中的數(shù)據(jù)的模式和規(guī)律。
SQL:在關(guān)系型數(shù)據(jù)庫中,用于檢索數(shù)據(jù)的一種編程語言。
流處理(Stream processing):流處理旨在對有“連續(xù)”要求的實時和流數(shù)據(jù)進行處理。結(jié)合流分析,即在流內(nèi)不間斷地計算數(shù)學(xué)或統(tǒng)計分析的能力。流處理解決方案旨在對高流量進行實時處理。
T
時序分析(Time series analysis):分析在重復(fù)測量時間里獲得的定義良好的數(shù)據(jù)。分析的數(shù)據(jù)必須是良好定義的,并且要取自相同時間間隔的連續(xù)時間點。
拓撲數(shù)據(jù)分析(Topological Data Analysis):拓撲數(shù)據(jù)分析主要關(guān)注三點:復(fù)合數(shù)據(jù)模型、集群的識別、以及數(shù)據(jù)的統(tǒng)計學(xué)意義。
交易數(shù)據(jù)(Transactional data):隨時間變化的動態(tài)數(shù)據(jù)
透明性(Transparency):–消費者想要知道他們的數(shù)據(jù)有什么作用、被作何處理,而組織機構(gòu)則把這些信息都透明化了。
文本挖掘(Text Mining):對包含自然語言的數(shù)據(jù)的分析。對源數(shù)據(jù)中詞語和短語進行統(tǒng)計計算,以便用數(shù)學(xué)術(shù)語表達文本結(jié)構(gòu),之后用傳統(tǒng)數(shù)據(jù)挖掘技術(shù)分析文本結(jié)構(gòu)。
U
非結(jié)構(gòu)化數(shù)據(jù)(Un-structured data):非結(jié)構(gòu)化數(shù)據(jù)一般被認為是大量純文本數(shù)據(jù),其中還可能包含日期,數(shù)字和實例。
V
價值(Value):(譯者注:大數(shù)據(jù)4V特點之一)所有可用的數(shù)據(jù),能為組織機構(gòu)、社會、消費者創(chuàng)造出巨大的價值。這意味著各大企業(yè)及整個產(chǎn)業(yè)都將從大數(shù)據(jù)中獲益。
可變性(Variability):也就是說,數(shù)據(jù)的含義總是在(快速)變化的。例如,一個詞在相同的推文中可以有完全不同的意思。
多樣(Variety):(譯者注:大數(shù)據(jù)4V特點之一)數(shù)據(jù)總是以各種不同的形式呈現(xiàn),如結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),甚至還有復(fù)雜結(jié)構(gòu)化數(shù)據(jù)
高速(Velocity):(譯者注:大數(shù)據(jù)4V特點之一)在大數(shù)據(jù)時代,數(shù)據(jù)的創(chuàng)建、存儲、分析、虛擬化都要求被高速處理。
真實性(Veracity):組織機構(gòu)需要確保數(shù)據(jù)的真實性,才能保證數(shù)據(jù)分析的正確性。因此,真實性(Veracity)是指數(shù)據(jù)的正確性。
可視化(Visualization):只有正確的可視化,原始數(shù)據(jù)才可被投入使用。這里的“可視化”并非普通的圖型或餅圖,可視化指是的復(fù)雜的圖表,圖表中包含大量的數(shù)據(jù)信息,但可以被很容易地理解和閱讀。
大量(Volume):(譯者注:大數(shù)據(jù)4V特點之一)指數(shù)據(jù)量,范圍從Megabytes至Brontobytes。
W
天氣數(shù)據(jù)(Weather data):是一種重要的開放公共數(shù)據(jù)來源,如果與其他數(shù)據(jù)來源合成在一起,可以為相關(guān)組織機構(gòu)提供深入分析的依據(jù)。
網(wǎng)絡(luò)挖掘/網(wǎng)絡(luò)數(shù)據(jù)挖掘(Web Mining / Web Data Mining):使用數(shù)據(jù)挖掘技術(shù)從互聯(lián)網(wǎng)站點、文檔或服務(wù)中自動發(fā)現(xiàn)和提取信息。
X
XML數(shù)據(jù)庫(XML Databases):XML數(shù)據(jù)庫是一種以XML格式存儲數(shù)據(jù)的數(shù)據(jù)庫。XML數(shù)據(jù)庫通常與面向文檔型數(shù)據(jù)庫相關(guān)聯(lián),開發(fā)人員可以對XML數(shù)據(jù)庫的數(shù)據(jù)進行查詢,導(dǎo)出以及按指定的格式序列化。
以上就是數(shù)據(jù)分析相關(guān)術(shù)語的盤點,看完別忘點好看
,
希望他時時刻刻都在想著自己,想著自己和自己最好的時光。時刻想著我,記得每一分鐘都有人在想你,在等你。一直在你身邊,說明你們永遠不會分開。送男生女生手表的意義是手表諧音,表達愛意,代表我的心,表達愛意。我想和心愛的人一起走過每一分鐘,永遠在一起。我想告訴女孩們,我會給你我剩下的時間,這意味著永恒。大人給孩子手表的意義是想做一個從小就守時的好孩子。我希望從小就花時間學(xué)習(xí),成為一個有用的人。
原創(chuàng)文章,作者:leping,如若轉(zhuǎn)載,請注明出處:http://www.kyxa.cn/biao-16332.html