Basic Data Types
Last updated
Last updated
第一章
作者: Michael Castello
瞭解你能如何處理許多不同型態的資料相當重要,這樣你才能為你的需求找到蒐集資料的最佳方式。人們以許多不同的方式來詮釋資料,在這裡我們主要使用四種測量尺度(level of measurement),包含名目型(nominal)、順序型(ordinal)、區間型(interval)以及比率型(ratio)。
想像你正在雜貨店中購物,一邊穿梭在貨架間,一邊將需要的商品放入購物籃中,裡面已經裝了一些鮮食、乳製品、冷凍食品以及罐頭,這時如果你想列一個清單整理這些商品來自於哪個貨架,這些資料將屬於名目型。"nominal"這個單字出自於拉丁文中的"nomen",意思是"關於名稱的",因此由個別資料以及其所屬的類別名稱所組成的資料,我們稱之為"名目型資料"。名目型資料是無序的(unordered),舉例來說,我們不能將一個產品的分類與奶製品在數學上做大小的比較。
名目型資料可數且常用來計算百分比,但不能計算其平均數,就像我們能指出購物籃內的多少商品或多少比例的商品是來自乳製品區,但卻不能計算籃中商品中來自哪個區域的平均值。
當有些資料只能被分為兩類,我們稱它為二元(dichotomous)。一個只能回答"是"或"否"問題的答案是二元資料,比如我們在購物時,蒐集產品有無特價的資料將屬於一種二元資料。
最後,你準備結帳並想找一排能夠最快速結完帳的隊伍,沒有仔細地計算每一排隊伍有多少等候的顧客,你大略地將隊伍分成短、中、長三種,這種資料除了類別以外還有天生的順序性,我們稱之為順序型資料(ordinal data)。在問券中,會以選項是"非常同意"、"同意"、"中立"、"不同意"、"非常不同意"的問題來蒐集順序型資料,雖然我們常給予這些選項一個對應的數值來方便分析(例如以1代表非常不同意,5表示非常同意),但這些數值並沒有數學上的意義,而且這樣的賦值方法是武斷的,我們可以使用任何有序的數字來表達這些選項,舉例來說,你也可以用5來代表非常不同意,用1來代表非常同意。
選擇不同的數值來代表類別將會影響你如何解讀你的分析結果,但只要保持數值有序,你可以選用任何你想要的集合。
最常見的賦值方法是以0或1為起始點。
就像名目型資料,順序型資料可數並可以計算其百分比,但對於順序型資料能否計算百分比仍存在有不同看法。反對的一方認為,就算將類別賦值,依然沒有數學上的實質意義,每個數值只是代表一個特定的類別,而沒有計數的功能。
支持的一方認為,如果相鄰類別間的差距近似相等(例如"非常不同意"與"不同意"的差距近似於"不同意"與"中立"),而且使用相鄰的數值來代表這些類別,則可以用平均數來解釋對類別的賦值。
有些領域非常不鼓勵對順序型資料進行運算,但在有些領域卻是很常見的做法,在使用前務必了解參考你領域中其他人的用法。
序數型資料介紹到這邊,讓我們回到商店來,你已經在排隊的隊伍中等待了一會兒,看了看你的手錶,你從11:15開始排隊,而現在已經11:30。一天中的時間屬於區間型資料(interval data),區間型資料因其相鄰點間的區間相等而得名,以時間為例,每一分鐘為六十秒,11:15至11:30的間隔等於12:00至12:15的間隔。
區間資料是具數值屬性的,你可以對它做數學運算,但它並不具有有意義的"0",換句話說,數值為0並不代表你所量測的事物不存在,例如0:00並不表示時間不存在,它只是代表一天的開始。其他在生活中常見的例子是紀年與溫度,西元0年並不代表時間在此刻之前不存在,溫度0度(華氏或攝氏)也不代表熱不存在。
時間已經來到11:30,你想著,我已經排了15分鐘的隊了???當你開始這樣想時,你想到的正是比率型資料。比率型資料亦是具數值屬性,除了比率型資料中"0"有意義之外,大致上與區間型資料十分雷同,比率型資料中的"0"表示量測之物不存在,例如0分鐘、0個人排隊、購物籃裡有0件乳製品,上述例子中,"0"確切的表達沒有任何指涉之物的存在,這跟我們先前討論過的區間型資料是不同的,另外,我們常碰到的比率型資料還有身高、體重、年齡、錢等。
區間型資料與比率型資料可以是離散或連續的,離散意思是所測量之物只能有特定數量(通常是整數),沒有任何可能值介於這些數量間,例如排隊的人數,並不會有1/3個人這樣的數值出現,但你可以計算平均值,意思是我們可以說每行隊伍平均排了4.25個人,但實際人數仍會是一個整數。連續則是表示資料可以是區間內的任何值,你可以買1.25磅的起司或排隊7.75分鐘,請注意這並不表示任何數字都是可能的值,只有特定區間內的數字才能成為可能的值,例如你無法排隊負數分鐘或買負數磅的起司,但這並不影響它的連續性。
為了表達的方便,我們經常將連續的資料四捨五入(或其他捨入方法),但這並不影響資料的連續性,資料仍然連續,不是離散。
複習一下,在商店的收據上,你能分辨出收據上的資訊是屬於上述的哪一種測量尺度嗎?
如果在網路或書上找尋"資料"的相關資料,經常可以發現變量被描述為上述的一種資料類型,請注意,許多變量並不只只屬於一種類型,反而常因為蒐集資料方法的不同,而屬於不同類型。
以年齡為例,年齡經常被以比率型資料蒐集,但也可以以順序型資料蒐集,例如在問卷中"請問您屬於以下哪個年齡層?",如此一來,我們就不會有每個受試者的年齡資料,只會知道有多少受試者屬於18-24、25-34或其他年齡層。你可能會為了一個健康研究蒐集參與者確切的膽固醇值,或者只單純的問受試者膽固醇值是否偏高,這樣的一個變量便擁有兩種不同的資料蒐集方式及資料類型。
一個通用的法則是,你可以由含有較多細節的測量尺度轉換為較少細節的測量尺度,反之則不可行。在蒐集資料時,你如果可以蒐集區間型或比率型資料,那必定可以蒐集名目型或順序型資料,但是如果資料天生屬於名目型資料,就如雜貨店中的區域,它不能被以順序型、區間型或比率型資料蒐集,然而很多被以順序型資料蒐集的變量,都也能以區間型或比率型資料蒐集。
這樣的法則也適用於你在分析或視覺化所擁有的資料時使用,被以比率型資料蒐集的變量,必可以依照專案需求將資料分群,但如果資料是以低階的尺度被蒐集,則在不另外蒐集資料的前提下,將不能提供更高階尺度的資訊,舉例來說,如果以順序型資料來蒐集年齡,未來將無法計算平均年齡,且在視覺化上將只能以年齡級距來表現,不可能將資料以連續資料來表現。
在不對資料蒐集造成過度負擔的情況下,請務必以將來有可能使用的最高階測量尺度來蒐集資料,在處理資料時才發現蒐集的資料並不能滿足視覺化的需求,將是相當令人失望的事!
還有許多常被提到的資料型態,因為其意義還存在許多爭議,我們將不在此書中討論,但仍請稍微留意其定義,在其他學習資源中仍有可能看見這些詞彙。
前述的名目型及順序型資料都是將資料分為許多類別,有些文獻中將此兩型資料歸為類別資料,其中,名目型資料又稱無序類別資料,順序型資料又稱有序類別資料,又有些文獻認為只有名目型資料為類別資料,且兩者為同義詞,可交互使用,在本書中,我們不另外使用類別資料,且將名目型資料及順序型資料視為兩個不相干的資料型態。
定性資料簡單來說就是非數值資料,而定量資料通常是數值資料,也因此可被量化,在此兩種專有名詞上,學者有共識的認為定性資料需要被預先處理,而定量資料須以不同的方法來分析,如直接的觀察紀錄與訪談的腳本。區間型與比率型資料通常是數值資料,因此被普遍地認為是定量資料,而有些歧見發生在名目型及順序型資料上,有人因為它們的類別是被定義的且其並不是真正的數值,而認為它們屬於定性資料,反之,有些人則因為它們仍可數且可計算其百分比而認為它們是定量資料。
為了避免混淆,除了我們將在問卷設計的章節討論到長期形成的定性數據外,本書將通篇使用前述的四種量測尺度,最後,當你未來遇到剛提到的幾個專有名詞時,請務必清楚確認其定義!
日期: 06/01/2014 時間: 11:32am
項目
區域
道
數量
成本 (US$)
橘子—磅
農產品
4
2
2.58
蘋果—磅
農產品
4
1
1.29
乾酪—磅
乳製品
7
1
3.49
脫脂牛奶—加侖
乳製品
8
1
4.29
豌豆—袋
冷凍食品
15
1
0.99
四季豆—袋
冷凍食品
15
3
1.77
番茄
罐頭
2
4
3.92
馬鈴薯
罐頭
3
2
2.38
蘑菇
罐頭
2
5
2.95
順序型資料型態
對應的區間型/比率型資料蒐集方法
範例
名次
紀錄用來決定名次的資料
記錄馬拉松跑者的時間,而非記錄其名次
分群尺度
直接紀錄資料本身
記錄年齡,而不是其分組
替代尺度
紀錄替代前的資料
紀錄分數,而不是級分