微軟研究院(Microsoft Research)前兩天發表了SandDance這個新的服務,這是個針對數據資料呈現方式所設計的資料視覺化應用網站,如果你是圖表控的話,你應該會對這個網站感到非常有用,它可以用視覺化的方式幫你將資料重新表現,你只要在瀏覽器打開它就可以使用。
與Excel的圖表不同,SandDance並不提供資料試算之類的功能,它就只專心在怎麼樣用視覺化的方式來呈現資料這件事上頭。你可以用它快速建構起來資料模型,找出資料的異常值。
我們直接到官網上來一邊操作一邊說明:
1.一開始進入的時候,他會載入一個Titanic的示範數據,你可以在紅框處選擇「Local」來載入自己的數據。
再一開始,下方的圖表X軸為年紀,Y軸為人數。因此你可以看出各個年紀的區間,人數有多少。
2.現在我們把X軸改變為性別來試試看。
3.你可以看到很快的就變成以男女為區隔,可以看出當初這艘船上男女的比例有多懸殊。
4.接下來我們選擇用不同的圖表類型來分析,我們選擇「Stacks」,由於變成了立體的圖表呈現,他會自動將票價分配到Y軸,原本的Y軸(人數)現在就自動變成Z軸。
5.現在看這張圖表,有沒有發現了什麼呢?你可以看到,不管是男是女,人數最多的都是票價最低的。而男性票價最低的人,佔了所有人裡頭最高的比例。
透過上面的示範,相信你已經看出,只要點選幾下選項,資料就可以用各種不同的方式呈現,透過這些視覺化的呈現,你可以從中發掘出不同的新發現。根據微軟表示,這個服務適用於處理大數據,可以處理從50到30萬筆的資料組合。
實測匯入國內數據
1.看完了基本的應用,我們用實際的生活數據來試試看?我們到政府資料開放平台想找一些數據比較豐富的資料來下載,不過初次使用政府資料開放平台,卻意外發現有豐富數據的資料似乎不大好找,找來找去,只找到這個選舉人人數統計表。
2.不過,這個圖表雖然有數據,但是打開來後發現並非原始數據,而是經人整理過的數據(像是系統依照男生、女生、年齡已經分類過了,但之後又將兩者合計)。當然政府這樣做是很好,只是對於我們的用途來說就有點多餘...
總之,最後我們將這個資料表整理如下,一份依照地區、年齡/性別的人口統計表。
3.然後我們將這個表格轉換成文字檔,轉換的時候記得要再編碼格式選擇「Unicode文字」,不然呈現中文的部分會變成亂碼。
4.現在就到SandDance匯入這個檔案。
5.然後這是我們的設定
6.這就是最後展示出來的圖表,X軸為各個選區,Y軸為20~29歲女性在各地區的人數
7.另外,你可以隨時點選某一個資料點,然後按下上方的「Details」,就可以檢視在這一點的數據。
8.此外,在檢視資料的過程中,如果你想排除某些資料,你隨時可以在上面直接點選,或是用框選的方式一次選擇多個資料點。
9.然後點選上方的Exclude選項,就可以把這些資料「暫時」排除在外了。
心得:資料越細,視覺化威力越強大
SandDance這個視覺化資料的網站,主要是看你餵給他什麼資料,就能呈現出什麼樣的效果。像是我們餵給他的選舉人數地區分佈圖,由於每一筆資料不夠細,我們能夠視覺化分析的圖表也就很有限。
以網站上提供示範的Titanic數據來說,每一個乘客的資料都很細,那麼可以分析的圖表應用就變得很多,因此你可以看到在一開始的示範中,我們就可以用各種呈現方式,來挖掘出其中隱藏的內容。
SandDance是針對大數據分析而設計的視覺化工具,數據越多,你可以在這個過程中發掘到的內容越多。如果你餵給他的是數據不多的「小數據」,那麼用起來基本上就跟Excel的圖表差不多,雖然一樣能用,但是在功能上就無法察覺到他強大的地方了。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!