Sunday, December 28, 2008

Data Mining Chap 3 ─ Data Exploration

首先,
為什麼要做資料探勘?

資料探勘主要是初步的來了解資料的特性、特徵。
這可以有助於選擇正確的工具來進行前置處理(Preprocessing)或分析。
而且可以發揮人類對於識別特徵的強大能力。

事實上這會與另一個領域有所重疊,
即是探勘資料分析(Exploratory Data Analysis, EDA)。
EDA主要是透過視覺化分析資料來偵測前提或假設的錯誤。
其中兩個主要的技巧是分群(Clustering)與異常偵測(Anomaly Detection)。
但是這兩個技巧對Data Mining而言並不只是用在探勘,
而是另外兩個大主題並且在本書Chap9,10中介紹。

本章介紹以下三個重點,
1. 統計總結(Summary statistics)
在描述性統計(Descriptive statistics)中的統計總結主要包含下面三種測量
(1) 中心 (location or central tendency) - mean, mdian, mode
(2) 分佈 (dispersion or spread) - range, variance
(3) 外型 (shape) - skewness
2. 圖形化(Visualization)
是指將資料轉換成圖形化或是表格化呈現,
對人類而言如此容易識別一般性的樣式或趨勢,
也可以區分出非一般樣式或離群值(outliers)。
3. 線上分析處理(Online Analytical Processing, OLAP)
是一套有許多彈性操作的多維度資料分析法,
常用於決策支持系統。
主要是透過選取想要觀測的測量值當作多維陣列的維度,
並計算陣列中各個欄位(cell)的目標值(target value)。


Tuesday, November 25, 2008

正妹 + 帥哥。真面目

別人貼給我看的
沒看過的就加減點吧

什麼是正妹?
(還蠻傷眼的+蠻傷"心"的)
http://www.wretch.cc/blog/candy1006/20298585


什麼是帥哥?
(有對照組)
http://www.wretch.cc/blog/candy1006/21187498


這是人性OO的一面 (笑
別想太多

Saturday, November 8, 2008

ChaoS;HEAd

我可能腦子壞了吧
,不對...或許我的腦子本來就不是好的....。

暫且不論最近課業上的難關。
只是突然發覺,為什麼人是如此的虛偽。

所以說,我腦子壞了...
,竟然為了這種很久以前就接受的事實心痛。

最近,身邊有人對我這麼說,
『大家都愛聽這種話』
,這種極其虛偽,而大家都愛的話。

所以說,我腦殘,
別人聽到這種話的時候,
就算知道並不是真的也會感到很高興,
但是當我聽到,而且發現這只是虛偽的話,
我只會感到生氣、憤怒。

『可能因此,我不想撒謊吧。』
這句話肯定是天大的謊言。
但我還是希望盡我所能的不去撒謊,
哪怕得罪他人。
也因此,得證了我不適合在這種『台灣現實社會』中生存。

而對我來說,現在的宇集合正是台灣,
換句話說,
我在這個社會上是個愚蠢到極點的白癡+笨蛋。

但不管是選擇要不要繼續當個笨蛋,
我都還是會很痛苦。
卻又有這麼一說,
『不斷的痛苦下去未必是一件壞事』...。
說起來很輕鬆,
實際體驗起來彷彿心如刀割。

最近還觀察到一個現象,
虛偽的話語對於有高超自尊心的人特別有效。

結論還是一樣,
大家都愛聽虛偽的話,
而且也樂於說虛偽的話給別人聽。

『很棒、很好、很讚、很厲害、...』
甚至稱讚、贊同大家都崇拜的目標,
還可以顯得自己也跟該目標相近。

不過對我而言,
知之為知之,才是真諦。

紅花總是要有綠葉陪襯才夠美。
不能總是誇讚,
偶爾還是要找片『綠葉』來陪襯不是嗎?
所以...

Sunday, October 26, 2008

個人進度 08.10.26

目前我的個人工作有三件:
1. 找出自己的研究方向
2. 看懂學長的程式
3. 寫程式擷取ebay上的資料

1.
我對這塊領域其實很陌生
所以目前打算至少從負責的國科會計畫先下手
可惜很不湊巧的是我根本沒有線上拍賣的經驗...


由於我從小時候就對人工智慧感到好奇
哇~機器能夠跟人類相似是多美妙的事情阿~
這成了我進入資工的動機之一

也許真的很吸引人吧
這東西集合了各領域的菁英長才研究許久
可惜至今幾乎沒有真正的成功出現
顯然是個非常困難的問題

很不幸運的是我目前進入的實驗室有一部分跟機器學習有關
機器學習是人工智慧的一個子領域
腦殘的我自然也想了解機器學習囉~
又前面提到要從"線上拍賣"的研究下手
所以希望未來能將機器學習應用在線上拍賣~

不過機器學習其實跟統計相當的有關係
又很不湊巧的是這學期修了一門叫"統計學習"的課
是哪裡不湊巧呢?
是這門課我現在幾乎趨近於100%聽不懂了...
畢竟我高中時代可說是廢人一個 幾乎都在睡覺
大學又偏偏是念資工
所以基礎數學的能力趨近於零吧

我是不怎麼討厭數學啦
但是整片都是我不太熟悉的數學
就變成了整片我幾乎都看沒有...
而且大家都說很簡單
但是我怎麼看, 都看得很慢又很痛苦
幾乎碰到什麼東西都要Interrupt去跑ISR

現在如果不是休學就會被抓去當兵 我可能就去休學了
原先我不太能體會蘇學長說的話 很不幸的是 我現在多少能體會了~

不是我不願意
是在許多現實、"限時"的壓力之下
咪挺是要拿出現成的成果、要能夠報Paper
修課是要馬上會寫作業、做題目
但我卻還在這邊慢慢看基礎的東西..

也許我真的沒資格進來這邊吧
不過再怎麼後悔當初沒選擇直接重考也沒用
我的能力已經顯然不可能應付目前要做的所有事情了
就算沒時間也沒辦法
該會的總是要會
做不到就是做不到
雖然很無奈也很不願意
但這就是事實

努力慢慢爬吧~
我想活下去...在那個世界...

2.
連絡上學長了~
學長竟然叫我先去把Data Mining看到第五章

恭喜~ 本學期非正式第四門課加選成功...
哀...三門課我就...
...
..
.
另外還附贈一個好玩的Rapid Miner
這之前就下載了
好像也是要把Data Mining看一看才會玩~

3.
據說...擷取部分的程式根本人間蒸發了
哈~沒得參考

看來要先把資料庫弄出來
看看學長的程式需要什麼
才知道要擷取什麼
提示好像是要我自己去parse html

Monday, September 29, 2008

托提學長的任務

前幾天從學長那接了個任務~
據說有$$還有經驗值~(這不是OnlineGame...XD)

任務前述:
學長是作中文斷詞的研究
目前因為前置處理的檔案有問題
餘是希望我們一年級的幫忙處理

可執行等級:
Lv1 人類

任務內容:
有個資料夾中包含了上千個小文字檔案
另外有一個大文字檔案包含了資料夾中所有的小文字檔案之內容
在大文字檔案中 每份小文字檔案不會互相穿插
但也不會乖乖照著檔案名稱出現
而且兩篇小文字檔案之間沒有任何的區隔


小文字檔01.txt
1
1
1

小文字檔02.txt
2
2
2

小文字檔03.txt
3
3
3

大文字檔.txt
3
3
3
1
1
1
2
2
2

所以我們必須把大文字檔中
每份小文字檔之間加上特殊區隔符號
而且還要另外儲存一份文件記載小文字檔出現的順序


大文字檔(新).txt
3
3
3
%%
1
1
1
%%
2
2
2

索引.txt
小文字檔03
小文字檔01
小文字檔02

雖然看似簡單
但是我拿到的大文字檔超過88萬行...
小文字檔案有9000多個...
這不打緊
大文字檔和小文字檔之間都有一大堆英數與特殊符號
(應該是學長為了做研究加入的)
這可說是雪上加霜 但...更糟糕的還在後面
原先在小文字檔中的一句話
到了大文字檔中卻被切割成好幾句 甚至上百、上千句...
(就說嘛 天下哪有白吃的$$和經驗值...XDDD)

執行過程:
上面的情況已經是千瘡百孔了...
執行中還發現有錯字穿插在中間...這...時在慘不忍睹...
(不過那是到了我家可愛的幫手1號執行中才發現的...)

由於學長在交遞任務資料時有一些時間差異
所以在我拿到資料之前
我可愛的同學已經把她的份快作完囉

這...這不是抱怨哦~
嘿嘿~~
這是喜訊呢
因為我從前人的血汗過程中看穿了檔案名稱的變動規律了~~~
哇哈哈~~~(放煙火~~~)

在複習了萬年前用過的開檔讀檔之後
當然開始製造幫手1號囉~

由於資料問題太多
基本上是半自動進行的 ~"~

不過 沒意外的話
這是第一次寫程式撰到摳摳呢~
(原來我還是有點價值的...呵呵~)

Tuesday, September 23, 2008

9/23 Regular Meeting 心得

本次報告由 丁學長主講。

除非是在不能用網路的情況下,不然不要採用影片說明,
盡可能的現場操作、展示。
雖然播放展示影片比較不會出錯,但是過程太過單調,
聽眾會感到不夠生動。

很重要的重點盡量直接寫在投影片上,投影片本來就是用來寫重點的。

若是準備得很有信心,自然會對著台下講,而不是看著投影片講。

在寫進度報告的時候,要將當時情況稍略描述,降低閱讀的難度。

關於實驗室共用的 group 與 兩個 blog
我認為group較不能被取代
畢竟他是專門為了封閉式團體設計的
兼具隱私以及方便性 (主動寄信通知用戶)
blog 不是設定成公開的狀況下 無法使用RSS
另外兩個blog的定位我比較不清楚。

Friday, September 12, 2008

我家小毛~


嘿嘿~ 小鬼 快端茶來~!!!


最近稍微統計了一下這隻小毛的喜好

最愛的食物是 『魷魚絲』~!!!
第二名 『玉米』『地瓜葉』『豬肝』
第五名『荔枝』『龍眼』
其他『魚類、海鮮』『狗都愛吃的肉類』『多數水果』『多數人愛吃的零食』

它的喜好真的很不像狗...
連外觀都...好幾度被小鬼誤認成貓咪...
『碼謎~那隻貓咪好可愛哦~』or『碼謎~它是貓咪還是狗狗?』
我:默...



我很可愛對吧~喵!?


其實它是我親戚撿到的哦~
由於擺在店裡等了很久都沒人認領 所以在我小學的時候被我帶回家養~
一直都不是很確定它是哪個品種
幾乎沒有在路上看過其他一樣的
根據圖鑑查詢結果 猜測可能是 中型德國狐狸犬
(小狐狸一枚 ^口^)
Ps. 博美是小型德國狐狸犬

很聰明!? 但也很笨...@@

很笨是 出門常常認錯人...跟著別人走XD
超愛出門的

只要說話大聲一點 它就會認定你們在吵架
於是它就會使出『隱匿』特技 悄悄的消失...
而且生活用語大多都聽得懂
調皮搗蛋

大多數人在 大學一年級 剛開始在外面住宿舍的時候
幾乎都是每個禮拜回家一趟
我比較特別 是三個月之後才回家...
原因就是主人消失太久 這隻小毛鬧脾氣
之後我只要開學開始長期不在 它就會鬧脾氣
最近還會用絕食抗議+裝死...
其實小狗太聰明 主人也是很頭痛的~"~...
好顯現在學校離家裡比較進了~


想欺負我是會吃苦頭的哦~嘿嘿~