Sunday, December 28, 2008

Data Mining Chap 3 ─ Data Exploration

首先,
為什麼要做資料探勘?

資料探勘主要是初步的來了解資料的特性、特徵。
這可以有助於選擇正確的工具來進行前置處理(Preprocessing)或分析。
而且可以發揮人類對於識別特徵的強大能力。

事實上這會與另一個領域有所重疊,
即是探勘資料分析(Exploratory Data Analysis, EDA)。
EDA主要是透過視覺化分析資料來偵測前提或假設的錯誤。
其中兩個主要的技巧是分群(Clustering)與異常偵測(Anomaly Detection)。
但是這兩個技巧對Data Mining而言並不只是用在探勘,
而是另外兩個大主題並且在本書Chap9,10中介紹。

本章介紹以下三個重點,
1. 統計總結(Summary statistics)
在描述性統計(Descriptive statistics)中的統計總結主要包含下面三種測量
(1) 中心 (location or central tendency) - mean, mdian, mode
(2) 分佈 (dispersion or spread) - range, variance
(3) 外型 (shape) - skewness
2. 圖形化(Visualization)
是指將資料轉換成圖形化或是表格化呈現,
對人類而言如此容易識別一般性的樣式或趨勢,
也可以區分出非一般樣式或離群值(outliers)。
3. 線上分析處理(Online Analytical Processing, OLAP)
是一套有許多彈性操作的多維度資料分析法,
常用於決策支持系統。
主要是透過選取想要觀測的測量值當作多維陣列的維度,
並計算陣列中各個欄位(cell)的目標值(target value)。


Tuesday, November 25, 2008

正妹 + 帥哥。真面目

別人貼給我看的
沒看過的就加減點吧

什麼是正妹?
(還蠻傷眼的+蠻傷"心"的)
http://www.wretch.cc/blog/candy1006/20298585


什麼是帥哥?
(有對照組)
http://www.wretch.cc/blog/candy1006/21187498


這是人性OO的一面 (笑
別想太多

Saturday, November 8, 2008

ChaoS;HEAd

我可能腦子壞了吧
,不對...或許我的腦子本來就不是好的....。

暫且不論最近課業上的難關。
只是突然發覺,為什麼人是如此的虛偽。

所以說,我腦子壞了...
,竟然為了這種很久以前就接受的事實心痛。

最近,身邊有人對我這麼說,
『大家都愛聽這種話』
,這種極其虛偽,而大家都愛的話。

所以說,我腦殘,
別人聽到這種話的時候,
就算知道並不是真的也會感到很高興,
但是當我聽到,而且發現這只是虛偽的話,
我只會感到生氣、憤怒。

『可能因此,我不想撒謊吧。』
這句話肯定是天大的謊言。
但我還是希望盡我所能的不去撒謊,
哪怕得罪他人。
也因此,得證了我不適合在這種『台灣現實社會』中生存。

而對我來說,現在的宇集合正是台灣,
換句話說,
我在這個社會上是個愚蠢到極點的白癡+笨蛋。

但不管是選擇要不要繼續當個笨蛋,
我都還是會很痛苦。
卻又有這麼一說,
『不斷的痛苦下去未必是一件壞事』...。
說起來很輕鬆,
實際體驗起來彷彿心如刀割。

最近還觀察到一個現象,
虛偽的話語對於有高超自尊心的人特別有效。

結論還是一樣,
大家都愛聽虛偽的話,
而且也樂於說虛偽的話給別人聽。

『很棒、很好、很讚、很厲害、...』
甚至稱讚、贊同大家都崇拜的目標,
還可以顯得自己也跟該目標相近。

不過對我而言,
知之為知之,才是真諦。

紅花總是要有綠葉陪襯才夠美。
不能總是誇讚,
偶爾還是要找片『綠葉』來陪襯不是嗎?
所以...

Sunday, October 26, 2008

個人進度 08.10.26

目前我的個人工作有三件:
1. 找出自己的研究方向
2. 看懂學長的程式
3. 寫程式擷取ebay上的資料

1.
我對這塊領域其實很陌生
所以目前打算至少從負責的國科會計畫先下手
可惜很不湊巧的是我根本沒有線上拍賣的經驗...


由於我從小時候就對人工智慧感到好奇
哇~機器能夠跟人類相似是多美妙的事情阿~
這成了我進入資工的動機之一

也許真的很吸引人吧
這東西集合了各領域的菁英長才研究許久
可惜至今幾乎沒有真正的成功出現
顯然是個非常困難的問題

很不幸運的是我目前進入的實驗室有一部分跟機器學習有關
機器學習是人工智慧的一個子領域
腦殘的我自然也想了解機器學習囉~
又前面提到要從"線上拍賣"的研究下手
所以希望未來能將機器學習應用在線上拍賣~

不過機器學習其實跟統計相當的有關係
又很不湊巧的是這學期修了一門叫"統計學習"的課
是哪裡不湊巧呢?
是這門課我現在幾乎趨近於100%聽不懂了...
畢竟我高中時代可說是廢人一個 幾乎都在睡覺
大學又偏偏是念資工
所以基礎數學的能力趨近於零吧

我是不怎麼討厭數學啦
但是整片都是我不太熟悉的數學
就變成了整片我幾乎都看沒有...
而且大家都說很簡單
但是我怎麼看, 都看得很慢又很痛苦
幾乎碰到什麼東西都要Interrupt去跑ISR

現在如果不是休學就會被抓去當兵 我可能就去休學了
原先我不太能體會蘇學長說的話 很不幸的是 我現在多少能體會了~

不是我不願意
是在許多現實、"限時"的壓力之下
咪挺是要拿出現成的成果、要能夠報Paper
修課是要馬上會寫作業、做題目
但我卻還在這邊慢慢看基礎的東西..

也許我真的沒資格進來這邊吧
不過再怎麼後悔當初沒選擇直接重考也沒用
我的能力已經顯然不可能應付目前要做的所有事情了
就算沒時間也沒辦法
該會的總是要會
做不到就是做不到
雖然很無奈也很不願意
但這就是事實

努力慢慢爬吧~
我想活下去...在那個世界...

2.
連絡上學長了~
學長竟然叫我先去把Data Mining看到第五章

恭喜~ 本學期非正式第四門課加選成功...
哀...三門課我就...
...
..
.
另外還附贈一個好玩的Rapid Miner
這之前就下載了
好像也是要把Data Mining看一看才會玩~

3.
據說...擷取部分的程式根本人間蒸發了
哈~沒得參考

看來要先把資料庫弄出來
看看學長的程式需要什麼
才知道要擷取什麼
提示好像是要我自己去parse html

Monday, September 29, 2008

托提學長的任務

前幾天從學長那接了個任務~
據說有$$還有經驗值~(這不是OnlineGame...XD)

任務前述:
學長是作中文斷詞的研究
目前因為前置處理的檔案有問題
餘是希望我們一年級的幫忙處理

可執行等級:
Lv1 人類

任務內容:
有個資料夾中包含了上千個小文字檔案
另外有一個大文字檔案包含了資料夾中所有的小文字檔案之內容
在大文字檔案中 每份小文字檔案不會互相穿插
但也不會乖乖照著檔案名稱出現
而且兩篇小文字檔案之間沒有任何的區隔


小文字檔01.txt
1
1
1

小文字檔02.txt
2
2
2

小文字檔03.txt
3
3
3

大文字檔.txt
3
3
3
1
1
1
2
2
2

所以我們必須把大文字檔中
每份小文字檔之間加上特殊區隔符號
而且還要另外儲存一份文件記載小文字檔出現的順序


大文字檔(新).txt
3
3
3
%%
1
1
1
%%
2
2
2

索引.txt
小文字檔03
小文字檔01
小文字檔02

雖然看似簡單
但是我拿到的大文字檔超過88萬行...
小文字檔案有9000多個...
這不打緊
大文字檔和小文字檔之間都有一大堆英數與特殊符號
(應該是學長為了做研究加入的)
這可說是雪上加霜 但...更糟糕的還在後面
原先在小文字檔中的一句話
到了大文字檔中卻被切割成好幾句 甚至上百、上千句...
(就說嘛 天下哪有白吃的$$和經驗值...XDDD)

執行過程:
上面的情況已經是千瘡百孔了...
執行中還發現有錯字穿插在中間...這...時在慘不忍睹...
(不過那是到了我家可愛的幫手1號執行中才發現的...)

由於學長在交遞任務資料時有一些時間差異
所以在我拿到資料之前
我可愛的同學已經把她的份快作完囉

這...這不是抱怨哦~
嘿嘿~~
這是喜訊呢
因為我從前人的血汗過程中看穿了檔案名稱的變動規律了~~~
哇哈哈~~~(放煙火~~~)

在複習了萬年前用過的開檔讀檔之後
當然開始製造幫手1號囉~

由於資料問題太多
基本上是半自動進行的 ~"~

不過 沒意外的話
這是第一次寫程式撰到摳摳呢~
(原來我還是有點價值的...呵呵~)

Tuesday, September 23, 2008

9/23 Regular Meeting 心得

本次報告由 丁學長主講。

除非是在不能用網路的情況下,不然不要採用影片說明,
盡可能的現場操作、展示。
雖然播放展示影片比較不會出錯,但是過程太過單調,
聽眾會感到不夠生動。

很重要的重點盡量直接寫在投影片上,投影片本來就是用來寫重點的。

若是準備得很有信心,自然會對著台下講,而不是看著投影片講。

在寫進度報告的時候,要將當時情況稍略描述,降低閱讀的難度。

關於實驗室共用的 group 與 兩個 blog
我認為group較不能被取代
畢竟他是專門為了封閉式團體設計的
兼具隱私以及方便性 (主動寄信通知用戶)
blog 不是設定成公開的狀況下 無法使用RSS
另外兩個blog的定位我比較不清楚。

Friday, September 12, 2008

我家小毛~


嘿嘿~ 小鬼 快端茶來~!!!


最近稍微統計了一下這隻小毛的喜好

最愛的食物是 『魷魚絲』~!!!
第二名 『玉米』『地瓜葉』『豬肝』
第五名『荔枝』『龍眼』
其他『魚類、海鮮』『狗都愛吃的肉類』『多數水果』『多數人愛吃的零食』

它的喜好真的很不像狗...
連外觀都...好幾度被小鬼誤認成貓咪...
『碼謎~那隻貓咪好可愛哦~』or『碼謎~它是貓咪還是狗狗?』
我:默...



我很可愛對吧~喵!?


其實它是我親戚撿到的哦~
由於擺在店裡等了很久都沒人認領 所以在我小學的時候被我帶回家養~
一直都不是很確定它是哪個品種
幾乎沒有在路上看過其他一樣的
根據圖鑑查詢結果 猜測可能是 中型德國狐狸犬
(小狐狸一枚 ^口^)
Ps. 博美是小型德國狐狸犬

很聰明!? 但也很笨...@@

很笨是 出門常常認錯人...跟著別人走XD
超愛出門的

只要說話大聲一點 它就會認定你們在吵架
於是它就會使出『隱匿』特技 悄悄的消失...
而且生活用語大多都聽得懂
調皮搗蛋

大多數人在 大學一年級 剛開始在外面住宿舍的時候
幾乎都是每個禮拜回家一趟
我比較特別 是三個月之後才回家...
原因就是主人消失太久 這隻小毛鬧脾氣
之後我只要開學開始長期不在 它就會鬧脾氣
最近還會用絕食抗議+裝死...
其實小狗太聰明 主人也是很頭痛的~"~...
好顯現在學校離家裡比較進了~


想欺負我是會吃苦頭的哦~嘿嘿~

Thursday, September 11, 2008

〈男生 ‧ 女生〉 = 〈女生 ‧ 男生〉

這是一個滿足"commutative"的議題

台灣屬於東方的中國型社會,思想大多比較保守。
男女歧視的問題雖然近年來有較淡化,不過依然在許多小地方看得見。
許多的婦女團體不斷的努力宣揚男女平等的觀念。

根據我的觀察
在男女數量趨於均等的團體中
當有苦力工作時
許多女生都會提出"怎麼可以讓淑女作這種事情"之類的言詞
當要投票表決時
女性幾乎都會要求"平等的權利"

我不是不支持男女平等
而是多數女性在高唱男女平的言論時
好像自己本身都沒有做到真正的男女平等

在我留長頭髮的這幾年中
尤其女性對我的評論幾乎都是"男生怎麼留長頭髮?"
其實我很也很想問"難道妳不支持男女平等嗎?"

也許男女歧視幾乎都是女性吃虧吧
所以男性支持男女平等算是利益損失
因此男性排斥男女平等我倒比較能接受
不過當男性對我的頭髮有意見時
我還是很想問"難道你的思想比清朝人還落伍嗎?"
清朝的男性頭髮過腰的比比皆是哦~
但多數情況下 我還是只能無奈的澄清"我的性向比你還正常"

說實在
我自己的觀念也不完全符合男女平等
但觀念是可以調整的~

紅橙黃綠藍靛紫

*首先聲明

我幾乎不看台灣電視的
因為大部分的節目都無法引起我的興趣
Ps. 老媽對我說過:『你每次看廣告都很專心...』
大家看電視不是都轉台轉來轉去嗎?
一百多台也是轉來轉去...
我認為是因為節目太無趣
記者沒事吃飽就在炒新聞
政治新聞整天在互轟嘴砲

*我的核心思想

『知識分子是永遠的在野黨』

保持理性 適當的督促政府為民服務應該很正常吧?
單純的癱瘓 製造麻煩 不能解決什麼問題...

『要貪可以 麻煩不要太過分 麻煩作好事情並負起責任』

說台灣的政客哪個沒貪汙 這我才不相信 ~"~
好吧,或許真的有那麼少數幾個,那麼在此忽略少數特例...

譬如說 總統薪水很高 退休又可以一直領
但說到底終究只是公務員 商人很容易就超過很多很多...
總統一人養不活十個人應該算很糟糕,對吧?
若他養了十人,那還有多少錢能買房子、過好生活呢?
好歹也是一國代表,至少不要製造國際笑話嘛~

『非非不會成"是"』

小孩子作錯的時候 常常會用 "某某也是阿~" 之類的說詞來替自己脫罪
但大家都不是小鬼了嘛?

Thursday, September 4, 2008

Google's Browser - Chrome





就是這顆球








雖然我一直認為Google有意圖搶奪微軟市場
透過網路及網路應用程式改變OS的主導地位
但一瞬間還是有點意外的是 Google 竟然採用這種方式
或許下一步 可能就是"check"了
(不過以利益考量 不一定會與微軟正面衝突就是)

回歸正題,主要特色如下:

1. 輕量記憶體
記憶體用量很小
只開啟一分頁時大約只需2~4MB即可
載入速度自然快

2. 多處理程序
每個分頁都是一個處理程序
充分發揮現在流行的雙核心CPU效能
同時也增加穩定性
若某部分附加元件或是分頁當機
可以透過瀏覽器上的"工作管理員"關閉

Ps. 直接使用XP上的工作管理員看到的處理程序名稱都一樣
無法分辨哪個分頁
但瀏覽器的工作管理員不但看得到分頁名稱
一樣也有記憶體與CPU的使用率顯示

3. 應用程式捷徑
可以把特定網頁跟加入我的最愛的方法一樣 加入應用程式捷徑
加入後可以選擇放置於桌面等處
開啟捷徑後就如同XP上應用程式一般
不過視窗的內容是網頁
而視窗的邊框是Chrome的邊框

4. 下載管理器
下載檔案時不會開啟下載總管
而是直接顯示在該分頁下方彈出的工作列
下載完成後還可以直接拖曳到Windows的其他位置
或是直接點選執行
也可以透過Ctrl+J開啟分頁專門顯示下載的檔案

5. 動態的分頁
透過滑鼠拖曳可將多個視窗合併
也可將分頁拉出獨立成一個視窗

6. 安全性
不須安裝即有類似火狐附加元件WOT的功能

7. 跨平台 + 開放原始碼
一切原始碼開放
並且參考WebKits與Mozila Firefox改進而來

8. JavaScript
採用了Google建立的超快V8 JavaScipt虛擬機器以便支援未來的網路技術

Ps. 還宣稱了這些不太可能在現有的瀏覽器上實現
Ps. Mozila的新一代JavaScipt虛擬機器TraceMonkey已經比V8還更快(3.0.1版尚未採用)

缺點:

1. 分頁顯示不夠強大
這缺點在分頁數目不大的情況下不明顯
分頁數量一多後 會無法分辨"誰是誰"

2. 沒有分頁還原功能
使用者不慎關閉使用中的分頁後無法復原

3. 沒有Add one
無法輕易擴充
僅能依靠Google主動更新

Ps. 雖然也有人認為這是優點

4. 操作性
Firefox與IE都可以點擊滑鼠中鍵快速捲動網頁
但是Chrome不行

5. 穩定性
剛試用沒多久就看到兩次小錯誤發生
另外還有一次損失所有分頁紀錄

6. 隱私性
無法自行設定何時"清除隱私資料"
固定在關閉之後清除
若不使用瀏覽器的記憶密碼功能
將於每次開啟瀏覽器時都須自行登入

總結:

我建議不喜歡麻煩的人以及初接使用者使用Chrome當瀏覽器 建議喜歡自行設定瀏覽器並對瀏覽器支援能力需求較重的進階使用者搭配安裝附加元件的Firefox 3.0(也可以再搭配Chrome滿足速度的需求)

Wednesday, August 27, 2008

Firefox 3














相信許多人都用過火狐三了
也相信很多人都知道新版本通常都會有一些問題
由於我個人相當擔心 直到這兩天才卯起來把2.0升級到3.0
畢竟我對火狐的依賴性還蠻重的

首先 火狐本身的選項、介面有著些許的改變
感覺有些迎擊IE 7的味道 (本來就是?)
雖然依舊不改"肥狐"吃記憶體的特性
但多利用一些記憶體來增加效能未嘗不好
希望穩定性能更好,bug也更少 (這是我認為不輸IE的重要關鍵)
安全性上也有所提升 對於憑證的判斷跟IE 7一樣 更加的嚴格 (更x車?)
對於 防範偽造網頁(釣魚網) 好像也做得比2.0來得更親切?

雖然有一些慣用的Add-one沒有支援3.x
不過有了更多酷炫新功能的Add-one讓我覺得值回票價~

Better GMail 2

常用GMail的一定不能錯過
主要特色是 可以將tag樹狀分類
(感覺又出現了樹狀分類的缺陷 跟我大學專題比起來 只是讓tag看起來不要那麼亂? 但是也沒有我專題中 使用者不易理解 以及效能有待考察的問題)
其他還有超酷炫的介面
或是可以隱藏一些你不想看到的部分

Tab Kit
喜愛開一大堆分頁的最愛
它的作法同我之前想要用來解決分頁雜亂眾多的作法 (意思是我不用卯起來自己寫了XD)
主要特色是可以根據瀏覽過程建出一顆樹 來分類分頁 有兩種顯示方法
一種是比較接近火狐原始的分頁表示法 不過他將level one染色 其他每個節點都跟自己level one的祖先同色
另一種當然就是樹狀顯示

WOT
釣魚、詐騙網站的剋星
註冊、登入之後可以對網站評分
其實是因為我懷疑一個網頁 可是火狐沒有任何的警告(我有勾選設定哦)
而防釣魚的工具好像都要安裝
所以就找到它囉~
最後 它證明了我的懷疑是正確的 ^.^

Site Advisor
由知名防毒軟體 McAfee 公司製作
類似 WOT
裝兩個這種軟體可以增加判斷準確度

Quick TransLation

類似 Dr.eye 的隨選翻譯
有各種不同國籍的語言可選擇
Dr.eye 好像不支援火狐3

FireFTP
忌妒 IE 可以直接開啟 FTP 嗎?
別擔心 火狐也可以

Tab Counter
分頁計數器

目前發現的bug:

1. 只要在開著火狐的其他視窗 (附加元件、下載管理員、...)的狀態下關閉火狐 當下次開啟火狐時 將不會還原瀏覽的分頁
(Ps. 很ox...兩度害我損失了所有分頁...)

2. 瀏覽某些頁面時 火狐會主動關閉...

3. 雖然我有勾選"關閉多個分頁時提醒我" 但是在多數情況下他都不會作用...

Sunday, August 3, 2008

人生 的 小道理 & 大道理

*我的小言---------------------------------------------

福從心生,禍由己招...

當徬徨不知時,記得回到原點...

研究生是每天都在放假,而且也沒有一天可以放假...

過渡的謙虛只是狂妄的假象...

*其他名言---------------------------------------------

成功是別人對你下的定義,失敗是自己籤下的降書...

允許別人比自己更強...

*小黃名言---------------------------------------------

過去,我有很多夢想...

都沒有高手,你就是高手...

雖然我只能救你們裡面極少數的人,但是能救多少算多少...

人類有很強的求知慾,(所以你們都很愛八卦...)
但同時也擁有著更強的惰性...

數學都不強了,要說程式有多強那都是騙人的...

搶票

嘿嘿嘿~

網球王子在08年十月初台北有五場音樂劇 喜歡網球王子的應該都知道!?

我受人委託搶票...

一個人用三個帳號搶到了十張走道票哦~

第一場 四張 第二場 兩張 第三場 四張 全都在15排之前呢

估計是 dpi 2000 的高級滑鼠性能夠好 外加鋼彈級駕駛員的關係....(誤

雖然我一場都不去 但是超高興的 哈哈哈~~~(沒搶到的別恨我阿~)



不過 很機車的是 日方也有發售座位

加入座位位置的好壞來評論 大致上可以說日方的座位占了過半

說真的還蠻ox的...

但是日本的民族性就是 好東西留國內... (無奈



另外 我竟然發現"防外掛搶票"的作法....

由於位置有分區

先選區 再選 該區內的第幾排第幾號

而他們系統的作法是..........

選區的時候 給你隨機進入一個區

意思是 不但要判斷想選哪區的座位

選好之後 還要額外判斷他有沒有進錯區域... (夠神吧...)

錯的話要趕快上一頁...

此時更帥的是 連進入正確區域之後 回傳的座位表都有可能是假的.......

好啦...

說真的...他的系統同步性有嚴重的問題咩

用輕度DDOS 應該就能造成整個系統死結吧~~哈

結論: 應該是能寫外掛搶票吧~(小聲~~~

Thursday, July 10, 2008

小兵升級

感覺好像從低階小兵升級成中階小兵了耶 ^_^
.
..
...
不過好像還是小兵就是了......哈~



原兵營照片一張~~























新的兵營有空再來照個幾張 XD