Monday, September 29, 2008

托提學長的任務

前幾天從學長那接了個任務~
據說有$$還有經驗值~(這不是OnlineGame...XD)

任務前述:
學長是作中文斷詞的研究
目前因為前置處理的檔案有問題
餘是希望我們一年級的幫忙處理

可執行等級:
Lv1 人類

任務內容:
有個資料夾中包含了上千個小文字檔案
另外有一個大文字檔案包含了資料夾中所有的小文字檔案之內容
在大文字檔案中 每份小文字檔案不會互相穿插
但也不會乖乖照著檔案名稱出現
而且兩篇小文字檔案之間沒有任何的區隔


小文字檔01.txt
1
1
1

小文字檔02.txt
2
2
2

小文字檔03.txt
3
3
3

大文字檔.txt
3
3
3
1
1
1
2
2
2

所以我們必須把大文字檔中
每份小文字檔之間加上特殊區隔符號
而且還要另外儲存一份文件記載小文字檔出現的順序


大文字檔(新).txt
3
3
3
%%
1
1
1
%%
2
2
2

索引.txt
小文字檔03
小文字檔01
小文字檔02

雖然看似簡單
但是我拿到的大文字檔超過88萬行...
小文字檔案有9000多個...
這不打緊
大文字檔和小文字檔之間都有一大堆英數與特殊符號
(應該是學長為了做研究加入的)
這可說是雪上加霜 但...更糟糕的還在後面
原先在小文字檔中的一句話
到了大文字檔中卻被切割成好幾句 甚至上百、上千句...
(就說嘛 天下哪有白吃的$$和經驗值...XDDD)

執行過程:
上面的情況已經是千瘡百孔了...
執行中還發現有錯字穿插在中間...這...時在慘不忍睹...
(不過那是到了我家可愛的幫手1號執行中才發現的...)

由於學長在交遞任務資料時有一些時間差異
所以在我拿到資料之前
我可愛的同學已經把她的份快作完囉

這...這不是抱怨哦~
嘿嘿~~
這是喜訊呢
因為我從前人的血汗過程中看穿了檔案名稱的變動規律了~~~
哇哈哈~~~(放煙火~~~)

在複習了萬年前用過的開檔讀檔之後
當然開始製造幫手1號囉~

由於資料問題太多
基本上是半自動進行的 ~"~

不過 沒意外的話
這是第一次寫程式撰到摳摳呢~
(原來我還是有點價值的...呵呵~)

No comments: