資料整理的工作相當重要。
尤其是匯入的資料,很多的情況,匯入的資料會有「格式不符」、「欄位錯誤」、「資料遺失」等等情形,因為匯入資料的來源不是自己設計的資料庫,我們比較難在資料輸入的時間點就設計機制去減少錯誤。
所以,我們要對匯入的資料花多一點時間檢查,讓後續資料的使用更加順利。
再次檢查檔案
經過第一次整理的資料,仔細去看還是有一些格式有問題的記錄。比如:
- 姓名欄位沒有正確填寫姓名:應該是資料輸出的錯誤
- 姓名欄位有中文+英文
- 表演項目沒有資料
需要花時間一個一個解決
新增字數計算欄位,計算姓名字數
新增一個字數計算欄位,命名為 wordLength
選擇自動計算 Calculated Value 計算式:Length ( performerName )
在 Layout: Performer_List 上添加「姓名字數」的欄位、欄位標籤
已經存在的舊記錄不會自動計算並填入「姓名字數」,未來新增的資料才會自動計算
Replace Field Contents 置換欄位內容
Records > Replace Field Contents…
Replace with calculated result: Specify… 點選進入
填入計算式 = Length ( performerName )
OK > Replace
注意:Replace 是不可逆的步驟,無法復原,重要資料需要特別注意
「姓名字數」順利填入每一筆街頭藝人的記錄中
找出不正常的姓名字數
這邊我們先定義「不正常」,一般的台灣人姓名字數是三個字,不是三個字的姓名暫時屬於不正常的範圍,利用 Find 搜尋找出不是三個字的姓名 Found Set
有很多方法可以做到,這邊介紹兩個方法
方法一:Find + Omit(找姓名字數不等於 3)
Matching Records: 點選 Omit(一般情況市選 Include,Omit 等於反向查找)
方法二:輸入兩個 Find Requests 條件(找姓名字數小於 or 大於 3)
查詢結果
兩個方法都可以找到 85 筆符合搜尋條件的記錄
檢查並刪除不正常的姓名
不這樣檢查還不一定知道,我們可以看到有「複姓」、「英文」、「中英夾雜」、「一看就知道不是姓名」的姓名資料(如(人像素描、粉彩、Q版漫畫),很明顯是錯誤的資料),接下來可以進行的步驟:(一次處理完畢)
- 刪除非姓名的記錄
- 中英夾雜的姓名,拆開中文、英文,「英文」的部分另外新建 note 欄位儲存
- 單一英文名則保留
- 同時含有兩個姓名,猜測是雙人演出,暫時先保留
整理結果
刪除 5 筆記錄,中英文分開記錄,整體感覺比較舒服了。
利用資料整理的機會也能熟悉資料查找的技巧,接著再開始做一些應用功能。
對「[FileMaker] 街頭藝人系列(三):再整理」的想法