[FileMaker] 街頭藝人系列(三):再整理

資料整理的工作相當重要。

尤其是匯入的資料,很多的情況,匯入的資料會有「格式不符」、「欄位錯誤」、「資料遺失」等等情形,因為匯入資料的來源不是自己設計的資料庫,我們比較難在資料輸入的時間點就設計機制去減少錯誤。

所以,我們要對匯入的資料花多一點時間檢查,讓後續資料的使用更加順利。

再次檢查檔案

經過第一次整理的資料,仔細去看還是有一些格式有問題的記錄。比如:

  • 姓名欄位沒有正確填寫姓名:應該是資料輸出的錯誤
  • 姓名欄位有中文+英文
  • 表演項目沒有資料

需要花時間一個一個解決

螢幕快照 2018-03-08 下午5.12.54.png

新增字數計算欄位,計算姓名字數

新增一個字數計算欄位,命名為 wordLength

螢幕快照 2018-03-08 下午5.28.26.png

選擇自動計算 Calculated Value 計算式:Length ( performerName )

螢幕快照 2018-03-08 下午5.29.45.png

在 Layout: Performer_List 上添加「姓名字數」的欄位、欄位標籤

已經存在的舊記錄不會自動計算並填入「姓名字數」,未來新增的資料才會自動計算

螢幕快照 2018-03-08 下午5.35.45.png

Replace Field Contents 置換欄位內容

Records > Replace Field Contents…

螢幕快照 2018-03-08 下午5.41.04.png

Replace with calculated result: Specify… 點選進入

填入計算式 = Length ( performerName )

螢幕快照 2018-03-08 下午5.44.00.png

OK > Replace

注意:Replace 是不可逆的步驟,無法復原,重要資料需要特別注意

螢幕快照 2018-03-08 下午5.46.43.png

「姓名字數」順利填入每一筆街頭藝人的記錄中

螢幕快照 2018-03-08 下午5.48.15.png

找出不正常的姓名字數

這邊我們先定義「不正常」,一般的台灣人姓名字數是三個字,不是三個字的姓名暫時屬於不正常的範圍,利用 Find 搜尋找出不是三個字的姓名 Found Set

有很多方法可以做到,這邊介紹兩個方法

方法一:Find + Omit(找姓名字數不等於 3)

Matching Records: 點選 Omit(一般情況市選 Include,Omit 等於反向查找)

螢幕快照 2018-03-08 下午5.52.21.png

螢幕快照 2018-03-08 下午5.55.29.png

方法二:輸入兩個 Find Requests 條件(找姓名字數小於 or 大於 3)

螢幕快照 2018-03-08 下午5.57.01.png

查詢結果

兩個方法都可以找到 85 筆符合搜尋條件的記錄

螢幕快照 2018-03-08 下午5.59.01.png

檢查並刪除不正常的姓名

不這樣檢查還不一定知道,我們可以看到有「複姓」、「英文」、「中英夾雜」、「一看就知道不是姓名」的姓名資料(如(人像素描、粉彩、Q版漫畫),很明顯是錯誤的資料),接下來可以進行的步驟:(一次處理完畢)

  • 刪除非姓名的記錄
  • 中英夾雜的姓名,拆開中文、英文,「英文」的部分另外新建 note 欄位儲存
  • 單一英文名則保留
  • 同時含有兩個姓名,猜測是雙人演出,暫時先保留

螢幕快照 2018-03-08 下午6.10.31.png

螢幕快照 2018-03-08 下午6.15.25.png

整理結果

刪除 5 筆記錄,中英文分開記錄,整體感覺比較舒服了。

利用資料整理的機會也能熟悉資料查找的技巧,接著再開始做一些應用功能。

螢幕快照 2018-03-08 下午6.19.19.png

 

街頭藝人系列文章

[FileMaker] 街頭藝人系列(一):CSV 檔案匯入、Layout 整理

[FileMaker] 街頭藝人系列(二):整理資料

[FileMaker] 街頭藝人系列(三):再整理

[FileMaker] 街頭藝人系列(四):拆開姓、名

[FileMaker] 街頭藝人系列(五):Sort 排序

對「[FileMaker] 街頭藝人系列(三):再整理」的想法

發表留言