Text Parsing 顧名思義就是文字分析。
今天想要用利用一個網頁的文字分析來當作案例,擷取「網頁標題」,希望能夠幫助大家認識 Text Parsing 文字分析的技巧,這個技巧學會了之後,開發者可以設計出更多的自己想要的應用方式。
我自己喜歡到日本旅遊,因為比較喜歡去關西,大阪京都一帶,出發前做功課常參考 小氣少年 的部落格,而我也知道寫關東有名的是另一位部落客 林氏璧,網路上人稱:「關西小氣少年,關東林氏璧」的說法。
最近很紅的新聞,是旅遊部落客林氏璧,因公務員身份兼職被懲處(林氏璧在懲處之前已離職),我並沒有要對這件事情做評論,相關的評論可以在網路上面找到,有興趣的人可以自行搜尋相關文章。
林氏璧自己也針對這個事件作出相關說法,我剛好拿來做個網頁練習題材,練習如何擷取「網頁標題」。
步驟 1:Chrome 瀏覽器先點開網頁
點選網址,可以看到這篇近期很紅的文章,因為是商業部落客的關係,一打開網站都還沒看到文章的部份,就看到周圍確實有蠻多廣告的(這點其實我並不反對,用自己的方式做生意很好阿,我相信 10 年經營總點閱率上億一定有他的價值,不想看商業部落格的人請移駕逛其他網站,或是自己買書都可以的,實在不需要邊看邊罵的。)
步驟 2:進入「檢查原始碼」
找到「檢視原始碼」的按鈕,查看網頁原始碼
檢視 > 開發人員選項 > 檢視原始碼
步驟 3:檢查原始碼
跳出原始碼頁面,有些人看到這樣子的程式碼就會心情不好或是直接想要離開,但作為一個 FileMaker 資料庫開發人員,我們不應該害怕這樣子程式碼(原始碼),實際上 HTML 的網頁原始碼並不複雜,只是字數多,看起來比較恐怖,我們要做的是很簡單,找到規律,擷取需要的資料即可!
步驟 4:尋找標題的規則
接著回到原始文章網頁,把標題文字:「關於林氏璧被醫院記過一事 給毒友的一封公開信」整串複製下來,然後回到原始碼頁面 Command+F 貼上反查
有三個搜尋結果,我們要的應該是第一個 <title> 跟 </title> 中間的文字,在 HTML 的語法規則裡面,<title> 代表標題的標籤,<title> 跟 </title> 兩個標籤中間的文字即為文章標題。
步驟 5:FileMaker 欄位設定
回到 FileMaker,設定三個欄位
- id
- web(原網址)
- html(原始碼)
- extract(文章標題)
html 欄位儲存原始碼資料,extract 欄位擷取出文章標題
步驟 5:安排欄位位置 + 新增一個 Webviewer
Webviewer URL 設定:TextParsing::web
回到 Browse Mode
步驟 6:新增一個 Script
新增一個 Script: Get Web HTML
目的是自動提取 HTML 網站原始碼到 FileMaker 中,不需要辛苦地去複製整個網頁文字
步驟 7:執行 Script,提取 HTML 原始碼
執行剛建立的 Script: Get Web HTML
得到網頁 HTML 原始碼
步驟 8:設定 extract 欄位的 Calculated value
回到 Manage Database > extract 欄位
設定 extract 欄位爲 Calculated value
Calculated value 値可以這樣設定(如圖)
Command+C 把整串 Code 複製起來
步驟 9:extract 欄位的取代値
先點選 extract 欄位
Records > Replace Field Contents…
貼上 Code
步驟 10:得到標題
點選 Replace,順利得到標題!
結論
這樣的文字分析技巧非常有用!不侷限在單一筆資料而已,實際上還可以用在大規模的資料擷取,相關的應用就等待大家慢慢去研究了!