[FileMaker] 如何利用 Text Parsing 文字分析技巧,擷取需要的資料呢?

Text Parsing 顧名思義就是文字分析。

今天想要用利用一個網頁的文字分析來當作案例,擷取「網頁標題」,希望能夠幫助大家認識 Text Parsing 文字分析的技巧,這個技巧學會了之後,開發者可以設計出更多的自己想要的應用方式。

我自己喜歡到日本旅遊,因為比較喜歡去關西,大阪京都一帶,出發前做功課常參考 小氣少年 的部落格,而我也知道寫關東有名的是另一位部落客 林氏璧,網路上人稱:「關西小氣少年,關東林氏璧」的說法。

最近很紅的新聞,是旅遊部落客林氏璧,因公務員身份兼職被懲處(林氏璧在懲處之前已離職),我並沒有要對這件事情做評論,相關的評論可以在網路上面找到,有興趣的人可以自行搜尋相關文章。

林氏璧自己也針對這個事件作出相關說法,我剛好拿來做個網頁練習題材,練習如何擷取「網頁標題」。

關於林氏璧被醫院記過一事 給毒友的一封公開信

步驟 1:Chrome 瀏覽器先點開網頁

點選網址,可以看到這篇近期很紅的文章,因為是商業部落客的關係,一打開網站都還沒看到文章的部份,就看到周圍確實有蠻多廣告的(這點其實我並不反對,用自己的方式做生意很好阿,我相信 10 年經營總點閱率上億一定有他的價值,不想看商業部落格的人請移駕逛其他網站,或是自己買書都可以的,實在不需要邊看邊罵的。)

螢幕快照 2018-03-07 下午8.07.53.png

步驟 2:進入「檢查原始碼」

找到「檢視原始碼」的按鈕,查看網頁原始碼

檢視 > 開發人員選項 > 檢視原始碼

螢幕快照 2018-03-07 下午8.20.18.png

步驟 3:檢查原始碼

跳出原始碼頁面,有些人看到這樣子的程式碼就會心情不好或是直接想要離開,但作為一個 FileMaker 資料庫開發人員,我們不應該害怕這樣子程式碼(原始碼),實際上 HTML 的網頁原始碼並不複雜,只是字數多,看起來比較恐怖,我們要做的是很簡單,找到規律,擷取需要的資料即可!

螢幕快照 2018-03-07 下午8.23.15.png

步驟 4:尋找標題的規則

接著回到原始文章網頁,把標題文字:「關於林氏璧被醫院記過一事 給毒友的一封公開信」整串複製下來,然後回到原始碼頁面 Command+F 貼上反查

有三個搜尋結果,我們要的應該是第一個 <title> 跟 </title> 中間的文字,在 HTML 的語法規則裡面,<title> 代表標題的標籤,<title> 跟 </title> 兩個標籤中間的文字即為文章標題。

螢幕快照 2018-03-07 下午8.33.56.png

步驟 5:FileMaker 欄位設定

回到 FileMaker,設定三個欄位

  • id
  • web(原網址)
  • html(原始碼)
  • extract(文章標題)

html 欄位儲存原始碼資料,extract 欄位擷取出文章標題

螢幕快照 2018-03-07 下午8.48.10.png

步驟 5:安排欄位位置 + 新增一個 Webviewer

Webviewer URL 設定:TextParsing::web

螢幕快照 2018-03-07 下午8.57.05.png

回到 Browse Mode

螢幕快照 2018-03-07 下午8.56.26.png

步驟 6:新增一個 Script

新增一個 Script: Get Web HTML

目的是自動提取 HTML 網站原始碼到 FileMaker 中,不需要辛苦地去複製整個網頁文字

螢幕快照 2018-03-07 下午9.00.23.png

步驟 7:執行 Script,提取 HTML 原始碼

執行剛建立的 Script: Get Web HTML

得到網頁 HTML 原始碼

螢幕快照 2018-03-07 下午9.04.27.png

步驟 8:設定 extract 欄位的 Calculated value

回到 Manage Database > extract 欄位

設定 extract 欄位爲 Calculated value

螢幕快照 2018-03-07 下午9.07.44.png

Calculated value 値可以這樣設定(如圖)

Command+C 把整串 Code 複製起來

螢幕快照 2018-03-07 下午9.11.13.png

步驟 9:extract 欄位的取代値

先點選 extract 欄位

Records > Replace Field Contents…

螢幕快照 2018-03-07 下午9.14.03.png

螢幕快照 2018-03-07 下午9.15.16.png

貼上 Code

螢幕快照 2018-03-07 下午9.18.17.png

步驟 10:得到標題

點選 Replace,順利得到標題!

螢幕快照 2018-03-07 下午9.18.50.png

結論

這樣的文字分析技巧非常有用!不侷限在單一筆資料而已,實際上還可以用在大規模的資料擷取,相關的應用就等待大家慢慢去研究了!

Text Parse Code 參考資料

螢幕快照 2018-03-07 下午9.07.02.png

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s