從資料中挖寶 好工具不可少

數據、流量當道,各行各業用各種方式收集到最完整的數據,不論是製造業在工廠機台上的感測器,或零售業用來分析人流、消費者行為的智慧監測系統,最終的目的就是希望透過這些資料,改善製造流程,優化客戶體驗,甚至提供更精準的預測,降低成本,創造價值。

資料的重要性不可否認,但許多企業在開始擬定資料策略的時候,往往會遇到沒有足夠的資料,或是沒有建立資料庫的窘境;有的雖然有資料庫,但是沒有系統有效串連,或者兩者都有,卻不知道拿到資料之後要做什麼。

很明確地,企業都希望將資料創造價值,但是,該如何做?

客戶只需要鑽好一個洞,並不是一把華麗的電鑽

談到資料應用,任何一種方法都需要回到最根本的基礎——客戶需求。許多商學院談到「顧客需求」都會用一個著名的比喻:「顧客要的不是1/4吋的鑽頭,而是1/4吋的洞」,他們要的其實很簡單,就是滿足他需求的服務,能夠做到這點,對顧客而言,這就是有價值的。

同樣地,對企業來說,收集資料的目的是什麼?直白一點,企業收集資料並不是為了資料本身,而是資料產生出來的知識與對於客戶行為的了解,唯有這些知識才能為企業、為客戶創造價值。因此企業在思考如何收集與處裡資料前,需要回到初衷,思考「我的企業要從哪些資料獲取什麼知識才能為客戶創造價值?」

善用工具,從資料庫挖掘寶藏

建置資料庫是第一步,但要如何從中萃取出可以轉化成知識的寶藏,就需要善用好的工具來進行。資料庫知識探索(Knowledge Discovery in Database, KDD)就是一個將資料探索為知識的經典程序,可以參考以下步驟:

  1. 制定目標:從客戶的角度確定執行KDD流程的目標,同時了解在該領域應先俱備的相關知識
  2. 選擇目標資料庫:基於目標,選擇有興趣的資料庫來執行運算與分析。
  3. 資料清理:對所選定的資料庫做資料清理,刪除資料中的雜訊,以及重複的變數簡化資料庫。接著根據任務或目標,分析出可用於代表資料的有用功能。
  4. 資料轉換:透過降維技術,來減少變數的有效數目,提升資料使用效率。
  5. 資料探勘:根據執行KDD的目標,選擇資料探勘的方法與演算法,並且選定資料模式,即最終資料呈現的方式,如決策樹、迴歸分析圖等。
  6. 解釋探勘模式:針對資料探勘模式解釋潛在知識
  7. 運用所發現的知識:運用KDD所發現的相關知識,並且採取相關行動,重複驗證知識結果是否與目標相符。

值得注意的是,以往企業在執行KDD時,每個步驟都需要不同的工具來執行。今天,最為人所知的Python可以應用在KDD的每個步驟,也就是說不需要跨平台、跨語言來做,具有高度一致性,這也是為什麼Python相較於其他程式語言更熱門的原因。