從資料找黃金:融合大數據,創造跨世代競爭力

假設你是一個書商,想知道那些書會大賣,你會怎麼做?以往我們會拉出銷售報表,再搭配我們已知的經驗,如價格、節慶...變化因素進行判斷,再提供對應的銷售資訊。但我們透過顧客以往的匿名購買資料,結合所得稅申報、教育程度、當年總統大選等資料發現,會發現部分時候,顧客行為和編輯與行銷的直覺完全不同;甚至可以找出被忽略的熱銷書籍。(詳見行銷人的秘密武器:用「數據分析」結合「機器學習」找出暢銷商品)但是這個找出熱門商品的過程並非僅是輸入數據、按下 Enter 鍵就能產出結果,得經過多次溝通與討論,甚至是團隊的合作,才能完成。那麼,這將是一個什麼樣的工作過程呢?

資料探勘過程如同淘金

資料分析的工作至少可分為以下部分:現象描述、診斷問題、未來預測、實際應用。首先,得先瞭解當前現象,例如消費者樣貌;接著,要診斷事情發生的原因,例如某些商品的銷售為什麼特別好?了解原因後,我們希望可以透過既有的資料,協助我們預測未來會不會發生某件事,例如預測商品的銷售表現。最後,我們則希望可以促成某件事發生,例如幫助商品銷售。

但在利用資料進行預測之前,得先進行資料處理,因為沒有經過處理的原始記錄,在缺乏組織與分類的狀況下,是沒有意義的。因此,分析原始資料的過程就如同在砂礫中淘金,需要選擇正確的方式及合適的工具,才能掏出有價值的黃金。

近年來流行的資料視覺化,便是透過不同的資料工具,將資料以容易閱讀與理解的圖片形式呈現。台灣人工智慧學校AI工程師林愛哲說,以他過去在外商公司擔任產品PM與資料分析師的經驗,其實有很多工具可以協助行銷人員做出好看的圖表。他舉例,如R語言就是個方便的工具,特別是在資料前處理、計算公式,以及圖表製作等功能上提供較大的彈性,比起Excel不僅可以自訂想做的資料前處理、計算指標的公式,還可以生成較複雜的圖表。

另外近來流行的Python則是較容易上手的工具,一般沒有寫過程式的人,大約花三個月的時間,就能學會用Python寫簡單的程式,半年以上就可以相當熟練。

林愛哲進一步指出,資料視覺化不只可以幫助行銷人員報告及檢視行銷成果,也可以幫助資料工程師洞察現象,並有助於預測模型的設計。當團隊從資料中讀出需要解決的問題後,行銷人員或是需求單位可以就目前遇到的問題與資料團隊進行討論,請資料工程師就資料庫中已有的資料建立模型;如果資料有缺少的狀況,也可以再設計指標蒐集資料。模型建好後,需要經過不斷地驗證,確認模型的準確率,才能實際應用。

這中間的過程需要需求單位與資料團隊密切溝通,確認需求及所需資料無誤,而這些建模的資料有時也需要再處理,例如非結構化的資料,還得在分析前花費額外的心力,以手工或半自動的方式轉換成結構化資料,才能使用分析技術來處理。

對於許多企業來說,想要導入資料團隊,除了得給予團隊足夠的發揮空間,更需要建立一個能快速實驗的環境。我們也必須知道,資料科學並非神丹妙藥,不會一下子就給出一個解決方案,而是需要不斷的實證。同時,資料團隊的導入也牽涉到企業的典範轉移,例如本身的環境、員工的思維與觀念;對於資料管理的方式也會需要改變。以往我們依賴經驗,現在我們則以客觀的資料事實及科學方法,透過測量得到更準確的資訊,輔助決策的進行,提高決策的正確機率。對於企業來說,對於資料的精準掌握與正確應用,預期將會是下一步致勝的關鍵。