張善政沒說的事:大數據、巨量資料平台,然後呢?

友善列印版本

漫畫「航海王」裡,敘述一位懷抱夢想的年輕海賊,渴望成為獨霸一方海賊王,在大航海時代中,到處潛藏危機卻也到處充滿機會。同樣的,台灣政府這艘艦隊是否已準備妥善,在大數據的時代,在浩瀚數據中找到傳說中的寶藏。

「資料科學家」這個專業,是DJ Patil and Jeff Hammerbacher在2008年提出的,主要指稱隨著巨量資料(big data)時代的到來,能處理且專研巨量資料的專家。之後,美國政府在2012年投入2億美金(約60億台幣),積極建構數項大數據計劃,因而帶動起一波又一波資料科學的風潮,巨量資料也因而成為熱門詞彙。柯文哲市長在台北市選戰中狂掃80多萬票,其中,準確嚴謹的資料分析,功不可沒,為台灣巨量資料寫下新的一頁。

隨著世界各國建構巨量資料平台的浪潮,行政院副院長張善政預計13日召集各部會研商建立台灣的巨量資料應用平台,以加速透過巨量資料挖掘寶藏、快速找出施政決策方向;同時預定以國家高速網路中心為運算工具,確保個資不外流。

然而,在討論台灣建構大數據政府資料庫之時,有下列幾點不免仍需審慎思考、嚴肅以對。

政府準備好了嗎?資料科學家準備好了嗎?

當美國急欲建構大數據計畫時,整個政府團隊也同步微調法案,例如修正《消費者隱私保護法案》,處理《國家資料外洩法》,以兼顧數據分析科技與保障個人隱私間的平衡。反觀台灣政府欲建構巨量資料平台,是否能在成功走向公開透明的同時,保障隱私,還有待繼續觀察。

然而在保護隱私的同時,過去時有所聞,民意代表或媒體跟政府要資料,或學者承包政府計劃案時,公務員往往以個資法為由,不願公開政府資訊。造成政府資訊極度不透明的狀況,是否在建構巨量資料平台時都能夠解決,也有待時間證明。

再者,資料的公開是否完整?將產生許多分析上的困難與問題,特別在量化統計分析過程中,若政府公開資料中缺少某些關鍵變項,那麼,後續的統計分析極容易產生嚴重的偏誤。舉例來說,當國家釋出健保資料庫,卻未提供經過處理的個人代碼,使得研究個人健康時,即使透過嚴謹的統計處理,仍無法串連為追蹤性資料庫,那麼,研究結果也較難進行嚴謹的因果推論。而上述這些都是巨量資料的公開透明度是否足夠與隱私權的保障間權衡的冰山一角!

此外,資料科學家準備好了嗎?當巨量資料擺在眼前,學術產能勢必大幅增加,然而學術產能增加真等於翻轉社會的到來嗎?在現有扭曲的高等教育體制中,教授們在無止盡追求SCI的過程,寫出的文章是否能改善這個社會,又或只在各自專精領域的期刊中大鳴大放、卻缺乏貼近社會並產生實質的社會影響力?再者,當大數據擺在眼前,專家學者們是否有能力處理這些資料?數百萬的數據,已非簡單統計迴歸模型可處理,台灣的社會科學家、自然科學家,能否與資料科學家有更緊密的合作?

解決資訊的不對等──教育與資料新聞

大數據除釋出教育研究用途的資料外,更需關心的無非是資訊取得上,是否再製了歧視與不對等。經濟學曾深入討論,市場競爭過程的資訊不對等,產生貨物產品價格差異,因而導致收入差異,嚴重剝削了勞工及消費者權益。因此,資訊取得的不對等,更需要面對與處理的議題。

大數據時代的一個重要使命其實就是想打破資訊不對等的窘境,但是在建構巨量資料平台的同時,台灣有能力處理巨量資料的人才是否充分?處理巨量資料後能說出資料故事的人才,是否足夠?假若不充分,那麼,資訊的傳播,會不會只是重新分配後,再次的不平等?

在解決資訊公開後資訊不對等的狀況,教育是重要的手段。然而,儘管台灣東吳大學開設資料科學學程,然而僅只是在大學中的教育並未足夠。美國歐巴馬政府將電腦資訊課程擴展到中學,這是一個重要的政策。這將使得新世代從小就有基本的程式編輯能力,讓挖掘數據的人才從小培養且不再侷限於特定大學專業學科當中。

另外,台灣媒體是否準備好、且有能力處理、深入發展資料新聞?紐約時報、華盛頓郵報皆各自創立資料新聞團隊,這些團隊絕非僅到研考會或期刊中找尋專家學者的文章,重新改寫發表,而是聘雇有能力自行處理資料轉化成具新聞性的社會議題與分析,如2014年年底紐約時報撰寫一系列歐巴馬健保推廣的效果。健保資料透過各種資料視覺化的呈現,讓美國民眾了解歐巴馬健保政策的效果以及缺失。

政府與商界的合作模式是大數據的阻力或助力?

台灣政府除本身有許多重要資料數據外,其實仍有許多大資本家因承接政府工程而掌握了重要的大數據,例如,遠東集團底下ETC,記載著每台上高速公路車子里程資料及駕駛資訊,若遠東集團承包政府工程,且因此獲得的交通數據,是否可以進一步釋出,讓有能力分析資料者作出分析後,創造更多效益,端看政府與商界的合作與溝通。

此外,過去許多美國商界舉行數次駭客馬拉松活動(又稱「黑客松」),不僅栽培資料科學愛好者,並且在一次次黑客松交流中,時常創造出創新的想法和成果。過去在學術單位,以及台灣g0v零時政府也數次舉辦黑客松,每次成果非凡,特別是g0v的黑客松成果更是顯著。

大數據怎麼解決社會問題?

納西姆.尼可拉斯.塔雷伯在《反脆弱》一書中提出反脆弱性的概念,直指如果可以微調許多小錯誤,應可避免重大的缺失錯誤。在大數據時代,當政府資訊能公開、透明, 即是另一種反脆弱性概念的應用。當政府有能力處理巨量資料,政策的缺失透過嚴謹的調查,掌握政策帶來的效果,不斷對政策缺失進行細微的調整,確實能避免「政策殺人」的困境。所謂「錯誤政策比貪污更可怕」,而透過資訊開放達到反脆弱的效果,或許正能面對台灣的政策,特別是社會相關政策,進而解決社會問題。

試想,當台北市政府推行「機動派出所」,若可透過資料的挖掘與分析,瞭解民眾在遭遇糾紛報警處理的機動性,呈現「機動派出所」的政策效果,政策優劣可在微調中做出正確的改正。而這只是一例,相信健康保險、長期照顧、國民年金等重要社會政策,都可在政府釋放更多資訊後,除了政策意識形態差異的討論外,更可透過數據激盪出更多政策想像的火花。

當世界各先進國家陸續對大數據時代的來臨,提出各種應對計畫,台灣政府是否真的準備好了?建構巨量資料平台,絕對不只是單純科技部規劃而已,而應是整個政府體系做出完整的規劃和盤整,透過數據的結果建構出有效率廉能的政府。

作者