波蘭哥白尼學院院長暨秘書長與教科部國際司司長 來訪臺大
本期臺大特色課程系列報導將介紹電資學院資料科學之應用特色。
資訊科學領域
隨著資訊科技和網路技術的快速發展,各種不同媒體、不同領域、不同語言、不同背景使用者的異質資料,透過多樣化的平臺,不斷的產生與累積。搜尋引擎巨擘Google每天處理100個以千兆為單位的資料,在Twitter、Facebook、和YouTube等著名的社會媒體平臺上每天分別有5億條推文發表、3億5千萬張照片上傳、以及每分鐘總長度高達300小時的影片分享,這些都是大家所熟知的例子。巨量文字、圖片、影像等沒有結構、半結構、或結構化的資料,隨著時間而推衍,這需要新的結構、分析、組織、儲存、搜尋、和檢索理論和技術,以提供快速和準確的存取。同時,大數據記錄各類型龐大使用者真實的行為,知識挖掘、資料探勘、機器學習、人工智慧等理論和技術,將資料轉化成知識,提供新的決策模式,以及開發多樣化的創新應用和服務。
資訊科學課程
電資學院資料科學之特色課程如下,提供資料科學理論、技術、系統、與應用之核心。
資料探勘 (Data Mining)
資料探勘由大量資料內中挖掘蘊藏的知識,針對不同的資料處理階段,資料探勘可分為資料清理(Data Munging)、資料提取(Data Ingestion)、資料視覺化(Data Visualization)等。同時針對不同的資料類型,又可分為文字探勘(Text Mining)、語音探勘(Audio Mining)、影像/影片探勘(Image/Video Mining)、網路探勘(Web Mining)、異質資料探勘(Heterogeneous Data Mining)等。資料探勘技術和所處理的資料本身非常相關,除了需有可信賴的資料來源外,更需要資料相關的領域知識(Domain Knowledge)。近年來資料探勘成為資訊科學內的顯學,各大企業和研究機構皆全力發展更有效率和符合需求的資料探勘演算法。
機器學習 (Machine Learning)
機器學習目標是讓電腦能由資料中累積的經驗來自我進步,課程內容包括何時可以使用機器學習、為什麼機器可以學習、機器可以怎麼樣學習、機器可以怎麼樣學得更好等各領域機器學習使用者都應該知道的基礎演算法、理論及實務工具。同時,也將基礎工具延伸為強大而實用的工具,包括嵌入大量的特徵、融合預測性的特徵、與萃取潛藏的特徵。在面對巨量資料,機器學習更注重主動從資料中學習並抽取特徵,發掘出人類無法自行觀察到的特質和知識,並反饋回演算法中進化以加強效能。在巨量資料的輔助下,機器學習的效能有了革命性的進步,近年來已慢慢從理論走入實際。2011年2月14-16日Jeopardy!人與電腦大戰,DeepQA在益智問答競賽中,贏過兩位益智問答競賽高手簡寧斯和洛特。DeepQA結合自然語言處理、資訊檢索、機器學習、和大規模平行計算能力。2016 年 3月中旬Google 人工智慧系統 AlphaGo 與南韓棋王李世乭的圍棋大戰,5 盤競賽 AlphaGo 贏 了4盤。2016年1月28日發表在Nature的論文指出,AlphaGo採用深度神經網路(Deep Neural Network)技術,整合專家棋譜的監督式學習(Supervised Learning)和系統本身強化自我學習(Reinforcement Learning)。在其他人工智慧(Artificial Intelligence)、自動駕駛(Self-Driving)等應用也漸露曙光,機器學習在可預見的未來將會在產學界有更多突破性的發展。
雲端計算 (Cloud Computing)
藉由雲端計算技術,使用者可以透過網際網路獲得處理大量資料所需的龐大計算和儲存資源。雲端計算服務主要分為基礎設施服務 (Infrastructure-as-a-Service - IaaS) 、平臺服務 (Platform-as-a-Service - PaaS) 、與軟體服務 (Software-as-a-Service - SaaS)。基礎設施服務包括虛擬化,例如Xen和KVM,以及分散式檔案系統,例如Google檔案系統(Google File System)和Hadoop檔案系統(Hadoop File System)。在平臺服務方面,介紹NoSQL雲端資料庫,例如Google BigTable和Hadoop Hbase。
巨量資料系統 (Big Data Systems)
隨著行動、社群、雲端等應用快速發展,巨量資料已成為下一波提升所有產業生產力與創新性的重要資訊系統技術。為了處理大量資料的儲存、分析、以及運算,分散式系統是關鍵技術之一,如何提升分散式系統的效能和儲存容量以達到預期需求是研究重點。巨量資料系統課程以Google在巨量資料系統技術的成功案例為基礎,結合學界基礎研究、產業實務經驗,以及研究機構的創新研發能量,研習發展巨量資料應用所需的知識技能與系統技術。
資料安全 (Data Security)
資料科學仰賴著大量使用者所創建的資料以進行分析,然而這些資料蘊藏著使用者本身的隱私和智產權。如何能有效的運用這些資料的同時保證資料內容的安全性和個人隱私的保護,是近年來資料科學備受矚目的一大議題。除了傳統的網路資安研究,如認證(Authentication)、資料外洩防禦(Data Leakage Prevention)、入侵防禦(Intrusion Prevention)、網路存取控制(Network Access Control)、漏洞管理(Vulnerability Management)等外,更需注重如隱私保護(Privacy Preservation)、安全計算(Secure Computation)等因資料科學而新興或獲重視的安全挑戰。同時,透過資料科學技術和大量資安資料以進行資料驅動(Data-Driven)的資安系統功能,如零時漏洞偵測(Zero-Day Vulnerability Detection)、可疑活動偵測(Malicious Behavior Detection)、記錄管理(Log Management)等,也是未來資安系統的主流。
教學和研究成果
電機資訊學院在資料科學相關教學研究上表現非常傑出,ACM 所舉辦的全球知名的知識挖掘和資料探勘競賽(ACM KDD CUP),每年吸引非常多傑出團隊參與,林守德、林軒田、林智仁三位教授所帶領的團隊,2008年、2010年、2011年、2012年、和2013年共獲得7座KDD CUP冠軍。比賽所解決的都是實際應用所面臨的大數據問題,包括從乳房X光照片早期發現乳腺癌、從學生和智慧教學系統的互動日誌預測學生數學成績表現、從1百萬個匿名使用者所做的3億個音樂評級預測未知音樂評級和最喜歡的歌曲、預測騰訊微博使用者的追隨者、已知查詢和使用者資訊預測廣告的點擊率、由微軟學術搜索資料庫判斷作者和論文之關係、和論文作者歧義分析。同時,林守德教授團隊也贏得2016年網路搜尋和資料探勘 (Web Search and Data Mining) WSDM CUP世界冠軍,這是WSDM 第一次舉辦大數據評比。
林軒田教授在接受MOOC訪問時,談到「KDD-CUP比賽需要很好的『機器學習』與『人類學習』合作,才能在短時間內發揮機器學習算法的最大效益。團隊成員對『活用』與『善用』機器學習非常熟悉,這些經驗再加上成員們的努力,讓我們能有不錯的成績。」這些事例說明電資學院在資料科學的教學成果。同時,電資學院不只是教授臺大學生,部分資料科學課程同時透過線上課程(Coursera)對全球開授,帶來更大的影響力,「機器學習基石」和「機器學習技術」成功吸引全球超過四萬人註冊學習。此外,林智仁教授所研發的LIBSVM,是目前全球最受歡迎的資料分析工具之一,2000-2015年間就有800,000次下載,Google Scholar 截至2016年3月的引用數超過25,800次,這些成果對於資料科學領域的發展貢獻卓著。
跨領域學科
資料科學是一門跨領域的學科,電資學院、理學院、與中研院擬共同增設「資料科學博碩士學位學程」,業經本校校務會議通過,如果申請順利預計106學年度招生,將結合資訊科學、數學、與統計學等領域知識,培育優秀資料科學高階人才,促進資料科學領域發展。
當期焦點