報告人:劉永
報告題目:數據科學在政府、企業和個人決策中的應用實例
——從過去八年的工作和面試經歷談起
報告地點:計算機科學與軟件學院102報告廳
報告時間:2016年3月7日(星期一)下午4:00
劉永簡介:
劉 永 物理學博士
電話: 650 656 5040
Email: [email protected]
學習與工作經歷:
1995 年 9 月 - 1998 年 7 月: 南開數學研究所學習,獲博士學位
2008 年 7 月 - 2009 年 9 月: My Space Inc. 數據挖掘組,工程師
2009 年 10 月 - 2012 年 3 月:e Bay Inc. 互聯網市場分析組,統計分析師
2012 年 3 月-2014 年 6 月: HP 全球市場分析組,資深數據科學家
2014 年 6 月-2015 年 5 月: Equifax 數據科學組, 統計專家
2015 年 5 月- 今 : Verizon 大數據分析算法組,機器學習主任科學家
My Space 數據挖掘組
(1)提出并實驗證明應用自然語言處理中的 N-Gram 技術于垃圾郵件發送者識別的可行性,在此基礎上,完成了垃圾郵件發送者實時識別的產品化。
(2)提出并試驗了應用 Google 的核心技術 Page Rank 對用戶的重要性程度進行排序的可操作性。
(3)應用 Collaborative Filtering 技術,完成了基于 Map Reduce 分布式計算平臺的推薦引擎的產品化。
(4)提出并試驗了一套循環遞進的方法從噪聲極大的文字信息中提取用戶興趣有關的關鍵詞,以及實時提取網絡論壇中的熱門主題。
e Bay 互聯網市場分析組
(1)根據用戶活動的歷史記錄,建立了一系列的“傾向于買”定向廣告預測模型。
(2)建立了用戶水平上的廣告增益效應的預測模型 - 產品專利(User level incremental revenue and conversion prediction for internet marketing display advertising, United States US 13/425,831 Issued March 21, 2012)
(3)在搜索排序算法基礎上建立了展示廣告的實時定向模型,用于 e Bay 在歐洲和美國展示廣告的實時
定向,使點擊率和轉化率得以倍增 - 產品專利(Item ranking modeling for internet marketing display advertising, United States US 13/425,938 Issued March 21, 2012)
(4)用 C++實現了 Gradient Boosting 機器學習算法
HP 全球市場分析組
(1)根據用戶在線活動歷史,建立了一系列的關于個人用戶的和企業用戶的預測模型。
(2)對市場和媒介混合模型(Marketing / Media Mix Modeling)作了充分研究,在 Journal of Marketing Analytics 發表學術論文一篇 - Media mix modeling – A Monte Carlo simulation study。Palgrave Macmillan / Journal of Marketing Analytics - J Market Anal 2: 173-186; doi:10.1057/jma.2014.3。 November 21, 2014。同時有專利申請 (Representing a Metric for Marketing Channels, United States HP Patent Ref. 700217596WO01, Filed June 1, 2014)
Equifax 數據科學組
(1)關于個人用戶的信用風險模型研究
(2)關于拖欠發生時間的預測模型構建
(3)基于現有數據和可能得到的新數據,提出一系列的產品構想,挖掘數據價值
Verizon 大數據分析算法組
(1)關于各大商家用戶的模式識別模型
(2)時序分析
(3)一些大數據相關的獨特算法如 Geo Hash, Hyper Log Log 等的實現和驗證