主持人:各位領導、各位來賓,大家上午好!為了促進中關村大數據產業的發展和生態系統的建設,推進中關村、硅谷云計算時代創新聚集地的協同發展,今天我們在這里舉辦中關村大數據日活動。首先請允許我向大家介紹出席中關村大數據日開幕大會的領導和來賓。
出席本次大會的市委市政府領導及有關部門和單位的領導有:市委付華副秘書長。海淀區韋俊副秘書長以及市科委、市經信委、經濟技術開發區管委會等有關部門的負責同事。
還有寬帶資本董事長田溯寧先生。紅山資本中國基金及合伙創始人陳丹鵬先生以及中關村創投、中關村軟件園以及北京云基地的負責同志。
出席本次大會的國內外著名的專家有:硅谷大數據前沿分析師Derrick Harris先生,香港城市大學教授祝建華先生,天云數據公司CEO雷濤先生。
讓我們對各位領導和來賓的蒞臨表示熱烈的歡迎和衷心的感謝!
參加本次開幕大會的還有80多位企業家和30多位新聞媒體的代表,一并歡迎你們。
各位來賓,全球正在迎來大數據時代,大數據已經成為最具經濟價值的戰略資源。中關村大數據產業鏈雛形已經初步的顯現,并受到政府的高度關注。即將發布的中關村戰略新興產業集群創新引領工程中,已經提出了將大力推動大數據相關的海量數據挖掘處理,非結構化數據分析等技術的研發及大數據技術在金融、政務、醫療等行業的應用,作為重點任務。本次大會我們將見證三件大事,一是發布三支產業投資基金,他們是云天使基金,中云融匯基金,大數據實驗室孵化基金。第二是為中關村云廣場正式命名。三是中關村大數據產業聯盟的成立。
首先,有請寬帶資本田溯寧董事長介紹中關村大數據產業聯盟和即將發布的三支產業投資基金的情況。有請田溯寧董事長。
田溯寧:謝謝各位!我們從今天看,中國跟世界越來越近了。如果說前一段時間鄧峰我們還在談今年美國硅谷投資的最主要的主題就是大數據,結果我們在今天12月13號不僅把大數據作為一天討論的主題,而且我們有系列的大數據行動。一個是今天命名為中關村大數據日,這可能是全世界第一個。第二是利用這個機會我們成立了中關村大數據聯盟,這個聯盟也是在郭虹主任的主導之下,很快的時間發揮中國特色,兩周之內形成了,還在不斷的完善過程中。第三,利用這個機會把三支相關的基金,跟大數據有關的基金成立起來。所以,今天上午利用效率比較高,用不到半個小時的時間把這幾個事情都給辦了。
第一,我介紹一下中關村大數據產業聯盟。這個產業聯盟由百度、用友軟件、中國聯通、聯想、北航、北京大學、阿里巴巴、騰訊、TCL、龍福成立的,目前我做第一任的召集人。聯盟的核心使命是把不同的數據怎么集中在一起,互聯網公司的數據、運營商的數據,其他各種各樣公司的數據。今天一天的探討中我們可以看到數據正在成為21世紀最重要的戰略資產,就像石油、礦山對于工業革命一樣。我們希望通過這樣的聯盟把數據能夠聚集在一起,能夠交流各個方面的心得和所得。這里還談一些使命,建立生態系統,建立行業自律。通過宣傳和教育能夠推廣大數據,大數據聯盟落戶在中關村,在中關村管委會的領導下。
第二,跟大家介紹一下云天使基金。云天使基金,我們三位是一起策劃的,時間6個月左右,由北極光的鄧峰、沈丹鵬,這兩位都是中國風險投資的拓荒者,非常的成功,培育過中國近百家高科技企業,也有數十家上市公司。這幾家加上金沙江,龍福地產我們成立了天使基金。所有的法律文件都做完,已經開始投資項目先期的選擇工作。一會兒請丹鵬和鄧峰到這兒跟大家講兩句。另外兩支基金一個是中關村創業投資發展公司投資創立的中云融匯,目標2.5億,主要投資于云產業和大數據成長中的基金。第三支基金是大數據實驗室的孵化基金,更加早期。在這里云基地成立大數據實驗室,主要是拿出一部分虛擬計算的資源,5000服務器和一部分的數據,希望邀請全國最有創意的年輕人,把他們的想法能夠在這個實驗室孵化出來,主要是各種各樣的算法。我們今天也為他們配套第一期1000萬人民幣,稍微少了一些,但是是孵化器這么一個基金,一起來成立。
在揭幕儀式之前,我想請我的兩個搭檔合伙人云天使基金的合伙人鄧峰和丹鵬說一下他們對云天使基金的看法,以及未來怎么運行。
鄧峰:大家早上好,真的沒準備,我簡單說說我對云天使基金的一些看法。有時候大家說云是霧里來霧里去,搞不清楚。其實就是兩個機會,一個機會是把資源放到公司以外,放到IDC,提高你的效率,用多少交多少錢,同時增強可靠性。就像水龍頭一打開才算電費。另一塊是今天講的大數據,這是過去沒有的。因為云的出現,使得手機、互聯網等等數據,你每天在什么地方,干什么事,幾點,數據以某種方式記錄下來,存在哪兒。通過數據可以分享很多東西。淘寶剛剛開了一個時光倒流,淘寶一開始8年以來什么時間什么價格買了什么東西,寄給了誰。大家想想時間多么的厲害,可以把你的人生都記載下來。每一個人都集中下來,可以創造很多很多的機會,來預測你需要什么。金融服務和財務服務等等方面很多地方都需要,大數據就是利用各種存在的,特別是移動互聯網帶來的數據的機會,可以造成很多的創業機會。這在今天來講可以給很多創業提供新的機會。
數據的云的東西,特別是移動,會給出小公司從小到大成長起來的機會。呼吁一下,以前講的各種壟斷,信息的壟斷、資源的壟斷,在未來我們通過云基金也嘗試怎么防止數據壟斷,因為競爭可能就是競爭誰的數據,數據越來越變成壁壘。我覺得丹鵬、溯寧以后如果真的出現數據壟斷,這真的是一件更危險的事,咱們的基金可能做的就是這件事。時間緊張,別的就不多說了,謝謝大家!
丹鵬:過去幾年跟溯寧、跟鄧峰一直在探索云方面的投資,云天使基金特別有意義,因為它抓住了兩個非常重要的方面。首先,過去十幾年在中國的風險投資行業里面,應該講信息是最重要的一個行業。但是我們在這個行業里看到的一些主要的投資機會,以前都是在一些B2C的互聯網領域里或者無線互聯網領域里,由于云這樣一種新的技術以及商業模式的出現,今天我們所給予的機會更多的出現在一些企業級的應用方面。我認為這對中國來講是特別有意義的,而且因為這樣一種商業模式和這樣一種技術,可能能夠產生一批新的為企業提供服務的企業。所以,今天我們做的基金是特別有意義的。恐怕在未來的幾年里,大數據和云計算的技術公司會成為整個中國信息科技里面最重要的一個投資方向。
第二,我們是一個云天使投資基金,所以我們關注的是早期的企業,這個特別有意義。我們中國十多年來創業的環境越來越好,但總體來講關注早期,關注在初創期的資金相對來講還比較少,尤其是靠技術建立自己的產品壁壘。如果有我們這樣的基金,在非常的早期,在企業家最需要錢的時候,能夠雪中送炭,給他們提供幫助,我相信它會帶來巨大的社會意義。謝謝大家!
田溯寧:前兩天我跟周濤教授交流,我受到非常多的啟發。如果用歷史來看,工業革命非常重要的一個時候就是化學出了,化學元素周期表的出現,人們煉出了各種各樣的塑料,發現了阿司匹林這樣的藥品,使人類的文明更進了一步。今天數據正在成為新時代的化學,未來希望通過我們的投資培育出現這個時代的阿司匹林的發現者,這個時代門捷列夫的數據周期表。我們正在處在建設中國夢的一個偉大的時代,所以我們也非常興奮跟大家一起分享今天大數據日可能揭開中國夢未來創新創業之夢的一個開始。謝謝各位!
主持人:感謝田總,感謝沈丹鵬,感謝鄧峰。剛才他們三位,思想者,跟大家分享了一些非常好的思想的閃光點。接下來開始我們的揭牌儀式活動,下面有請紅山資本的沈丹鵬先生,北極光的鄧峰先生,寬帶資本的田溯寧先生,中關村軟件園的周旺先生,北京云基地的羅曼女士為三支產業基金一并揭牌。有請。
謝謝各位,我們相信三支產業投資基金的成立,將更加激發中關村的創造活力,進一步的推動中關村云計算和大數據領域的創新創業活動。
接下來我想跟大家說一下,大家今天來到會場的時候,肯定看到了會場外面的上方象征著軟件的光盤。當今的技術發展,已經使我們的軟件服務能夠通過云計算來實現,為了迎接大數據和云計算時代的到來,中關村管委會特地與軟件園共同協商,將軟件廣場命名為中關村云廣場。希望在這里我們能夠聚集更多的高端要素,加快中關村大數據和云計算產業的引領發展。下面請海淀區韋俊區長,中關村發展集團張興盛副總經理為中關村云廣場揭牌。有請。
下面啟動大數據產業聯名的水晶球。有請付華副秘書長,中關村管委會、市經信委相關負責的同志,寬帶資本的田溯寧先生來共同的啟動中關村大數據產業聯盟的水晶球。
相信中關村大數據產業聯盟將成為中關村大數據產業飛速發展的重要力量。下面有請付華副秘書長為本次開幕式跟大數據活動日的活動做重要講話,有請付華副秘書長。
付華:尊敬的為來賓,大家上午好!很高興參加今天中關村大數據日活動。在全球信息產業快速變革的大背景下,舉辦這個活動非常有意義,希望通過本次活動加強國際國內的交流與合作,加快吸引產業投資,推動中關村乃至全球大數據產業飛速發展。在此,我受市委常委陳鋼同志委托,對中關村大數據日活動表示熱烈祝賀。
隨著信息社會數據的海量增長,云計算、移動互聯網和物聯網等新一代信息迅速廣泛應用,大數據正快速崛起為企業和社會重要的戰略資源。大數據時代已經來臨,國際社會的各個層面、各個領域都不斷加強對大數據的重視,硅谷等地已經興起各類創新企業、組織和投資機構,推動大數據在個人生活、各個行業中的應用。我國的大數據產業初具基礎,面臨難得的機遇。作為國內互聯網產業的發源地和創新高地,中關村在大數據領域具有良好的發展潛力,正不斷涌現出大數據領域的優秀企業。中關村的大數據日這個活動的舉辦,為中關村與硅谷兩個全球大數據時代創新聚集地的協同發展搭建了良好的合作平臺。
今天我們見證了中關村大數據產業聯盟的成立,三支產業投資基金的揭牌以及中關村云廣場的正式命名。這都體現了以企業為主體,市場為導向,產學研相結合的技術創新體系的構建,為中關村大數據產業的發展營造了良好的創新創業環境。下一步中關村還要繼續加強加快促進大數據產業的發展和生態系統的建立。對此,代表陳鋼同志提三點希望。
第一,希望中關村加強與國內外的技術人才交流,增進與國際國內企業的橫向合作,構建具有持續競爭力的產業生態圈。
第二,希望中關村大數據產業聯盟能夠聚集產業鏈上下游企業,促進產學研合作,積極參與國際標準的制定,加快專利的積累,發揮示范區企業整體資源優勢。提升中關村的產業主導能力。
第三,希望投資機構充分利用政府針對戰略性新興產業的扶持政策,積極參與中關村大數據產業投資,特別是早期項目的投資,共同促進中關村的企業做大做強。
最后,預祝中關村大數據日各項活動圓滿成功,預祝中關村大數據產業聯盟各家工作進展順利,預祝產業投資基金取得豐碩成果。謝謝!
主持人:感謝付華副秘書長,非常感謝各位領導的關心和指導。中關村大數據日開幕大會即將結束,下面是中關村大數據日各項的論壇馬上就要正式開始了。讓我們在這兒預祝各項活動取得圓滿的成功。開幕式到此結束。
下面有請天云數據公司CEO雷濤先生,中國聯通研究院的黃文良院長,寬帶資本的董事長田溯寧先生到臺上來頒發大數據最佳實踐獎。
看到我們能夠把這么大規模的集群和達到5PB,每天每日300億條的處理,這在傳統的架構是不可能想象的規模。首先我們把這么大規模的分布式系統投入到實際生產中,我們覺得黃院長取得大數據實踐獎是當之無愧的。請黃院長談兩句,這個系統架構跟傳統架構的差異,革新從哪里體現出來。
黃文良:我們基本在處理上網的記錄和上網日志流程每天是600到700億條,現在總的存儲是4.5個PB,一個月在幾萬億條里面,我們檢索相關的信息,基本上能在一秒之內展示出來。我們從事大數據也不是為了解決生產的問題,我們2010年開始研究大數據的問題。簡單的說整個集群有300個數據的結點,每個月有15個PB的存儲。我們是分布式計算的受益者,也是非結構化數據庫的受益者,也是開源軟件的受益者。因為有了大數據,中國聯通終于在移動互聯網時代,運營商管道之外,該做什么,該怎么做找到了解決方案。謝謝大家!
主持人:下面有請Derrick Harris,剛才聽到中國的大數據實踐,大家也都清楚,大數據的內容在產業圈里一直是以名稱、名詞出現的,更多的大家都是在談一些概念。其實這些概念已經在國內,像一些大型的企業已經有很多實踐基礎的。同時我們也看到大數據是不是只是IT范疇,是不是只是一些技術型的進步。有請Derrick Harris,Derrick Harris是GigaOM的分析師,GigaOM在北美是非常著名的最前沿的能夠引領技術方向的中立性組織機構。Derrick Harris是專門研究大數據行業分析的,他今年的很多預測都是非常準確的,把整個行業的命脈給大家做了一個預告。剛剛有記者問到底大數據家庭化之后除了搜索之外還能做什么,一會兒Derrick Harris會跟大家分享更多在大數據方面落地的公司,他們在做什么。
Derrick Harris:其實我不是一個非常好的擅長去做PPT的,但是對在北美和大數據相關的公司是有一些比較深入研究的。數據是無所不在的,數據是可以從我們的應用系統,從我們社交的系統獲得的,政府也是打開了它的一些端口,把它的數據提供給大眾。數據管理的問題已經被解決了,有很多工具解決數據存儲和數據分析的問題。比如說Facebook,有他自己的一些處理方法。同時用NoSQL方式也可以解決另外一些數據處理的問題。
使用數據有兩種方法。一個是商業的智能分析,所有的供應商他們都是可以做數據分析的。從應用系統和平臺的角度,也有一些供應商提供這些平臺,讓用戶利用這個平臺來進行數據分析和使用。模式識別以前都是在實驗室里,現在更多的因為大數據的平臺走到了前臺,走到了大數據的應用場景里。通過低軌道衛星的影像圖片可以實時的傳送,用Hadoog架構實時的分析可以做很多的應用。
對大型的地理數據庫進行存儲,跟蹤GPS的定位,看看你在餐館、咖啡館停留了多長時間,可以做一些預測,這些信息給到App的開發者,有更深刻的意圖去理解到底這個應用在哪里被使用了。
還有一個例子是Google前CIO出來做的一個項目,他做的項目是來做信用評估的。在北美放個人債是要償還比較高的利息,IT公司轉做金融,不像標準的信用卡信用評估,是通過互聯網數據測人與人之間關系的連接。使用的7萬個變量,通過這些變量的捕捉可以把放貸的準確率提升到54%的壞賬率。
這家公司的做法很有意思,他是服務于視頻或者語音談話的。比如我們在聊天的時候用無線的方式去做視頻和語言談話,他來遞送內容。預測你將要談的內容,實時推送,10秒鐘之后你將要談到哪些話題,將相應的信息推送到你的談話過程中,相當于你的談話內容中可以有針對性的數字白板。
如果您參加了我們昨天在云基地舉辦的論壇里就能了解到,Decide是做購買決定建議的網站。他通過歷史數據的分析和預測,比如你買筆記本的時候他告訴你現在就買還是兩個月之后再買。他通過歷史數據和價格的評估分析,可以告訴你是不是適合買商品的時間。如果告訴你現在就買,結果兩個星期后這個產品下降了2%他會給你補上中間的差額。
很多前期的工作,專家們機器學習和人機互動的UI統一打包在產品系列里,降低數據分析的流程,更為易用一些。
從剛才這么多的例子中我們學習到了什么。第一,數據本身是一個資源,但它不是一個結果。用戶想看到的是結果,而不是想看到數據,也不想去做數據分析的工作。第二,讓我們做這個工作如何變得更容易。第三,怎么去找到新的信號源。再展望一下后面還有什么創新的領域,有三塊。第一,產品的生產。產生的都是持續的生產,直到收到一個很糟糕的信號,這個產品不被用戶接受了。怎么樣通過我們信息反饋的數據影響到生產,持續的改變生產制造和產品輸出的能力。第二,更為智能的設備,這些設備彼此相互互聯,智能的傳感器也好,隨時佩戴的終端設備也好,他們會不斷的收集和形成智能。第三是社交媒體,是業績驅動最明顯的領域。像治安怎么從行為中發現異常點,通過行為的異常點找到我們需要解決的內容,需要幫助的對象,這些都是我看到的未來可能通過數據實現創新的一些方向和領域。
主持人:感謝Derrick Harris精彩的演講。剛才分享了一下北美一些數據的應用場景,一些新型的不是大型的公司,一些很精小的小型的初創企業,在北美非常吸引人眼球的企業。去年和2012年4月在北美紐約大數據的大會,這些企業恰恰成為了明星,把大型的傳統IT廠商的光芒給遮蓋了。真正擁有數據的企業是怎么思考的,下面的論壇有請國內一些擁有數據,站在數據王國上企業的老總們以及CIO們,展開這么一場討論。基于我們這樣一個數據,我們的思考,我們企業變革和創新的道路應該怎么去前進。有請各位CIO老總上臺。
在新的大數據變革里我們發現有三方的力量在凸顯,科研走到了前臺,周濤是一個物理科學家,他從數據算法的角度怎么看待大數據。謝老師他是產業結構的角度看待大數據。有請三位企業老總,光大銀行的副總陳總,柳總是主管聯通信息化建設的總經理,還有國網信通關信息化的總經理。
幾位入座的嘉賓分別代表著不同的聲音,我代表的是IT的聲音,把IT平臺的工具和技術推廣給各位在座的用戶,同時我們科研怎么跟IT合在一起也請周教授談一下。第一個問題問一下思想領袖謝文老師,今年的大數據是最熱的,談的內容也是最多的。大數據論壇里談的最多的是四個V,容量、多樣性、速度、價值。作為一個數據基地描述是不是能夠大數據涵蓋整個大數據的范疇?這一塊也引發了我們的很多思考,我們不能說每一個用戶看到四個V以后就想怎么用大數據,拿四個V去套我是不是有這些大數據了。可以看看剛才北美的案例,我們要重新思考一下是不是以IT為主導去引導大數據產業。謝老師在他的博客上連續發表了十篇關于大數據的文章,對于產業的理解請謝老師簡單回答一下。
謝文:剛走進會場附近,氣場似曾相識,燕歸來,有點像98年、99年互聯網在中國啟動的時候。
歷史上有相似性,在談大數據的時候要把歷史時空定一下。有很多IT廠家,做硬件的,做設備的,喜歡把這個事當做完成時來看。全齊備了,系統全有了。還有的人是當進行時看,算法啊,軟件啊。我是從將來時來看,我們坐在這兒的有6個人,未必有2個人能給出同樣的大數據的定義。每個人都在從不同的角度試圖去理解大數據,所以這是非常早的一個時期。從信息化進程來看,我們經歷了兩個階段,現在進入第三個階段。
第一個階段是計算機時代,計算機時代第一撥最慷慨激昂的,恐龍式的企業還活著的是機器制造商。然后你會發現計算機時代誰贏了?微軟贏了,軟件是真正的核心。互聯網時代誰贏了?97年、98年到2012年,一開始出來的都是北電、愛立信,當然中國出了兩個公司華為、中興,主要是設備。慢慢的北電倒閉了,八大電器設備提供商就剩5個了,5個今年都是巨虧,最后誰贏了?Google了,百度贏了,騰訊贏了,服務提供商是互聯網時代的核心。大數據時代我估計會重演這個歷史,第一撥熱情的,自己現有設備的更新換代,包裝說大數據這個比較性感的標簽,一忽悠,好幾個買家就開買,幾百億、幾千億進去了。這一撥很快就會過去。第二撥誰說我這兒有高招,一個黑盒子,你把數據往里扔,那邊出來都是金子,估計持續3、4年,也就滑坡了。最終的贏者一定是基于大數據的產品和商業模式。這些產品和商業模式都是現在也許我們無法想象或者不知道從哪兒開始想的。
我曾經在一篇文章里寫過,說歷史的巧合把時間點確認一下,1996年雅虎上市,當時Google還沒有成立。2004年,Google上市,這個時候Facebook還沒有成立。又過了8年,Facebook上市,下一個什么時候上市還沒看到。本身這幾個公司市值都曾經到過幾千億,也曾經主宰過產業的主流服務。比如Google2004年上市,到今天仍然是讓大家望之畏的主導產業的公司,Facebook雖然有點亂了,但潛力還沒有挖掘完。我個人認為明年才是中國大數據的元年,美國可能是去年,我們差了三年的時間。這是我最簡單的理解,謝謝!
主持人:在大數據進來之前,可能兩年以后我們會有一個夢想,但是企業已經行動了,因為必然要面臨數據的一些問題。3G到來之后出現了三個數量級別的變化,從GB級別的新增數據到每天要處理TB級別的新增數據,這是一個必然的挑戰。面對這些以后,發現現有的IT結構支撐是不是就能夠滿足我們現在的需求呢?我們也想請柳總去談一下。原來像我們做JAVA時代的時候更多的是怎么去做應用,很多問題就出現了,現在出局對不上,ERP的數據和財務的數據是沖突的,數據是副產品。我們在做IT架構的時候,就有了新的思路,怎么設計IT架構。作為掌握整個聯通數據化信息建設的總體設計師,請柳總談一下想法,面對大數據,我們從管理經營的角度該去設計一個什么樣的系統,能夠落地。
柳博亮:我把聯通的情況簡單的說一下,今天開會探討的很多問題,很多都是面向未來的。落實到具體實施部門的時候必須是面對現實的。我們是2年前從運營商的角度做數據中心建設,到現在數據的產生量光是上網記錄查詢這一項,每天實際上的存儲記錄,剛才黃院長介紹的是5個PB我們做了壓縮存儲,實際的產生量在6個T左右。即便這樣每年2個P到3個P存儲量的增長。這么大數據量的增長如何管理,對企業來說挑戰是非常非常大的。我特別同意剛才謝老師的說法,對大數據的定義,我一直在跟給我們服務的廠商說,你們誰能幫我說清楚如何定義中國聯通的大數據,確切的說到現在我們沒有答案。如果連大數據的定義都說不清楚,給我將來處理這些大數據,全生命周期處理大數據的時候,我如何設計這個架構,面臨著巨大的難題。尤其是有些數據是一些流程化軟件運行產生的結果,而有些又是數據驅動流程發生變化。在這種情況下,我還想再提出一個疑問,大數據時代的到來,這些流程的變化對我們傳統的面向應用過程問題的解決,會不會也產生影響。換句話說,我們過去整個應用的架構設計是面向業務處理過程,面向流程來決定的架構,未來會不會面向數據變化或者說數據狀態變遷影響我的整個架構設計。
剛才主持人給我提出這個問題,我覺得大現在為止我沒有答案。所以,也想借今天這個機會把我們在企業里做數據方面遇到的困惑拿出來供大家參考。我看到的更多的在業界講的內容是什么?是假如我已經有一個大數據,我如何發現它的價值。但是對企業來說,我面對的問題是哪些是我的大數據,我如何采集這些大數據,我如何管理存放這些大數據,我如何保證這些數據的生命周期。舉個最簡單的例子,剛才我們說的每天產生的5個P的數據,我們現在處理壓縮了1/10,保留的時間最多只能是4個月。我們如何把這個數據的保存周期盡可能的加長,再從中發現它更多的價值,以及后續的這些處理我們怎么去發揮它的價值,這些方面都是企業面臨的問題。面對這些問題,從企業的角度來說,真的像謝老師說的,我目前不能輕易哪個廠商給我的解決方案。不是說別人用什么我就建什么,這對我將來整體的影響會盡可能的小。退一步說,別人不用,我自己在用,這就是中國聯通的想法。謝謝!
主持人:柳總提的這個問題我們在線下也交流,也在思考,發現主動權在用戶手里。任何一個工具廠商能夠提交的只是一個階段的工具,數據產品本身的變化周期,剛才柳總描述的5個PB的數據只是我們存下來的日志型的數據,隨著日志型的數據我們會反過來看用戶背后所面對的互聯網的內部信息。這就出現了一個新的問題,這么多數據怎么能夠從一個原料被加工成我們所需要的知識,怎么能夠更聰明的去使用這些數據呢,工具廠商就沒有答案了,工具廠商只能給你去處理。這些思路我們需要一些更聰明的方式去做處理,什么是聰明的方式?我們需要更聰明的外腦。這些科學家們無疑在這個時候變得更重要,請周教授,最年輕的聰明人幫我們解答一下我們怎么聰明的去解決數據,怎么把石油變成汽油放在汽車里。
周濤:首先給大家講講我自己的觀點,怎么通過科學研究的力量在大數據時代里發揮出來,和企業的現實結合起來。首先大家看到了一個趨勢,我們回過頭看幾十年前或者一百年前,一個特別聰明的人通過他的科研成果要想改變這個世界,他所付出的努力很大,可能幾十年的時間才能做到。但是現在一個特別聰明的人,他改變世界的時間已經變得非常的快,可能5年、10年,他的科研成果就能給我們帶來巨大的改變。要想通過一個科學家用他的成果改變我們的產業,需要在兩個做好準備。一方面是產業方面,生態環境的準備。另外一方面是數據環境的準備。我在兩方面分別說一下。
第一,我想介紹一下數據環境的問題,這也涉及到大數據的理解。大數據不等于數據大,恰恰相反的是中國有句古話叫做我們要舉重若輕,四兩撥千斤。什么時候到了所謂的大數據時代?我們能夠像處理小數據一樣去處理大數據,但我們所處理的實際上是很大的數據。
一個普通的科研團隊4、5個人他們很聰明,但是他可能處理像柳老師剛才講的聯通這么大的數據,也不可能說做Hadoop這樣數據庫的人,他覺得好的架構或者好的接口給到一個學者來說是很困難的。我們希望業界或者包括一些科研技術人員通過一定的努力,我們能夠把這些大數據封裝起來,把它的邏輯接口展現給學術界。讓學術界以自由熟悉的方式,在一般的終端或者普通的編程思路中處理一部分大數據,使大數據變成某種意義上的似乎是小數據。這種數據環境給我們準備好的話,我們就有可能幫助學者加快在這些全新的獨特的數據上進行創新和價值挖掘。這也是大數據實驗室一直力圖做的,也正在嘗試的一件事情。
第二,產業環境的問題。對于高校產學研結合,這個問題尤其的迫切。在座的有一些是來做政府的,有一些來自業界的,也有一些來自高校的。高校的老師很多都是經過很多年的訓練,他們也非常聰明,他們有很多算法,實際上如果稍微的加工一些可能有很好的應用。我這里不是說高校一定要走到企業中去,一定要抓住企業迫切面對面的需求,其實恰恰相反。很多老師正是因為做太多企業項目,而自己廢掉了。為什么這樣說?因為這些東西原則上是一個企業的高級工程師做的,高校老師應該去研究他所認為最優美最有價值的東西,而不是去研究某一個特定企業在特定短時間內的需求。只有他做這些看起來和需求還有點距離的研究,才有可能突然跳出來一個大的東西來,這些才可能有一定的指導作用。企業界需要做什么事情,包括一些私募基金,包括一些投資人,需要走到高校的一線去看高校最聰明的頭腦在做什么事情,幫助他們找到可能的商業化應用,也幫助他們做好金融運營方面的準備。這樣才能使一個高校的老師很自由的流到業界去,做他的貢獻。
當這兩點都準備好了,我相信中國的大數據一定也能從高校誕生出類似像比爾蓋茨等震驚世界的杰作。謝謝!
主持人:看看下面一個問題,周教授提出了我們要就緒這些數據治理和市場環境。柳總剛才也談到了在IT架構里出現了不同階段的產品,在產業結構的重塑上我們也提出了一個觀點,從實驗室的角度看到,這可能是一個經濟形態的變化。從2B、2C到了2D,前兩種不用解釋太多了,即服務的轉移過程就是面向大企業的過程。2C有一個問題是只能靠廣告,只能靠用戶注意力,只有一個盈利出口。今天我們發現數據產品的出現,本身的出口越來越多,不一定靠廣告來盈利。比如剛才講的小額信貸,靠行為分析來做個性化的評估。數據的產品化越來越明顯,它也跨行業出現了,從一個IT公司跑到金融公司。所以我下面的問題是問客戶的,從用戶的角度,從柳總、費總以及光大的老總,我們去看一下基于現有的數據池,這個產品或者做內部支撐幫我去優化,或者可以衍生出一個新的金融模式。這個問題留給企業老總們思考一下,是不是能夠給我們定義出企業自己的數據產品,以數據產品的形態去挖掘出我們新的業務。
陳敏:作為一間銀行,我們服務于用戶,為用戶提供更高價值的服務是銀行的根本,通過對客戶的服務帶來銀行自身的發展和利益創造。先不說大數據,其實我們已經有很多的海量數據,這些數據里面如何捕捉有價值的信息,把它反過來再服務我們的用戶。銀行這么多年一直在做數據的分析、探查和應用的探索。像銀行自己運營效率提升的管理,對客戶的個性化服務方面,在風險管理等等方面,我們都開始在嘗試利用我們強大的數據做分析,來應用。
今天的話題是大數據,我們在想還是怎么面對我們的用戶,面對我們的客戶。第一,客戶最關注的是我到一個銀行的網點,他能夠快速的把他要處理的業務辦理完,借助這個短的時間跟銀行接觸的過程中,能夠獲得銀行為他提供什么更好的服務或者什么更好的產品推介。如果這個客戶是我們以前的老客戶或者是銀行的老客戶,我們會根據你跟銀行以往交易的行為、應用的情況,識別出你是我們什么樣的客戶。同時,客戶進到銀行以后,比如說我們借助攝像、攝影吸收到的所有活動行動的信息流、影像流,分析出來在一間銀行網點哪些是客戶經常活動場景,這樣結合銀行推出的產品,結合客戶行動的信息,我們來做快速的業務服務分流的決策。客戶進來我們也會識別出來,我們會做出什么樣的人能夠服務于,給客戶更好的感知。
從銀行自身我們也可以通過用戶在你的網絡上或者在你的微信上等等,捕捉銀行推出的所有的產品相關性關鍵詞語,看客戶對產品的意見或者你的投訴,我們來有力的改進銀行自己內部一些產品的完善。說大數據技術是一方面,更多的是這些數據如何更好的去運用,特別是如何更好的服務客戶。這是我們未來想的更多的地方。
主持人:謝謝陳總,您剛剛提到我們開始使用外部數據基于關鍵詞去了解我們客戶的意見和投訴,是基于哪些信號源對客戶感知。
陳敏:假如說未來我們跟電信廠商合作,跟互聯網絡上很多的電子商務的廠商,社交媒體里面相關的信息未來都可以成為你獲得提供這些服務信息的價值。背后就帶來這些信息如何很好有利的獲取,獲得有價值的信息,有技術層面,有大數據運營的機制層面等等都需要考慮。
主持人:下面再看看劉總。
劉建明:我認為包括電力系統,包括銀行,將來是一個社會數據。數據之間是具有相關性的,這些相關性用好就是真正的大數據時代。說到大數據時代我還有一個想法,上次一個論壇提到了什么是大數據時代,剛才謝老師說定義。我個人認為只是我們現在進入一個數據的大時代,對電力系統來說,當初我就跟他們說了,實際上我們把小數據用好,把我們現在這些數據能夠分析好用好就非常不容易了。牽扯到電力系統的安全,牽扯到電力系統的用電數據。大數據今后發展到什么情況,數據產品是什么情況,我自己認為拿應用來出數據。數據越來越多,應用還是在那個地方,一除比值越來越小,我們各個軟件公司、硬件公司希望這個比值越來越大,所以我們需要這么一個大數據時代。這是我個人的一個理解。
咱們的數據越來越多,以前數據的利用率在電力系統達到10%,現在可能也就5%,以后數據越來越多,有可能就3%、4%,非常可怕。比如剛才講到的小數據,是我們電力系統安全穩定運行的基礎。我們使用的是內外網的隔離。現在Google,還有思科等等這些公司,涉足職能電網,想在智能電網上買電賣電,做的就是用戶的數據。他掌握了大量的用戶數據,所以它實際上就是一個社會化的數據。比如電信、聯通、銀行、石油、水、電力、燃氣、交通、醫療這些數據實際上是有相關性的。把數據相關性做好,除以以前的數據,比值越來越大,這是我們以后發展的目標。電力系統自己做了很多的分析,我以前也是做這方面工作的。今后隨著智能電網的發展就是老百姓的數據,像在北京安裝了智能電表,這些電表采數據。現在有很多種方法,一種是每個月一個數據一個點,一種每天一個點,還有每天15分鐘一個點,這些點和老百姓的應用,家庭的家用電器都直接相關,空調、熱水器、微波爐等等數據。再和電量結合在一起,我們用的數據給老百姓謀福利,這時候我們把數據大的價值體現出來了。
當然還和中國的強大,和中國夢在一起,那個我還不知道在什么地方,可能是我們第三個產品。我就不說了。
主持人:在研討會上聽到你們基層干部反饋出來的智能電表,很恐怖,我們看了數字嚇了一跳。裝了智能電表之后10萬人口試驗型的項目400T數據量。再補充一個第三個產品,當時也很驚訝。1月份的時候浙江省發電的指數下降9%,這是一個很典型的經濟滑坡的信號,這是經濟學家愿意購買的一個指數型的數據。
劉建明:沒有大數據的時候就是這樣,但電量的增長和國家的GDP是有關系的。這些工作我們一直在做分析,我說的是這些應用我們原來就有,但隨著數據的增大,這些應用不變,這些產品不變,比值小。如果比值增大,就是大數據時代我們需要做的工作。
主持人:教育作為知識傳播的最基礎和最前沿的一個行業,大數據在我們教育行業里會落地成一個什么樣的方式?有哪些數據型的產品影響著我們下一代和知識中心的節奏?
:謝謝!首先我要說我非常感謝大會的組織者讓我有機會來學習,這不是客氣,在教育里我們長期從事教育信息化的業務。今天走到這兒,我第一次聽說大數據的概念。這反映教育在信息化的過程里,通常我們自己講是最落后的地方,是受益最小的一個地方。
國家對教育信息化比較重視,劉延東國務委員9月5號的會議上講過,說教育信息化是我們作為提高教育水平和提高國家競爭力的戰略選擇,提到一個很高的地位。數據來講,其實教育需要很多數據,教育的整個過程中也產生非常多的數據,但是數據都流走了。任何一個老師,或者任何一個國家的決策者都希望在宏觀上科學的決策,對每個學生來講我們能夠給他們提供個性化的學習環境。在國家的教育發展綱要里專門提到,要創造適合每個學生的教育。這是一個理想,但是我們做不到,為什么做不到?我們沒有依據。依據是什么?我們也意識到是在教育過程中產生的數據。
前一段時間我們部長講,說現在計算機、投影機、平板電腦在我們的教育中應用,在他看來這個只叫電子產品在教學中的應用,這不叫信息化。信息化的核心可能是這樣,我們通過用數據或用信息去描述教育的進程、狀態或者結果,然后又把這些信息拿出來指導我們去控制進程、狀態和結果,過程中使我們能夠很好的受益。
剛才主持人講你們需要什么樣的產品,從用戶的角度來講我們大概分三個層次。第一,我們是需要把我們的信息,教學過程中,包括教育環境中產生的信息有效收集,怎么把有效的數據收集起來,沒有數據的收集肯定談不上后面的工作。第二,把有效的數據收集起來,根據教育教學內在的需求,它的規律把這些數據進行有效的處理。第三,通過社會各方面的力量,把數據的處理怎么跟教學結合起來。這個工作做好了,我們的教育才能在這個時代里產生變革。
主持人:請周教授補充。
周濤:我簡單的補充兩句,我看了這個題目很親切,今年達沃斯論壇的時候我們跟哈佛也寫過這樣一個文章。這是個很大的題目,其中涉及到數據市場,數據題目的定義。我這里講一個特小的特征,我們認為2D新時代的數據產品跟原來的產品最不一樣的是它要經歷一個很大的變革過程。以前我們看到的數據產品往往是這個企業有什么需求,從而根據這個需求或者產品產生的數據,用這個數據再改進我現有的一些業務。我們現在講了大數據的時代,是講數據的交叉使用,原來產生的數據拿來做其他的事情。舉個例子,剛才兩位講到了國家電網可以做一個宏觀指數,這個點上不再是解決電網自身的問題,而解決的是國家經濟的問題。
舉一個銀行的例子。比如說現在有很多微博上的關注關系,發現你在微博上通過你的排序,排名很高的人集合了很多線下的人,的確他的政治、經濟、實力影響力非常強。你可以更快的放你的信用卡。
我們在手機上整理了6000多款理財的應用,這個應用打開了頻率和活性。我們基本上可以知道哪些人在手機上已經應用了基金的理財,你們可以用這個進行推廣。這是把外面的數據拿來解決你的問題。怎么樣用你的數據解決外部的問題,比如高端的客戶存款500萬、1000萬以上,這些可能是你的黃金客戶,你們可以給他一個設備,讓他和你的服務同步起來。不僅同步銀行自己的基金理財,還可以同步很多高端的奢侈品、禮品,高端的場所、會員卡等等。用你們銀行金卡的業務,可以提供免費或者更好的服務。這樣就把銀行的數據拿來做一些高端的電子商務或者從線上到線下。線下。
陳敏:未來的數據倡導的是一種共享,大家相互既成為數據的提供者,也成為未來數據的使用者。
劉建明:我看到數據堂就是這么做的。
主持人:下一個問題是想順著周濤的思路去談,如果我有一個產品了,你愿不愿意把這個數據產品拿出來跟別人去交換。價值是很潛在的,剛才周教授也提了怎么用互聯網的數據服務于金融,其實我更愿意把在座的各位做聯姻,能不能用運營商的數據來服務金融。運營商的數據成本是最高的,作為發信用卡去評估一個人的社會資本,運營商真實的電話網絡數據一定最準確的服務于金融行業,來做小額信貸。中國最講究的是關系,關系在運營商層面描述的是最客觀和最精準的,你的成功不是你擁有什么,而是你認識什么。
如果你把剛才我們定義出來的數據產品拿出來的話,你最顧慮的是什么,從產業的角度謝老師也可以談一下,這種數據要交流的話需要什么方式,市場的仲裁機構是不是有政府這些有公信力形態的部門來做仲裁。
謝文:剛剛各位的發言給了我很多的空間去想,咱們還是回到最基本的問題,什么是大數據。大家普遍的假裝接受的,其實未必是真接受的4V。簡單的說大數據就是一種信息資產,這種信息資產可能體積大、種類多。田總一聽資產眼睛就亮了,我們在做投資、在做估值的時候,這個資產指的就是錢。我們能不能區分種類來估計它的潛在價值,把有價值的留下,沒有價值的扔掉,但這也有危險,你認為今天沒有價值的可能明天有價值。這是一條思路。
另外一條思路是把大數據定義成價值觀各方法論,沒有說什么東西,說你要考慮相關性,不要考慮因果關系。這兩種定義都好,也許可以叫做宏觀大數據或者微觀大數據。這就回到2D的問題,我們試著解決一下。比如這個問題提出,我個人認為這個問題本身就不該在大數據時代討論。什么叫2B,什么叫2C,這是互聯網時代形成的商業模式的稱呼。我們全部的基礎是利用我們的數據資產在這上面做服務,它和我們傳統時代,包括互聯網時代,包括我們剛才談的很多例子有本質的差別,在于我們做產品利用數據提高銷售率,降低銷售成本,可以有100種套餐,有25種卡的發行,但是它仍然是我有一個產品,然后我們拿數據露點縫。如果我們有足夠的數據,能不能一個人有一個特定的產品,精準到人。我知道現在銀行給VIP服務,500萬以上或者1000萬以上,我們給你貼身的理財辦法。有沒有辦法你就有一塊錢,找到銀行開戶了,我就給你理財,因為我有足夠的數據。
這就回到了剛才介紹的,其實是在一個最困難的領域,現在完全個人化、個性化,由能夠實時更新,恰恰是我們認為不可能的——制造業。根據你的脊椎彎曲度做一把椅子,理論上可不可以?可以,成本太高。如果我們有的話,就可以給每個人打造自己的專用椅,它的成本是非常低的。依此類推,無論是教育,無論是電信,無論是銀行,都可以按照這個思路,甚至都不提出大數據的產品,每個數據可以量身訂作他的解決方案,這就是一種生態性質的、互動性質的,隨時隨地自我調整。這個時候就不要再用所謂B2C、B2B。我們有了極快的機器,極快就是一條個性化、個人化實時定制,這是一個總的方向。在這個領域最容易掙到錢,特別的清楚。比較間接的,比較虛一點的,你還要跟很多傳統思維、傳統架構、傳統利益分配去斗爭,反而比較難。
主持人:謝老師提到了大數據的一個很顯著的特征。單看一個行業的力量是很難的,所以這也是為什么我們要把數據變成產品可以去定價、可以去交易,這樣可以讓運營商有一個通用的交互價值。柳總,如果可以互換的話,您更愿意拿出什么去交換?
柳博亮:我們現在能拿到的數據,一個是通話詳單,反映出了用戶的社交網絡,甚至可以分析出哪兩個是朋友、親人、戀人。第二個特別詳細的數據是上網記錄,內部在一起討論的時候可以分析出很多東西,可以給很多行業應用。但是當我們把這些數據項外提供的時候,一個最大的顧慮就是隱私問題。我不能提供個體的數據,我可以提供一個群體和趨勢性的數據。不能自己想怎么用就怎么用,因此大數據時代的隱私問題確實是需要考慮的。
陳敏:我們現在說的是數據產品,如果是把它放到一個市場去交易、去買賣,從我個人了解,目前咱們國家把數據作為產品來交易,法律層面還沒有完全出來。銀行在服務客戶的時候,比如人民銀行牽頭做的征信系統,其實有大量的數據都是各個銀行在服務客戶中,不管是貸款,還是發卡,有很多征信數據。這個征信數據可以理解為一個大家都去共享的數據,在金融系統,大家在服務客戶過程中可以去調用其他銀行在服務客戶中的征信狀況、貸款情況等等,這都是單向的交易行為。對客戶的服務來說,應該說任何一個行業不能掌握對客戶服務的全部,因為客戶的一個業務行為發生銀行只是其中一個很小的角色,我們也希望獲得其他行業的數據。反過來就有了柳總的擔心,銀行掌握的數據不能隨便的對外,要保護客戶的隱私。即使數據提供出來,但以什么樣的方式?引來的交易市場,市場的生態環境是什么,現在有沒有很好的有序的良性的機制建立起來,后面大家才有可能在這個平臺提供數據。數據提供出去之后,真的能很好的被使用者很好的利用。如果不安全有效的運用,數據提供的價值也就沒辦法體現出來了。
銀行期望要什么數據?大概來說還是客戶在其他各種環境,不管是網絡上的,還是跟我們電信或者其他的領域的交易行為。用戶在各個渠道,在消費行為,他的關系圈,都是我們未來希望拿來為客戶提供差異化服務的數據。
主持人:陳總提到的方向也是現在大數據很熱的一個領域,把以人為中心方方面面的數據圍繞消費者能夠統一出來。剛才國網的劉總也提到,您之前的數據產品是給國家統計局的。我們這么多企業,包括券商、期貨公司其實非常想知道這個數據,但是沒有渠道獲取。發電量等這些宏觀的數據涉及到隱私,這樣的數據能不能做成產品提供出來,或者以交易的形式讓其他的機構以有償的形式獲取到。
劉建明:發電量我們一直是公布的。我們最近專門研究過,到2020年人均翻一番。我們現在是12億的裝機,到2020年是20億的裝機,等于是從現在開始一年一個億,國家電網公司已經預測過,也都公布了。昨天中央電視臺直播的四川錦蘇(音)到江蘇蘇南送電,全世界最大的直流正負百千伏的送電,距離也最長,為了解決華東的用電。我們自己也是進行了大量的數據分析,前幾年專門是給華東送電,現在華東送點是最緊張的。這些數據只要設計出來馬上就公布,有很多廠商,這些廠商跟老百姓不太密切,比如說新疆生產廠商、西電,這些廠商他們都關心這個數據,只要有了他們就排查做變壓器,西門子、GE他們都定了。我講的是電力工業方面,你剛才講的是發電,除此之外還有一個數據我覺得也是很有意思的,就是家電,我剛才講了家電應用。家電應用和電力系統密切相關,和家電廠商也非常相關,海爾、海信、美的,美的跟我們合作的比較多。我們跟電信運營商也合作,跟中國電信專門簽了一個戰略協議,就是關于用電。
有些家電根本就不用,或者用的很少,這時候家電廠商在排查的時候就應該考慮了,這是和廠商關系非常密切的。我剛才還講了用電量的問題,我們和電信、銀行還不太一樣,我們是以家庭為群體的,一個家一個家的。分析用電量不可能給每個家庭6個人或者3個人每個人都裝一個智能電表,這個數據和社會的管理以及社交網絡就是相關的了,這個數據就不太準。第三次工業革命里提到了摩洛哥,摩洛哥這個地方政府有一條規定你必須在那住,要不然買了房子長期不在那住,結果有人專門想辦法自己不在家的時候也用點電,反映出問題了,好像是用了,實際上是沒有用,他是浪費能源,對世界上清潔環保肯定是不利的。咱們國家其實也有類似的情況,用電的多少是不好掌握的,但大部分我們還是知道的。因為裝了智能電表非常好管理,這些數據將來只是隨著國家整個的發展,雖然跟隱私有一定的關系,但對小區群體大家還是可以共享的。
我贊同昨天講的,今后的發展隱私不一定是重要的,信任更重要。很有可能我們現在考慮大數據,考慮這個時代,我覺得寫的非常好,叫站在大數據的門口。我們進去以后,安全和隱私這些問題就不是主要問題了,信任是主要問題。有了信任體系,有了信任管理,數據之間的管理,數據之間的應用肯定會有更廣闊的空間。這是我個人的理解。
主持人:費主任,我知道教育的信息化還是在渠道、推廣電子化的進程之中,用戶本身產生的數據還沒有像電信、金融那樣大量的保留下來。從你們的思路上,哪些方向的數據你們是愿意留下來的,去了解每一個學生或者教師的教學質量。
費主任:我們現在在做幾方面的工作,從管理上我們在做教育和監管的全國力系統,我們會留下所有學生的數據,比如從什么時候開始上學一些基本的數據,還有學習評價的數據。大家都說高考不太好,這些數據積累下來之后是不是能改變高考。很多省在開始做,效果也不錯,前年我們就開始全國做這個系統。財政部也非常支持為?他們現在也面臨很多問題。我們現在給學生發補助,每年返還就返還上百億。這些孩子們他在哪兒沒有人知道。我們把系統建成以后最起碼要知道孩子們在哪兒,知道他在哪兒上學。教育的戶籍是最全的,計劃生育是最小的,公安局的數據是第二大,教育的數據最大,因為只要是在中國生下了孩子就要上學,不管他有沒有戶口。我們會每家每戶的動員他上學。
什么樣的數據我們可以拿來共享?可能有些宏觀的數據共享比較容易。剛才電網說了用電量里面隱含了很多東西,當然我們的GDP發展也會隱含在里面。宏觀的數據共享比較容易,政府對外也開放。但終端的數據就不太好開放了,比如說一個企業可能更希望了解競爭對手他的客戶關系,了解競爭對手的價格。比如我允許把我自己的銀行數據對誰開放,銀行應該可以提供這種服務。有一個機構比如說把這些數據整合起來,比如說醫院,前兩天我帶母親去看病,它是這樣的,病例不能拿走,只能復印,這個事情也是不開放的。將來我們可以通過一種渠道,我個人允許就可以把數據開放給誰。也就是我們說的可信單位,這個可信的單位我允許他的時候,他就可以把我的數據開放給某個人。比如銀行貸款,他說我要看你的數據,我覺得不光是看你以前的誠信,可能還要看你的身體狀況。假如我每天就要死了,今天貸款500億,你用得了嗎?銀行可能也擔心這個事。所以將來是不是有這樣一些方式,在個人的數據方面我允許開放,你們就給我開放。這在服務過程中是很有用的,因為個人的數據開放起來很難,國家的數據開放起來也很難,因為要考慮到國家安全。
主持人:能夠取消高考,我相信在座的都會鼓掌。如果能夠把一個歷史的記錄客觀的記錄下來,把考試變成每日的評價,這是改變您一生和改變整個社會根本性的變革。我們希望這個評價不是期末老師給的一條評語,而是每一個孩子在做每一道題的時候,是對你的知識點連貫性的評價體系。
費主任:企業需要讓人評價,這個評價是非常仔細的。20個小升初,小孩里數出來16個,小孩們有幾種數法,一種是一個一個數,有的是數10個再數6個,有的孩子數4個出來剩下的就是16個。這三個行為代表了孩子不同的思維水平,其實反過來代表他的智商,很多東西在里面。如果將來企業聘任人的時候,在某些崗位需要創造性的人才,要什么樣的人企業有一套辦法。我們將來的教育評價,其實應該做到這種程度。
主持人:還是請周濤談談我們怎么面對隱私做一些解答。
劉建明:我剛才體會非常深,過兩天我們要招人,給了我們2700個學生的簡歷,我只招30個人,我們公司發愁死了。那天我就想到大數據,除了這個,醫療、教育、工作、生老病死應該全都聯系起來。小孩一出生就能看到大概的情況,機械的選完然后再做筆試和面試。
主持人:這些技術在大數據里都很成熟,把你以前的歷史,一年的記錄都展現出來。
周濤:如果你有足夠的數據,這些簡歷招聘是可以部分解決的。我前兩天和一位德勤的招聘總監談,他們每年能收到5到10萬的校園招聘,實際只有兩、三百人能到。他們已經完全自動化了,網上填表,還可以有描述自己的一段話。把這個數據拿過來我們就變成有階段的學習,在5萬中有1500是勝出的,另外是失敗的。我們主要把兩類人推給你,一類是機器判斷他會成功,一類是他有一些獨特的屬性很強,但是落在失敗人里面,這可能是怪才、偏才。它至少可以輔助你,10萬個稍微做一下排序可能就比較輕松。
回到隱私的問題。縱觀產業發展的趨勢,隱私其實就是我們個人信息,它實際上是一種原材料。從Facebook到中國的微博,我們泄露的隱私越來越多,有人猜未來隱私的泄露可能出現在隱私上。告訴大家一個遺憾的事情,一個普通的用戶是不可能保護好你個人的隱私的。你每天清空或者做一些事情徹徹底底的保持隱私,這可能會讓你跟這個世界隔離開。你到醫院去,如果胃疼或者感冒覺得沒什么,如果是艾滋病可能覺得有點難以啟齒。當醫生問過你以前得過什么病的時候,或者展示病例的時候,你還是會展示給他,因為這和健康相關。我們在這個世界上可能會留下很多的軌跡,我們希望靠自己的力量完全使自己變得安全是不可能的。這就回到柳總剛才講的,我們要從保護自己的隱私變成形成一種信任,要有一種機制嚴厲的懲罰那些泄露隱私做壞事的人,而不是每個人都有一個盔甲讓我們可以保護自己,這是不可能的。
隱私不是最可怕的,最可怕的是你的行為被預測了。通過你以前的行為就被打下了烙印,我們通過微博上比如情緒比較激動,或者說了什么話,被判斷這個人信用不好,被預測為會拖延貸款。如果事先就懲罰他不給他發信用卡,本質上來說,當有了這一系列的數據我們的政府可做的事情是不可以想象的。比如我們完全可以知道某個官員是不是貪污了,我們可以標注所有的奢侈的場所,從私人會所一直到高爾夫,他們去過的地方我們都知道。并且他們的通話,我們現代的技術完全可以判斷你有多少個女朋友。你晚上說你工作,實際你每天都去的是Z地方。我們通過短信還可以知道你有哪些不正當關系,這就變成很大的哲學或者社會學的思考,我們到底允不允許政府或者某些機構用這些數據來做一些好的事情,比如反腐能不能用?我覺得不能用。如果允許開了這個綠燈,未來的某一天,政府可能會變得非常的可怕。因為他可能會用一些技術的手段,能知道每個人的點點滴滴。如果有一天他要去全方位的控制你,或者某一天人變成了被機器統治的獨裁化的時代,從而喪失了我們自己的思想,這是非常可怕的。我們能夠利用數據做一些事情,做還是不做是需要考慮的,其中還要有行業和政府的監管,使得這些人拿數據做壞事必須受到嚴厲的懲罰,從而杜絕這種事情的發生。
主持人:很遺憾時間有限,相信在座的各位嘉賓還有很多話想講,無論從實踐的角度,還是落地的角度都有很多內容。今天下午還有整個下午的時間,留給更多的科研界和學術界探討大數據相應的具體的內容。
最后請各位嘉賓用一句話對大數據說一個寄語。今天是北京第一個大數據日,在2012年年底,以后每一年我們都希望有一次這樣的活動,能夠回顧一下今年的想法。
陳敏:參加今天這個活動的討論,第一,首先要認知大數據不管是企業還是社會的資產,要充分利用起這個信息資源,讓資產發揮更大的價值。第二,未來預祝中國這個產業有更好的前景,在中國運用的更好。
柳博亮:因為我是來自企業,想跟企業的同行說兩句話。第一句話,面對大數據時代不要簡單聽信來向你介紹大數據產品的人,自己想清楚。第二,大數據不要只考慮它的結果,你要想清楚它的全過程是什么。
劉建明:大數據向我們走來,我們擁抱大數據,我們期待更多的大數據應用,使我們電力行業獲得更大的價值,使老百姓獲得更大的效益。
費主任:說點期待吧,由于大數據的時代,在我的判斷是互聯網以后的另一個時代。我們希望在這個時代里,我們的教育真正能夠實現它需要的變革。
謝文:個人隱私、企業利益和國家安全方面的顧慮,是我們走向大數據的三座大山,也是三大障礙。反過來說誰在這方面有所成就,誰就是下一輪的創新者。關鍵詞是交換,利益交換。
周濤:瑪雅人說2012年12月以后世界會帶來一個新篇章,我們會進入一個新紀元,我想中國的大數據也會如此。