当前位置:中工网理论频道嘉宾访谈-正文
袁 卫:如何拥抱大数据时代
——访中国人民大学中国调查与数据中心主任袁卫
//www.workercn.cn2014-06-30来源:中国教育报
分享到:更多

  

  大数据应用是把双刃利剑

  记者:大数据在商业以及城市安全防范等领域已经有很多应用的成功案例,大数据将会给教育领域带来怎样的变革?

  袁卫:大数据将对教育产生非常深远的影响。目前可以预见的,我想主要有两个方面:一是通过大数据,分析学生成长环境、兴趣爱好、能力特长等,有利于教育者对学生加深了解,有利于因材施教,使得根据学生个人兴趣、特长、能力进行个性化教育成为可能;二是带来教学内容、教学方式方法上的改变,立体化教学、案例教学、互动教学等方式的运用使得教学更加生动,MOOCs(慕课)就是大数据时代教学变革的一个例子。大数据可以促进全世界优质教育资源共享,发挥每个教师的优势特长。大数据将对教育产生一系列的深远影响,不可低估。

  记者:但是,大数据的广泛应用,可能会导致侵犯他人隐私的情况发生,对此您怎么看?

  袁卫:在大数据时代,个人的相关数据信息轻易可得,个人隐私越来越不安全。其实不仅仅是个人隐私,包括国家安全和企业的商业机密,也受到很大的威胁。怎么办?我认为对于国家而言,一方面要积极推进数据对外开放,凡是不涉及个人隐私、国家安全和商业机密的数据,都应该公开,这样才能避免形成数据孤岛,充分发掘和利用数据资源;另一方面,在开放数据的同时要加强相关立法,这两个方面是互相补充的,只有这样,才能赶上时代发展的步伐,充分发挥我们这个人口大国、经济大国的数据资源优势。

  从个人的角度讲,要加强个人信息防护意识,在上网发布相关信息时,要了解哪些是可以发的,哪些是不能发的,以免给自己带来困扰。

  两个“交叉”探索人才培养之道

  记者:据了解,中国人民大学、北京大学、中国科学院大学、中央财经大学和首都经贸大学5所高校组建了一个协同创新平台,以“应用统计专业硕士”为载体培养大数据分析方面的人才。为何要采取这种多校合作的培养模式?

  袁卫:之所以采用这种协同创新、5校合作的培养模式,完全是由大数据人才的特点决定的。第一个特点,大数据人才是多学科交叉型人才,不是某一个学科可以单独培养的。大家知道,现在进行数据分析,要有数据库和软件等计算机方面的知识,还要有数学和统计方面的知识和能力。这就涉及到中国学科体系中“统计学”和“计算机科学与技术”两个一级学科。培养出的毕业生到了单位,可能还需要财经、新闻、生物医学和管理等方面的知识。所以,大数据人才的培养,也需要计算机、统计学、数学等多学科共同参与。

  第二个特点,这是一类应用型人才,必须重视实践环节。他们毕业后不是去做研究,而是投身业界,要能很快上手。这样的人才培养,不是仅在学校、在实验室、研究室里就能够培养出来的,而是要到实践中去,解决实际问题。因此,这个协同创新平台,不仅有5所高校参与,还有人民日报、新华社、中央电视台等十余家媒体,中国移动、中国电信、中国联通、百度、阿里巴巴、腾讯等大数据公司和用人单位,包括云计算的一些基地共同参与,是一个“政、企、产、学、研”一体的人才培养平台,也就是说,人才培养环节是交叉的。

  还有一点需要指出,为什么把人才培养的层次定位于硕士?目前全国有200多所本科院校开设统计学专业,75所高校设有统计学博士点,78所高校开办“应用统计硕士”专业学位。在大数据时代,我们改革最急需的人才是硕士层次的,正好我们有“应用统计专业硕士”这样一个新的专业学位,利用这样一个协同创新平台来培养大数据人才,也与专业学位的改革精神相一致。

  记者:这个大数据人才的培养方案,如何体现出“两个交叉”?

  袁卫:5所学校参与培养,就是出于学科交叉的考虑。中国人民大学统计学院的学科、专业设置是综合的、应用的,理论和应用兼而有之,应用领域涉及卫生、健康、经济、社会、管理等,总体实力较强。而北京大学和中国科学院大学,大家都知道,他们在计算机、数学和统计理论研究方面相当强,掌握大数据分析技术的前沿。中央财经大学和首都经贸大学是财经类为主的院校,这两所学校侧重于应用人才的培养,特别是面向经济、管理、社会这样的领域。他们和很多行业企业、金融机构有着密切联系。这5所高校分别属于教育部直属高校、中国科学院的高校和地方高校3种类型,各有特色,优势互补,能够建成一个很好的、学科交叉的人才培养协同体。

  培养环节的交叉,主要体现在企业、用人单位的参与上。上面提到,有这么多的大数据企业、媒体单位参与合作。他们把实际工作中遇到的问题带来,大家一起研究解决;他们把企业运作过程中产生的大数据拿过来,学生直接用这些真实的数据进行训练和研究。

  记者:据了解,对这批大数据人才的培养,将采取团队教学的方式?

  袁卫:我们经过多次研讨,并参考了美国顶尖的20所大学大数据人才培养的方案和课程,确定了“大数据分析计算机基础”、“大数据分析统计基础”、“大数据分布式计算”、“大数据挖掘与机器学习”、“非结构化大数据分析”和“大数据建模案例研究”6门必修核心课程。每门课程不是由一位老师来上,而是一个教学团队,5所学校各选一名最优秀的教师,然后5位老师一起研究一门课程、同上一门课程,而且还有大数据企业的专家参与。初步估计,每门课程的教学团队会在10个人左右。教学方式也有别于传统的课堂讲授,会采取案例教学和讨论班的方式,也可能是一个团队共同完成一个项目。我们还采取双导师制,两位导师一位来自大学,一位来自企业界,50名学生,就有100名导师。在这个协同创新机制里,还有一个特点,就是采取个性化的教学方式,从生源来看,首批学生主要来源于计算机和统计两个学科,计算机专业背景的本科生进来以后,将重点加强统计分析能力的培养,而统计、数学、物理等专业背景的本科生进来后,将重点加强计算机、大数据软件等方面的学习。

  “黄埔一期”的历史使命是探路

  记者:目前国内大数据方面的人才供求情况如何?

  袁卫:2012年美国麦肯锡咨询公司提供了一份报告,对美国大数据人才需求进行了分析。他们把大数据人才分为两类,一类叫做“数据经理或数据工程师、数据分析师”;另一类叫做“数据科学家”。数据科学家熟练掌握计算机、统计、经济管理等技能,能够领导团队从海量数据中找出规律,发现知识,做出决策,创造价值。根据麦肯锡的报告,到2018年,美国数据分析师的人才需求将达150万人左右,高层次的数据科学家的需求缺口在14-18万人。中国的情况,目前在百度、阿里巴巴、京东等电子商务企业和腾讯等网络媒体大数据公司中有一些大数据方面的人才,但是能称得上大数据科学家的人才,非常非常少。我国相关部门预计3到5年内,来自政府、媒体、企业等方面的数据工程师和数据分析师的需求将达100万人左右,而目前的人才培养,无论是规模还是质量水平,都远远达不到要求。

  记者:首批50人的培养计划,只是一个试点探索。对于大规模培养大数据人才,您有什么建议?

  袁卫:在大数据时代,数据分析,越来越成为我们工作生活中一个最基本的技能。大数据人才的培养,正是基于这样一个时代的发展背景。大数据人才的适用领域非常广泛,有着巨大的社会需求。他们的就业,遍及生物、医学、经济、社会、媒体、金融、教育、政府各个方面,只要有数据的地方,他们都可以施展才华。这个实验班,其意义在于探索一种新的人才培养模式。如果实践证明比较成功的话,我们“应用统计硕士专业学位教育指导委员会”会推动在全国推广,比如上海的一些学校今年就希望送学生来学习。将来大城市的一些高校,完全可以参考我们这个实验班的模式。现在全国有78所高校开办应用统计专业硕士,他们绝大多数都有条件开展类似的人才培养,都可以进行积极探索,相关企业参加的积极性也非常高。

  记者:对于“黄埔一期”的这50名幸运儿,您有什么期待?

  袁卫:我希望他们毕业后,到用人单位经过几年的锻炼,能够主管大数据研究项目或大数据分析部门,成为数据科学家这个层面的高级人才。这类高层次的大数据人才是国家最紧缺的。探索培养高层次大数据人才的路径、满足国家日益增长的需要,这是中国人民大学等五校组建大数据人才培养协同创新平台的目标和使命。

  【大数据应用案例】

  PRADA的试衣间

  PRADA(普拉达,一个意大利的奢侈品牌)在纽约的旗舰店中每件衣服上都有RFID(射频识别)码。每当一个顾客拿起一件PRADA衣服进试衣间,RFID会被自动识别。同时,数据会传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间,停留多长时间,数据都被存储起来加以分析。如果有一件衣服销量很低,以往的做法是直接干掉。但如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多,也许这件衣服的下场就会截然不同,也许对某个细节作微小改变就会重新创造出一件非常流行的产品。

  中国的粮食统计

  中国的粮食统计是一个老大难的问题。传统的统计办法,依靠统计人员层层上报,水分很大,数据的真实性令人怀疑。在前两年北京的一次会议上,原国家统计局总经济师姚景源讲述了他们是如何进行粮食统计的。他们采用遥感卫星,通过图像识别,把中国所有的耕地标示、计算出来,然后把中国的耕地网格化,对每个网格的耕地抽样进行跟踪、调查和统计,然后按照统计学的原理,计算(或者说估算)出中国整体的粮食数据。这种做法是典型采用大数据建模的方法,打破传统流程和组织,直接获得最终的结果。

  公安部门的“犯罪地图”

  作为2014年亚太经合组织(APEC)领导人非正式会议的举办地,北京市怀柔区警方通过运用大数据、云计算和科学分析模型,整合历年案件信息,建立了犯罪数据分析和趋势预测系统,能够预测犯罪趋势,指导警力投入。这套系统共收录了怀柔区近9年来1.6万余件犯罪案件数据,通过标准化分类后导入系统数据库,同时采用地图标注,将怀柔分成16个警务辖区,抓取4700余个犯罪空间坐标,实施空间网格编号。

  通过对越来越多数据的挖掘分析,某一区域的犯罪率以及犯罪模式都将清晰可见。大数据可以帮助警方定位最易受到不法分子侵扰的区域,创建一张犯罪高发地区热点图和时间表。

1 2 共2页

中 工 网 版 权 所 有 ,未 经 书 面 授 权 禁 止 使 用
Copyright © 2008-2010 by www.workercn.cn. all rights reserved
浏览本网主页,建议将电脑显示屏的分辨率调为1024*768