数据采集和存储技术的迅速发展,加之数据生成与传播的便捷性,致使数据爆炸性增长,最终形成了当前的大数据时代。围绕这些数据集进行可行的深入分析,对几乎所有社会领域的决策都变得越来越重要。而这一切的起始,源于对数字的挖掘,在这过程中,合理、安全地使用数据,也是一代代科学家孜孜以求的目标。
刘世平
中国科学院大学教授
吉贝克信息技术(北京)有限公司董事长
主持人:数字挖掘技术是您的绝活,先给我们来介绍一下这到底是什么。
刘世平:数据挖掘这个概念早在上世纪90年代中期由IBM提出来,到现在大概已经有二十五六年的时间了,英文叫做datamining,我翻译成中文叫做数据挖掘。数据挖掘主要是从大量的数据中提取有用的信息,把这些信息结合行业知识,运用到我们的决策过程中去,这就是数据挖掘最主要的含义。
所以它包含几层含义,第一个是包括数据,包括数据的整合;第二个很重要的问题是数据的分析,也就是今天所谓人工智能里面的很多算法;第三个因为数据挖掘是一定要应用到某一个行业里面去,解决具体的问题,所以行业知识很重要;第四个是加上数据,加上分析的结果,加上行业的知识,然后把它运用到这个行业的决策过程中去,这是数据挖掘整个的过程。
▲
数据挖掘不仅仅是“挖掘”
它包含后面一整套处理数据的流程
主持人:数据挖掘和现在的大数据有什么关系?
刘世平:数据挖掘解决了很多金融方面的一些问题,那么它跟大数据时代是密切相关的。大数据演变的过程,应该已经有33年的历史了,最早在年的时候,提出了一个概念叫做数据仓库,英文叫做datawarehouse。它主要是指把分散在各个地方,一个企业或一个*府里边不同地方的数据进行有效的整合,提炼出来同一系列的手段和方法把数据里边的信息能够提炼出来,然后结合行业知识用于决策的过程,所以数据挖掘更多的是在数据的分析阶段。90年代末期又有一个新的概念,叫做商业智能。那么发展到了年的时候才开始叫大数据。所以它是先从数据仓库,数据挖掘,商业智能再到大数据,整个这样的发展过程。而数据挖掘这些年来就会显得更加的重要。
▲数据挖掘和大数据息息相关
主持人:您怎么会去