加入收藏 | 设为首页 | 会员中心 | 我要投稿 牡丹江站长网 (https://www.0453zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据科学研究的现状与趋势介绍

发布时间:2021-06-22 19:02:50 所属栏目:大数据 来源:互联网
导读:大数据时代的到来催生了一门新的学科数据科学。首先,本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系;其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业
 大数据时代的到来催生了一门新的学科——数据科学。首先,本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系;其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题;接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。再次,提出了数据科学研究的10个发展趋势:预测模型及相关分析的重视、模型集成及元分析的兴起、数据在先,模式在后或无模式的出现、数据一致性及现实主义的回归、多副本技术及靠近数据原则的广泛应用、多样化技术及一体化应用并存、简单计算及实用主义占据主导地位、数据产品开发及数据科学的嵌入式应用、专家余及公众数据科学的兴起、数据科学家与人才培养的探讨。最后,结合本文工作,为数据科学研究者给出了几点建议和注意事项。
 
  大数据正在改变着人们的工作、生活与思维模式,进而对文化、技术和学术研究产生了深远影响。一方面,大数据时代给各学科领域带来了新的机遇——认识论和研究范式的转变,出现了一种区别于传统科学研究中沿用至今的“知识范式”的新研究范式——“数据范式”。“数据范式”的广为应用成为现代科学研究的一个重要转变。另一方面, 大数据带来的挑战在于数据的获得、存储、计算不再是瓶颈或难题,各学科领域中的传统知识与新兴数据之间的矛盾日益突出,传统知识无法解释和有效利用新兴的大数据,进而促使传统理论与方法的革命性变化。
 
  目前,大数据已受到各学科领域的高度关注,成为包括计算机科学和统计学在内的多个学科领域的新研究方向,表现出不同专业领域中的数据研究相互高度融合的趋势,进而即将独立出一门新兴学科——数据科学。同时,大数据研究中仍存在一些误区或曲解,如片面追求数据规模、过于强调计算架构和算法、过度依赖分析工具、忽视数据重用、混淆数据科学与大数据的概念以及全盘否定大数据等。因此,现代社会需要一门新学科来系统研究大数据时代的新现象、理念、理论、方法、技术、工具和实践,即“数据科学”。
 
  本文第1节探讨数据科学的内涵、发展简史、学科地位和知识体系等四个基本问题,并提出了数据科学的两个基本类型——专业数据科学和专业中的数据科学。第2节提出现阶段数据科学研究的特点——本质问题的系统研究较少,反而周边问题的讨论较多,并分别分析了专业数据科学、专业中数据科学以及大数据生态系统中的相对热门话题。第3节探讨数据科学研究中的10个争议——思维模式的转变(知识范式还是数据范式)、对数据的认识视角(主动属性还是被动属性)、对智能的认识侧重点(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)和人才培养(数据工程师还是数据科学家),并分别提出了研究挑战。第4节分析了数据科学研究的10个发展趋势——预测模型及相关分析的重视、模型集成及元分析的兴起、数据在先,模式在后或无模式的出现、数据一致性及现实主义的回归、多副本技术及靠近数据原则的应用、多样化技术及一体化应用并存、简单计算及实用主义占据主导地位、数据产品开发及数据科学的嵌入式应用、专家余及公众数据科学的兴起以及数据科学家与人才培养的探讨。最后总结全文,并对数据科学研究者提出了几点建议。
 
  数据科学:大数据背后的科学
 
  “数据科学”与“大数据”是两个既有区别又有联系的术语,可以将数据科学理解为大数据时代一门新科学,即以揭示数据时代,尤其是大数据时代新的挑战、机会、思维和模式为研究目的,由大数据时代新出现的理论、方法、模型、技术、平台、工具、应用和最佳实践组成的一整套知识体系。
 
  1.  数据科学的内涵及兴起
 
  1974年,着名计算机科学家、图灵奖获得者Peter Naur在其着作《计算机方法的简明调研(Concise Survey of Computer Methods)》的前言中首次明确提出了数据科学(Data Science)的概念,“数据科学是一门基于数据处理的科学”,并提到了数据科学与数据学(Datalogy)的区别——前者是解决数据(问题)的科学(the science of dealing with data),而后者侧重于数据处理及其在教育领域中的应用(the science of data and of data processes and its place in education)。
 
  Peter Naur首次明确提出数据科学的概念之后,数据科学研究经历了一段漫长的沉默期。直到2001年,当时在贝尔实验室工作的William S. Cleveland在学术期刊International Statistical Review上发表题为《数据科学——拓展统计学技术领域的行动计划(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics》的论文,主张数据科学是统计学的一个重要研究方向,数据科学再度受到统计学领域的关注。之后,2013年,Mattmann C A和 Dhar V在《自然(Nature)》和《美国计算机学会通讯(Communications of the ACM)》 上分别发表题为《计算——数据科学的愿景(Computing: A vision for data science)》和《数据科学与预测(Data science and prediction)》论文,从计算机科学与技术视角讨论数据科学的内涵,使数据科学纳入计算机科学与技术专业的研究范畴。然而,数据科学被更多人关注是因为后来发生了三个标志性事件:一是Patil DJ和 Davenport T H于2012年在哈佛商业评论上发表题为《数据科学家——21世纪最性感的职业(Data scientist: the sexiest job of the 21st century)》;二是2012年大数据思维首次应用于美国总统大选,成就奥巴马,击败罗姆尼,成功连任;三是美国白宫于2015年首次设立数据科学家的岗位,并聘请Patil DJ作为白宫第一任首席数据科学家。
 
  Gartner的调研及其新技术成长曲线(Gartner's 2014 Hype Cycle for Emerging Technologies)表示,数据科学的发展于2014年7月已经接近创新与膨胀期的末端,将在2~5年之内开始应用于生产高地期(plateau of Productivity)。同时,Gartner的另一项研究揭示了数据科学本身的成长曲线(Hype Cycle for Data Science),如图1所示。从图1可以看出,数据科学的各组成部分的成熟度不同:R的成熟度最高,已广泛应用于生产活动;其次是模拟与仿真、集成学习、视频与图像分析、文本分析等,正在趋于成熟,即将投入实际应用;基于Hadoop的数据发现可能要消失;语音分析、模型管理、自然语言问答等已经渡过了炒作期,正在走向实际应用;公众数据科学、模型工厂、算法市场(经济)、规范分析等正处于高速发展之中。
 
图1  数据科学的成长曲线(2016)
 
  2.  数据科学的学科地位
 
  2010年,Drew Conway 提出了第一张揭示数据科学的学科地位的维恩图——《数据科学维恩图(The Data Science Venn Diagram)》(图2),首次明确探讨了数据科学的学科定位问题。在他看来,数据科学处于统计学、机器学习和领域知识的交叉之处。后来,其他学者在此基础上提出了诸多修正或改进版本,如图3是Jerry Overton于2016年给出的数据科学维恩图。但是,后续版本对数据科学的贡献和影响远不及Drew Convey首次提出的数据科学维恩图。
 
图2  Drew   Conway的数据科学韦恩图(2010)
图3  Jerry   Overton的数据科学韦恩图(2016)
 
  从Drew Conway的《数据科学维恩图》的中心部分可看出,数据科学位于统计学、机器学和某一领域知识的交叉之处,具备较为显着的交叉型学科的特点,即数据科学是一门以统计学、机器学习和领域知识为理论基础的新兴学科。同时,从该图的外围可看出,数据科学家需要具备数学与统计学知识、领域实战和黑客精神,说明数据科学不仅需要理论知识和实践经验,而且还涉及黑客精神,即数据科学具有三个基本要素:理论(数学与统计学)、实践(领域实务)和精神(黑客精神)。
 
  3. 数据科学的知识体系
 
  从知识体系看,数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发,如图4所示。
 
图4  数据科学的知识体系
 
  基础理论:主要包括数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。需要特别提醒的是,“基础理论”与“理论基础”是两个不同的概念。数据科学的“基础理论”在数据科学的研究边界之内,而其“理论基础”在数据科学的研究边界之外,是数据科学的理论依据和来源。
 
  数据加工(Data Wrangling 或Data Munging):数据科学中关注的新问题之一。为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的精准度,数据科学项目需要对原始数据进行一定的加工处理工作——数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据归约和数据标注等。值得一提的是,与传统数据处理不同的是,数据科学中的数据加工更加强调的是数据处理中的增值过程,即如何将数据科学家的创造性设计、批判性思考和好奇性提问融入数据的加工活动之中。
 
  数据计算:在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。比较有代表性的是Google三大云计算技术(GFS、BigTable和MapReduce)、Hadoop MapReduce、Spark和YARN。计算模式的变化意味着数据科学中所关注的数据计算的主要瓶颈、主要矛盾和思维模式发生了根本性变化。
 
  数据管理:在完成“数据加工”和“数据计算”之后,还需要对数据进行管理与维护,以便进行(再次进行)“数据分析”以及数据的再利用和长久存储。在数据科学中,数据管理方法与技术也发生了重要变革——不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,如NoSQL、NewSQL技术和关系云等。
 
  数据分析:数据科学中采用的数据分析方法具有较为明显的专业性,通常以开源工具为主,与传统数据分析有着较为显着的差异。目前,R语言和Python语言已成为数据科学家较为普遍应用的数据分析工具。
 
  数据产品开发:“数据产品”在数据科学中具有特殊的含义——基于数据开发的产品的统称。数据产品开发是数据科学的主要研究使命之一,也是数据科学区别于其他科学的重要区别。与传统产品开发不同的是,数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。数据产品开发能力也是数据科学家的主要竞争力之源。因此,数据科学的学习目的之一是提升自己的数据产品开发能力。
 
  4. 专业数据科学及专业中的数据科学
 
  数据科学是一门与领域知识和行业实践高度交融的学科。从目前的研究现状看,数据科学可以分为两类:专业数据科学与专业中的数据科学。其中,“专业数据科学”是以独立学科的形式存在,与其他传统学科(如计算机科学、统计学、新闻学、社会学等)并列的一门新兴科学;“专业中的数据科学”是指依存于某一专业领域中的大数据研究,其特点是与所属专业的耦合度较高,难以直接移植到另一个专业领域,如数据新闻(Data Journalism)、材料数据科学(Materials Data Science)、大数据金融(Big Data Finance)、大数据社会、大数据伦理(Big Data Ethics)和大数据教育(Big Data Education)等。
 
  专业数据科学与专业中的数据科学的联系如下:专业数据科学聚集了不同专业中的数据科学中的共性理念、理论、方法、术语与工具;相对于专业中的数据科学,专业数据科学更具有共性和可移植性,并为不同专业中的数据科学研究奠定了理论基础;专业中的数据科学代表的是不同专业中对数据科学的差异性认识和区别化应用。
 
  数据科学的研究热点
 
  目前,数据科学的研究特点是对本质问题的系统研究少,然而对周边问题的讨论较多,可从以下四个方面进行分类分析。
 
  1. 周边问题仍为研究热点
 
  从文献分布看,数据科学的研究主题可以分为两类:核心问题和周边问题。前者代表的是数据科学的基础理论——数据科学特有的理念、理论、方法、技术、工具、应用及代表性实践;后者代表的是数据科学的底层理论(理论基础,如统计学、机器学习等)、上层应用(应用理论,如数据新闻、大数据金融、大数据社会、大数据生态系统等)以及相关研究(如云计算、物联网、移动计算等)。文献数量和研究深度表明,现阶段的数据科学研究热点仍聚焦在周边问题的讨论之上,而对数据科学的核心问题的研究远远不够。数据科学的周边问题的研究主要集中在:
 
  大数据挑战及数据科学的必要性。在大数据时代,挑战和机会并存:挑战不仅来自于数据量(Volume),而且还涉及其多个V特征,如种类多(Variety)、速度要求高(Velocity)和价值密度低(Value)。因此,社会与科技的发展亟待一门新的学科——数据科学,并对大数据时代的新问题和新思路进行系统研究。
 
  数据科学对统计学和计算机科学的继承与创新。一方面数据科学作为新的研究方向,进一步拓展了统计学和计算机科学与技术的研究范畴;另一方面,数据科学不仅继承了统计学和计算机科学等基础理论,而且对其进行了创新与发展,逐渐成为一门独立学科。
 
  新技术在数据科学中的重要地位。云计算、物联网、移动计算等新技术的兴起拓展了人的数据获取、存储和计算能力,促使大数据时代的到来,成为数据学科诞生的必要条件。同时,数据科学中需要重点引入Spark、Hadoop、NoSQL等新兴技术,从而更好地面对大数据挑战。新技术的应用意味着数据科学对数据及其管理的认识发生了根本性变化——不仅开始接受了数据的复杂性,而且数据管理的理念从传统的完美主义者转向现实主义,“数据在先,模式在后或无模式”的数据管理范式、BASE原则以及CAP理论等新理念已成为数据科学的基本共识。
 
  数据科学对特定领域的影响。大数据及其背后的数据科学在特定领域的应用是近几年的热门话题,尤其在生命科学、医疗保健、政府治理、教学教育和业务管理等领域的广泛应用,出现了量化自我、数据新闻、大数据分析学等新的研究课题。
 
  数据科学领域的人才培养。与传统科学领域不同的是,数据科学领域人才培养目的是培养学生的“以数据为中心的思考能力”。目前,相关研究主要涉及四个主题:数据科学课程的建设、相关课程的教学改革、跨学科型人才培养以及女性数据科学家的培养。从总体上看,数据科学的人才培养目的并不是数据工程师,而是数据科学家,尤其培养具有3C精神的数据科学家——原创性(Creative)设计、批判性(Critical)思考和好奇性(Curious)提问。
 
  2. 专业数据科学研究中相对热门话题
 
  从研究视角看,数据科学的研究可以分为两类:专业数据科学和专业中的数据科学。前者代表的是将数据科学当作一门独立于传统科学的新兴学科来研究,强调的是其学科基础性:后者代表的是将数据科学当作传统学科的新研究方向和思维模式来研究,强调的是数据科学的学科交叉性。从目前的研究现状看,专业数据科学研究的热热门话题有:
 
  DIKW模型。DIKW模型刻画的是人类对数据的认识程度的转变过程。通常认为,数据科学的研究任务是将数据转换成信息(Information)、知识(Knowledge)或(和)智慧(Wisdom)。从数据到智慧的转变过程是一种从不可预知到可预知的增值过程,即数据通过还原其真实发生的背景(Context)成为信息,信息赋予其内在含义(Meaning)之后成为知识,而知识通过理解转变成智慧。
 
  数据分析学(Data Analytics)。大数据分析研究正在成为一门相对成熟的研究方向——数据分析学。需要注意的是,数据分析(Data Analysis)与数据分析学是两个不同的概念:前者强调的是数据分析活动本身,而后者更加强调的是数据分析中的方法、技术和工具。目前,大数据分析研究中的热门话题有两个:一是大数据分析学,尤其是大数据分析算法和工具的开发;另一个面向特定领域的大数据分析,如面向物流与供应链管理、网络安全以及医疗健康的大数据分析学。论文给出了数据分析的主要类型及常见错误。
 
  数据化(Datafication)。数据化是将客观世界以及业务活动以数据的形式计量和记录,形成大数据,以便进行后续的开发利用。除了物联网和传感器等公认的研究课题,量化自我(Quantified Self)也在成为数据化的热门话题。数据化是大数据时代初级阶段的主要关注的问题,随着大数据的积淀,人们的研究焦点将从业务的数据化转向数据的业务化,即研究重点将放在“基于数据定义和优化业务”之上。
 
  数据治理(Data Governance)。数据治理是指数据管理的管理。目前,相关研究主要集中在顶层设计、实现方法、参考框架以及如何保证数据管理的可持续性。此外,数据治理作为数据能力成熟度评估模型(Data Maturity Model)的关键过程域,重点关注的是如何通过数据治理提升组织数据管理能力的问题。DMM中定义的关键过程域“数据治理”包括3个关键过程:治理管理(Governance Management)、业务术语表(Business Glossary)和元数据管理(Metadata Management)。
 
  数据质量。大数据的质量与可用性之间内在联系的讨论已成为现阶段数据科学的热点问题之一,主要研究议题集中在大数据中的质量问题会不会导致数据科学项目的根本性错误以及大数据时代背景下的数据可用性的挑战及新研究问题。但是,传统数据管理和数据科学对数据质量的关注点不同。传统数据管理主要从数据内容视角关注质量问题,强调的是数据是否为干净数据(Clean Data)/脏数据(Dirty Data);数据科学主要从数据形态视角关注质量问题,重视的是数据是否为整齐数据(Tidy Data)/混乱数据(Messy Data)。所谓的整齐数据是指数据的形态可以直接支持算法和数据处理的要求。例如,着名的数据科学家Hadley Wickham 提出了整齐数据和数据整齐化处理(Data Tidying)的概念,并主张整齐数据应遵循三个基本原则: 每个观察占且仅占一行、每个变量占且仅占一列以及每一类观察单元构成一个关系表。
 
  除了上述问题之外,大数据的安全、大数据环境下的个人隐私保护、数据科学的项目管理及团队建设、公众数据科学(Citizen Data Science)等是目前在专业数据科学研究中讨论较多的问题。
 
  3. 专业中的数据科学研究的相对热门话题
 
  相对于专业数据科学,专业中的数据科学研究具有差异性和隐蔽性。差异性主要表现在各学科领域对数据科学的关注点和视角不同;隐蔽性是指专业中的数据科学研究往往间接地吸收和借鉴数据科学或类似于数据科学的思想,而并不明确采用或直接运用数据科学的规范术语。从目前的研究看,以下几个专业中的数据科学研究尤为活跃:
 
  数据新闻(Data Journalism):新闻学领域的新研究方向之一,主要研究的是如何将大数据和数据科学的理念引入新闻领域,实现数据驱动型新闻(Data-driven Journalism)。
 
  工业大数据:主要研究如何将大数据应用于工业制造领域,进而实现工业制造的创新。比较有代表性的是德国工业4.0(Industrie 4.0)、美国工业互联网(Industrial internet)和中国制造2025(Made in China)。
 
  消费大数据:与工业大数据不同的是,消费大数据更加关注的是产品生命周期的末端,即如何将已生产出的产品推销给更多的用户,主要包括精准营销、用户画像(User Profiling)以及广告推送。
 
  健康大数据:主要关注大数据在健康与医疗领域的广泛应用,包括生命日志(Life Logging)、医疗诊断、药物开发、卫生保健等具体领域的应用。
 
  生物大数据:将大数据的理念、理论、方法、技术和工具应用于生物学领域,从而生物学从知识范转向数据范式。
 
  社会大数据:综合运用大数据和数据科学的理论,探讨如何在大数据时代进行舆情分析、社会网络分析以及热点发现。
 
  机构大数据:如何将大数据和数据科学的思想引入企业、政府以及公益部门的日常业务、战略规划与可持续改进。
 
  智慧类应用:如何将大数据应用于智慧城市、智慧医疗、智慧养老、智慧交通、智慧教育等领域,发挥数据的驱动作用,进而实现更高的智慧。
 
  敏捷类应用:如何将大数据思维用于软件开发、项目管理以及组织管理之中,进而实现敏捷软件开发、敏捷项目管理和敏捷组织,提升其应变能力和可持续发展能力。
 
  4. 大数据生态系统研究中相对热门话题
 
  数据科学生态系统(Big Data Ecosystem)是指包括基础设施、支撑技术、工具与平台、项目管理以及其他外部影响因素在内的各种组成要素构成的完整系统。例如,大数据全景图(Big Data Landscape)较为全面地展示了大数据生态系统中的主要机构及产品。现有相关研究主要从组成要素及其相互关系两个方面进行。就目前而言,相关研究中的热门话题集中在:
 
  基础设施:主要关注云计算、物联网、移动计算、社交媒体在内的基础设施对数据科学的影响以及数据科学中如何充分利用上述基础设施。
 
  支撑技术:建立在基础设施上的关键技术,现有研究主要讨论机器学习、统计学、批处理、流计算、图计算、交互计算、NoSQL、NewSQL和关系云等支撑技术在数据科学的应用;
 
  工具与平台:支撑技术的具体实现,目前的主要研究热点集中在R、Python、Hadoop、Spark、MongoDB、HBase、Memcached、MongoDB、CouchDB和Redis等工具与平台在数据科学中的应用;
 
  项目管理:涉及数据科学项目的范围、时间、成本、质量、风险、人力资源、沟通、采购及系统管理等9个方面的管理;
 
  环境因素:大数据时代对法律、政策、制度、文化、道德、伦理产生的影响与新需求。其中,大数据权属立法研究主要讨论大数据权属立法的必要性、可行性以及对策建议。从大数据的重要性的认识看,大数据不再是一种资源,更是一种资产。大数据权属的立法已经成为大数据时代信息资源开发利用的必要条件。
 
  数据科学研究的争议与挑战
 
  在不同的学科领域,大数据时代的科学研究所面临问题、挑战和关注点不同。从计算机科学视角看,新的数据处理需求已经超出了现有的存储与计算能力;从统计学视角看,大数据挑战在于样本的规模接近总体时,如何直接在总体上进行统计分析;从机器学习角度看,训练样本集接近测试样本集时,如何用简单模型及模型集成方法实现较高的智能水平;从数据分析角度看,如何从海量数据中快速洞察有价值的数据,并通过试验设计和模拟仿真,实现数据到智慧的转变。但是,从数据科学视角看,其研究中的常见争议及背后的研究挑战

(编辑:牡丹江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!