数据学和数据科学

数据学（Dataology）和数据科学（DataScience）是关于数据的科学，定义为研究探索Cyberspace中数据界奥秘的理论、方法和技术。

主要有两个内涵：一个是研究数据本身；另一个是为自然科学和社会科学研究提供一种新方法，称为科学研究的数据方法。

基本信息

中文名
数据学和数据科学
产生背景
数据爆炸
研究内涵
数据和研究数据的方法
联系学科
心理学、社会学、社会人类学

定义

信息化是将现实世界中的事物和现象以数据的形式存储到CYBER空间中，是一个生产数据的过程。这些数据是自然和生命的一种表示形式，这些数据还记录了人类的行为，包括工作、生活和社会发展。今天，数据被快速大量地生产并存储在CYBER空间中，这种现象称为数据爆炸（data explosion），数据爆炸在CYBER空间中形成数据自然界(data nature )。数据是CYBER空间中的唯一存在，需要研究和探索CYBER空间中数据的规律和现象。另外，探索CYBER空间中数据的规律和现象，就是探索宇宙的规律、探索生命的规律、寻找人类行为的规律、寻找社会发展的规律的一种重要手段，例如：可以通过研究数据来研究生命（生物信息学）、研究人类行为（行为信息学）。数据学（Dataology）和数据科学（Data Science）（以下称数据学）是关于数据的科学或者研究数据的科学，定义为：研究探索Cyberspace中数据界（datanature）奥秘的理论、方法和技术，研究的对象是数据界中的数据。与自然科学和社会科学不同，数据学和数据科学的研究对象是Cyberspace的数据，是新的科学。数据学和数据科学主要有两个内涵：一个是研究数据本身，研究数据的各种类型、状态、属性及变化形式和变化规律；另一个是为自然科学和社会科学研究提供一种新的方法，称为科学研究的数据方法，其目的在于揭示自然界和人类行为现象和规律。

数据学已经有一些方法和技术，例如：数据获取、数据存储与管理、数据安全、数据分析、可视化等；还需要有基础理论和新技术，例如：数据存在性、数据测度、时间、数据代数、数据相似性与簇论、数据分类与数据百科全书、数据伪装与识别、数据实验、数据感知等等。数据学的理论和方法将改进现有的科学研究方法，形成新型的科学研究方法，并且针对各个研究领域开发出专门的理论、技术和方法，从而形成专门领域的数据学，例如：行为数据学、生命数据学、脑数据学、气象数据学、金融数据学、地理数据学，等等。

发展历史

数据科学在20世纪60年代已被提出，只是当时并未获得学术界的注意和认可，1974年彼得·诺尔（Peter Naur）出版了《计算机方法的简明调研（Concise Survey of Computer Methods）》中将数据科学定义为：“处理数据的科学，一旦数据与其代表事物的关系被建立起来，将为其他领域与科学提供借鉴”。彼得·诺尔在《计算机方法的简明调研》的前言中首次明确提出了数据科学（Data Science）的概念，“数据科学是一门基于数据处理的科学”，并提到了数据科学与数据学（Datalogy）的区别——前者是解决数据（问题）的科学（the science of dealing with data），而后者侧重于数据处理及其在教育领域中的应用（the science of data and of data processes and its place in education）。11996年在日本召开的“数据科学、分类和相关方法”，已经将数据科学作为会议的主题词。2001年美国统计学教授威廉·S·克利夫兰发表了《数据科学：拓展统计学的技术领域的行动计划》，因此有人认为是克利夫兰首次将数据科学作为一个单独的学科，并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分，奠定了数据科学的理论基础。

研究内容

● 基础理论研究。科学的基础是观察和逻辑推理，同样要研究数据自然界中观察方法，要研究数据推理的理论和方法，包括：数据的存在性、数据测度、时间、数据代数、数据相似性与簇论、数据分类与数据百科全书等。

● 实验和逻辑推理方法研究。需要建立数据科学的实验方法，需要建立许多科学假说和理论体系，并通过这些实验方法和理论体系开展数据自然界的探索研究，从而认识数据的各种类型、状态、属性及变化形式和变化规律，揭示自然界和人类行为现象和规律。

● 领域数据学研究。将数据学的理论和方法应用于许多领域，从而形成专门领域的数据学，例如：脑数据学、行为数据学、生物数据学、气象数据学、金融数据学、地理数据学等等。

● 数据资源的开发利用方法和技术研究。数据资源是重要的现代战略资源，其重要程度将越来越凸显，在本世纪有可能超过石油、煤炭、矿产，成为最重要的人类资源之一。这是因为人类的社会、政治和经济都将依赖于数据资源，而石油、煤炭、矿产等资源的勘探、开采、运输、加工、产品销售等等无一不是依赖数据资源的，离开了数据资源，这些工作都将无法开展。

知识体系

数据科学主要以统计学、机器学习、数据可视化以及（某一）领域知识为理论基础，其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理，数据科学的知识体系如图1所示。

图1 数据科学的知识体系

基础理论（参见本书第1章）：数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础（参见本书第3~5章）、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。在此需要特别提醒的是——“基础理论”与“理论基础”是两个不同的概念。数据科学的“基础理论”在数据科学的研究边界之内，而其“理论基础”在数据科学的研究边界之外，是数据科学的理论依据和来源，如图2所示。

图2 数据科学的基础理论与理论基础的关系

数据预处理（参见本书第2章）：为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性，数据科学中需要对原始数据进行预处理——进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。
数据计算（参见本书第6章）：在数据科学中，计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是Google云计算3大技术、Hadoop MapReduce和YARN技术的出现。数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。
数据管理（参见本书第7章）：在完成“数据预处理”（或“数据计算”）之后，我们需要对数据进行管理，以便进行（再次进行）“数据处理”以及数据的再利用和长久保管。在数据科学中，数据管理方法与技术发生了根本性的改变——不仅包括传统关系型数据库，而且还出现了一些新兴数据管理技术，例如NoSQL、NewSQL技术和关系云等。
技术与工具（参见本书第1-7章的例题）：数据科学中采用的技术与工具具有一定的专业性，我们将在本书“1.4.3 常用工具”中给出了较为详细的列表。目前，R语言是数据科学家最为普遍应用的工具之一。因此，本书所有计算例题均采用了R编程技术，帮助读者积累数据科学的实战经验2。

与其他学科的关系

与其他学科的关系

数据是存在于CYBER空间中的东西；信息是自然界、人类社会及人类思维活动中存在和发生的现象；知识是人们在实践中所获得的认识和经验。数据可以作为信息和知识的符号表示或载体，但数据本身并不是信息或知识。数据学的研究的对象是数据，而不是信息，也不是知识。通过研究数据来获取对自然、生命和行为的认识，进而获得信息和知识。数据学的研究对象、研究目的和研究方法等等都与已有的计算机科学、信息科学和知识科学有着本质的不同。自然科学研究自然现象和规律，认识的对象是整个自然界，即自然界物质的各种类型、状态、属性及运动形式。行为科学是研究自然和社会环境中人的行为以及低级动物行为的科学，已经确认的学科包括心理学、社会学、社会人类学和其它类似的学科。数据学支持了自然科学和行为科学的研究工作。随着数据学的进展，越来越多的科学研究工作将会直接针对数据进行，这将使人类认识数据，从而认识自然和行为。