• 1.摘要
  • 2.基本信息
  • 3.产生背景
  • 3.1.细节数据
  • 3.2.复杂分析
  • 4.区别特征
  • 5.模型描述
  • 5.1.形式化
  • 5.2.数据集合
  • 5.3.数据属性
  • 5.4.计算类型
  • 6.相关思路
  • 6.1.简介
  • 6.2.随机采样
  • 6.3.构造略图
  • 6.4.直方图
  • 6.5.小波变换
  • 7.新动向
  • 8.小说流派

数据流

数据流(datastream)最初是通信领域使用的概念,代表传输中所使用的信息的数字编码信号序列。然而,我们所提到的数据流概念与此不同。这个概念最初在1998年由Henzinger在文献87中提出,他将数据流定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。

基本信息

  • 中文名

    数据流

  • 外文名

    data stream

  • 概念提出人

    Henzinger

  • 提出时间

    1998年

  • 释义

    以规定顺序被读取一次的数据序列

  • 发展原因

    2个

  • 数据模式

    4个

  • 计算类型

    可分为两类:基本计算和复杂计算

产生背景

数据流应用的产生的发展是以下两个因素的结果:

细节数据

已经能够持续自动产生大量的细节数据。这类数据最早出现于传统的银行和股票交易领域,后来则也出现在地质测量、气象、天文观测等方面。尤其是互联网(网络流量监控,点击流)和无线通信网(通话记录)的出现,产生了大量的数据流类型的数据。我们注意到这类数据大都与地理信息有一定关联,这主要是因为地理信息的维度较大,容易产生这类大量的细节数据。

复杂分析

需要以近实时的方式对更新流进行复杂分析。对以上领域的数据进行复杂分析(如趋势分析,预测)以前往往是(在数据仓库中)脱机进行的,然而一些新的应用(尤其是在网络安全和国家安全领域)对时间都非常敏感,如检测互联网上的极端事件、欺诈、入侵、异常,复杂人群监控,趋势监控(track trend),探查性分析(exploratory analyses),和谐度分析(harmonic analysis)等,都需要进行联机的分析。

在此之后,学术界基本认可了这个定义,有的文章也在此基础上对定义稍微进行了修改。例如,S. Guha等认为,数据流是“只能被读取一次或少数几次的点的有序序列”,这里放宽了前述定义中的“一遍”限制。

为什么在数据流的处理中,强调对数据读取次数的限制呢?S. Muthukrishnan指出数据流是指“以非常高的速度到来的输入数据”,因此对数据流数据的传输、计算和存储都将变得很困难。在这种情况下,只有在数据最初到达时有机会对其进行一次处理,其他时候很难再存取到这些数据(因为没有也无法保存这些数据)。

区别特征

与传统的关系数据模式区别

B.Babcock等认为数据流模式在以下几个方面不同于传统的关系数据模式:

1. 数据联机到达;

2. 处理系统无法控制所处理的数据的到达顺序;

3. 数据可能是无限多的;

4. 由于数据量的庞大,数据流中的元素被处理后将被抛弃或存档(archive)。以后再想获取这些数据将会很困难,除非将数据存储在内存中,但由于内存大小通常远远小于数据流数据的数量,因此实际上通常只能在数据第一次到达时获取数据。

三个特点

我们认为,当前所研究的数据流计算之所以不同于传统的计算模式,关键在于这些数据流数据本身具有如下三个特点:

数据的到达—快速