实时数据集成
随着实时数据库的应用和互联网的迅速发展,实时数据集成已经成为一个很重要的问,且实时数据集成与批处理数据集成两者在某些方面互补。实时数据集成元数据主要包括3类:业务元数据、技术元数据以及操作元数据。实时数据集成的最佳实践突破了点对点方案和紧耦合接口设计所带来的复杂性问题:多种不同的逻辑设计方案可以用不同的技术去实现,但是如果没有很好地理解底层的设汁问题,这些技术在实施时也同样会导致比较低效的数据集成。
基本信息
- 中文名
实时数据集成
- 外文名
Real-time data integration
- 优点
能够及时处理数据
- 缺点
速度慢于批处理方式、技术更复杂
- 元数据
业务、技术以及操作元数据
- 应用学科
大数据管理
简介
为了完成一个业务事务处理而需要即时地贯穿多个系统的接口就是所谓的“实时”接口。一般情况下,这类接口需要以“消息”的形式传送比较小的数据量。大多数实时接口依然是点对点的,发送系统和接收系统是紧耦合的,因为发送系统和接收系统需要对数据的格式达成特殊的约定,所以任何改变都必须在两个系统之间同步实施。实时接口通常也称为同步接口,因为事务处理需要等待发送方和接口都完成各自的处理过程。
实时数据集成的最佳实践突破了点对点方案和紧耦合接口设计所带来的复杂性问题:多种不同的逻辑设计方案可以用不同的技术去实现,但是如果没有很好地理解底层的设汁问题,这些技术在实施时也同样会导致比较低效的数据集成。
实时数据集成的必要性
对于大多数据集成需求来说,因为要隔一夜,所以批处理的数据移动方式可能不可接受。一笔业务交易发生之后,要到第二天才能看到,这是难以接受的。同样不能被接受的是某个客户和组织新设立了一个账户之后,却不能够在当天办理业务。
数据大小限制
实时数据交互过程通常会对在一次交互中所能包含的数据的数量或者大小有所限制。在一次实时数据交互中所能处理的数据块称为一个“消息”。另外,批处理数据交互中对数据大小几乎没有任何限制。而且,每个实时交互消息都必须穿过在批处理集成中所描述的安全层次。由于每个小数据集或者消息都必须经过这么处理,所以实时移动数据的方式对大量的数据处理来说,其速度要慢于批处理方式。在某些应用系统中,批处理数据集成的大量数据处理能力是有优势的,因此会采用批处理的方式来移动数据。但是,如今大多数数据集成过程都以一种实时或者接近实时的方式运行。
接口
在应用系统之间的实时数据交互通常称为接口,其含义与应用系统之间的批处理交互一样。组织的应用系统组合管理,这即使对于一个拥有上百个活动应用的组织来说也可能是让人望而却步的。有时候,应用系统之间接口的复杂性可能会更加让人崩溃。
所使用技术
处理实时数据集成所用到的技术要比批处理数据集成稍微复杂一些。一些基本步骤,如抽取、转换,以及加载依然存在。当然,它们是以一种实时的方式在业务交易层面进行处理。对应用系统之间或者“点对点”的实时接口进行管理,相对于一个应用组合之内的所有必要交互的管理来说要稍微低效些。因此,为了管理接口,每个组织拥有一个企业级数据集成架构和管理能力就显得相当重要。否则,事情很快就会变得不可思议的复杂。
两组技术
两组技术包括实时数据集成工具和批处理集成工具。
成本角度
在创建了实时数据集成能力之后依然保留批处理集成能力的第一个原因在于,现存的批处理接口已经被开发处理,并且经过测试,使用于生产环境中。迁移到另外一种技术可能会花费大量的时间和资源,虽然从成本的角度看可能是合理的,因为不需要维护两组技术许可以及给两组技术人员支付工资。
事务处理量
维护批处理和实时数据集成两组技术的首要原因是实时数据集成的不足以处理大量的事务,例如在常规批处理数据接口窗口内将数据加载到数据仓库或者在给定的时间之类完成数据转换。实时数据集成天生就比较慢,因为对于移动的每个数据来说,都需要调用API访问所有的安全层次并经过评估。改变数据仓库的架构,在源系统中的数据发生变化的时候就加载这些数据,而不是每天、每周才加载数据,可能会减轻一些时间压力。但是,在某个时刻(每天结束的时候)获取的快照中所包含的数据量,对实时接口来说可能仍然难以在可用的批处理窗口之内进行处理。
因此,大多数组织都实施了批处理数据集成工具和实时数据集成工具,并针对不同的任务使用合适的工具。在合适的场合下,批处理数据集成工具通常为数据仓库应用系统所拥有,并可以用于任何数据转换。