服务介绍
数据同步
由于业务需要,经常需要从一个数据库定时或实时同步部分数据到另一个库中,数据同步通常面临如下问题:
1 源和目标库异构,需要在目标库重新定义同步表结构。
2 表数据太多、或受限于网络带宽,每次同步全表数据耗费时间太长。
3 源表结构变更,导致同步数据格式改变。
4 由于网络或系统故障造成数据重传或漏传。
5 双向同步时数据的回流现象。
灵蜂ETL软件(Beeload、BeeDI)提供同构或异构库间的数据同步功能,支持全量覆盖、差异更新、增量模式同步数据,其中增量包括时间戳、触发器、日志解析(BeeDI提供)三种模式。
1 对于同构或异构数据库,软件提供源表结构到目标表结构的自动映射,支持表结构的批量映射。
2
软件采用初始全量覆盖方式同步历史数据,后续产生数据采用增量模式同步,采用时间戳或触发器增量模式可以进行定时或延时同步,
采用日志解析可以满足实时同步要求。
3 对于源表结构变动,可以通过图形界面刷新配置,也可以通过脚本功能自动重建目标表。
4
增量模式支持数据断点续传功能,在数据同步过程中会自动记录同步断点,当同步环境故障恢复后,软件会读取上次存储的同步断点,依据断点信息从源库抽取未同步提交的数据。断点仅在数据提交成功后记录,可以杜绝数据遗漏的情况发生。
5
通过触发器或日志解析模式,软件支持同一张表数据的双向同步,软件可以识别增量数据的产生来源,有效避免数据回流现象。
数据库容灾
也称数据库双活、数据库复制,即在本地或异地部署一个与生产库完全相同的灾备数据库,当生产库由于各种原因(错误操作、系统软件错误、病毒、硬件故障、断电、火灾、地震等)发生故障时,灾备数据库可以立刻接管原有应用,对外正常提供服务。进行数据库容灾通常需要考虑以下问题:
1 本地容灾还是异地容灾,异地容灾的网络带宽及稳定性。
2 灾备数据库是否需要在线查询,是否需要效验比对某些核心数据是否与生产库一致。
3
RTO(恢复时间目标,指生产库发生故障到灾备库投入运行期望的时间)、RPO(数据恢复点目标,指生产系统所能容忍的数据丢失量)。
4
备份模式选择,单向备份模式(active/standby)还是双向互备模式。其中双向互备模式又分为半双工和全双工,半双工在任一时间点依然是单向模式(active/standby),只有一个数据库接受业务请求,当主库故障时允许主备自动切换。全双工模式(active
/active),用于双业务中心异地互备,两个数据库同时接受业务请求。对于全双工模式需要考虑数据是否存在主键冲突。
5
部署及维护成本,灾备库是否支持异构(不同操作系统、不同数据库版本)、是否需要在主备库安装代理程序或在数据库额外创建对象、是否需要调整表结构等。应用系统升级是否需要重新配置备份过程,是否需要人工干预等。
灵蜂数据库复制软件Beedup提供数据库(Oracle/SQL
Server/DB2/MySQL/PostgreSQL)容灾功能,具备以下特点:
1
Beedup采用TCP连接主从数据库,支持本地或异地容灾。软件读取解析主库归档或在线日志,还原其中的DDL及DML操作在备库执行,通过将软件部署到主库所属网络,可以在备份时有效降低网络负载。软件提供断点机制增量读取解析日志,可以忍受苛刻的网络条件。
2
Beedup采用SQL接口向从库写入DML及DDL,从库实时在线可用。另外软件提供主从表的差异比对功能,可以随时效验主从数据一致性。
3
Beedup采用事务单元复制主库变化到从库,主库事务提交后,软件立即读取解析事务并复制变化到从库,整个过程秒级完成。当主库发生故障时,可以直接修改从库IP为主库IP接管其上业务。
4 Beedup支持active/standby和active /active备份模式,对于active
/active模式的自增主键冲突,无需调整业务系统,Beedup提供自增值到目标库的重新计算并更新相关依赖信息的功能。
5
Beedup采用JDBC读写主备数据库,对数据库运行平台及版本无要求,当生产库采用高性能设备时,备份库可以选择普通商用配置。软件部署灵活,既可部署于主服务器,也可部署于备份服务器,或者部署到可以TCP连通主备服务器的其它任意机器。软件对主库不需要任何写入操作,通过读取解析主库归档或在线日志复制事务到备份库,对于表结构、视图、存储过程、触发器等DDL操作均可自动备份,无需人工干预。
数据汇聚
也称数据上报、数据集中,采用N+1模式,将地理上分布于多点的下辖部门日常产生的业务数据同步汇总到数据中心,汇总后的数据包含原始业务数据所有信息,用于集中共享或向大数据平台提供输入数据。该类项目通常具有以下特点:
1 部门众多,每个部门包含多个业务系统,不同业务系统采用不同类型数据库。
2 同一类业务系统在各个部门间存在数据库类型、表结构不一致等情况。
3 业务数据库与中心数据库类型不同导致的数据不兼容问题(空串、字符集编码等)。
4 每个业务系统汇聚数据涉及成百上千张表,或者存储在外部文件中。
5 业务系统升级导致的数据格式改变。
6 某段时间内,某个部门到数据中心网络中断,或业务系统维护停机或意外宕机。
采用灵蜂ETL软件(Beeload、BeeDI)实施数据汇聚项目,具备如下优势:
1 软件提供广泛的数据接口,支持对各类主流数据库(Oracle、DB2、SQL
Server、MySQL、PostgreSQL、Informix等)、外部文件(文本、XML、Excel)进行读写访问。
2
软件内置丰富的数据转换功能,如类型转换、字段运算、参照转换、字符串处理、字符集转换、空值处理、日期转换、聚集运算、既定取值、字段切分、字段合并、字符集转换等,用于对汇总数据进行标准化。
3
软件不仅支持图形界面辅助用户快速定义数据转换规则,还额外提供脚本开发环境,当汇聚表数以千计时,使用图形界面逐表配置会是一个相当繁重耗时的工作,而采用灵蜂ETL软件强大的脚本功能,可以起到事半功倍的效果。
4 软件支持同构或异构表结构的读取比对功能,对于业务表结构的变更,软件可以自动更新目标表结构并重传所有数据。
5
软件支持全量覆盖、差异更新、增量抽取等数据同步模式。其中增量模式包括时间戳、触发器、日志解析(BeeDI支持),增量模式支持数据断点续传功能。
6 软件提供工作流调度功能,用于定义多个相关任务的执行顺序、触发条件、异常逻辑等。
数据集成
也称ETL、对跨部门的业务数据进行抽取、合并、清洗标准化,处理后的数据可以存入主数据存储库向各个业务系统提供一致的数据视图(主数据管理),也可按照主题数据格式存入大数据平台进行数据分析、挖掘(数据仓库、大数据)。数据集成常见问题如下:
1 涉及部门众多,数据接口类型多样化。
2 顶层设计缺失或历史原因,数据缺乏统一标准,信息孤岛、数据碎片化现象严重。
3 数据冗余、数据不一致、错误数据等系列问题使得数据质量低下,难以有效检索利用。
4 对于随时变化的业务数据,如何将其高效合并到主数据存储或数据仓库存储中。
采用灵蜂数据集成软件实施数据集成项目,具备如下优势:
1 软件支持广泛的数据接口,支持对各类主流数据库(Oracle、DB2、SQL
Server、MySQL、PostgreSQL、Informix、MongoDB、Redis、Teradata、SAP
Hana等)、外部文件(文本、XML、Excel)、大数据存储(Hive、HBase)、消息服务器(Kafka)进行读写访问。
2
软件提供数据联邦功能,可以跨库合并业务数据。支持各种映射转换,如类型转换、字段运算、参照转换、字符串处理、字符集转换、空值处理、日期转换、聚集运算、既定取值、字段切分、字段合并等。
3 软件支持基于规则的数据清洗、过滤、转换等功能,简洁直观的图形操作界面帮助用户高效实现数据标准化。
4
软件提供时间戳、触发器、日志解析等增量抽取方式,支持对增量数据进行各种清洗转换处理,处理后的数据可以存入数据库、大数据存储或发送到Kafka消息服务器。
5 软件提供工作流调度功能,用于调度管理相关任务的执行顺序、触发条件、异常逻辑等。