Tel: (010) 82826229

常见问答

1   灵蜂ETL产品如何与数据库交互,需要在数据库服务器安装代理程序吗?

灵蜂ETL产品通过TCP方式远程连接数据库,通常需要了解数据库服务器IP、端口、数据库名、用户及密码参数信息。不需要在数据库服务器安装任何代理程序,依据实际项目情况,灵蜂ETL产品可以单独部署在源数据服务器、目标数据服务器或单独的ETL服务器上。


2   灵蜂ETL产品支持哪些同步方式,各种同步方式的优缺点?

灵蜂ETL产品支持的数据同步方式分为全量和增量两类,其中全量方式包含全量覆盖和全表比对两种模式,增量方式包含时间戳、触发器、日志解析(仅BeeDI提供)三种模式。各种同步方式的特点如下:

全量覆盖

抽取前首先清空目标表的对应数据,然后将抽取数据装载到目标表,适合于历史数据初始化加载;另外对于T+1方式同步数据,即每天同步一次当天或前一天的业务数据,也可以采用全量覆盖方式处理。

全量覆盖方式由于处理数据较多通常会花费较长的时间,不适合实时同步的场景。

全表比对

全表比对模式逐条比对源表和目标表记录,根据比较结果执行新增、修改或删除操作,运行效率较低,适合于不能使用增量同步方式时的备选方法,通常用于数据总量较小的表同步。

时间戳

时间戳需要源表存在满足以下条件的字段或字段组合,字段值按照记录插入顺序递增(如流水号或日期值记录修改时,需要把对应字段值设为最大

时间戳不能同步记录删除操作

触发器

触发器模式需要在源库针对源表创建触发器和临时表,当源表已经存在其它触发器时,需要了解其它触发器内部逻辑以避免冲突。

触发器可以捕获数据的增加,删除,修改,适合于业务数据变化不大的情况,当业务数据变化较大时,会由于触发器降低系统性能

日志解析

源库连接用户需要具备读取系统字典及日志的权限,源库需要开启归档模式。
日志解析模式可以捕获数据的增加,删除,修改操作,无需对源库结构作任何改变,但数据库日志会占用主库额外的磁盘空间。


3   灵蜂ETL产品是否支持双向数据同步,是否存在变化数据反复同步的情况?

灵蜂ETL产品支持双向数据同步,双向同步基于触发器或日志解析模式实施部署,对于变化数据的再次同步问题,灵蜂ETL通过识别数据的操作用户判定数据是否需要同步,从而可杜绝数据的反复同步。


4   当同步服务器、数据库服务器或网络出现故障恢复正常后,灵蜂ETL产品是否会出现数据丢失?

灵蜂ETL产品在增量模式下支持断点续传功能,在数据同步过程中会自动记录同步断点,断点信息仅在数据提交后记录。当发生上述故障时,ETL任务会重新运行并读取上次存储的同步断点,依据断点信息从源库抽取未同步提交的数据。由于断点仅在数据提交成功后记录,所以不会出现数据丢失的情况。


5   灵蜂ETL产品支持字符集不同(GBKUTF8)的数据库间数据同步吗?

灵蜂ETL产品内置字符串编码转换功能,对于非GB字符集,只需在数据库连接参数中指定正确的数据库编码,软件即可自动对数据库抽取或插入数据库的数据进行正确的编码。


6   灵蜂ETL产品提供哪些数据转换及过滤功能,对于一些复杂的处理,如果软件没有直接匹配的功能该如何处理?

灵蜂ETL产品支持各种字段级的映射转换,如类型转换、字段运算、参照转换、字符串处理、字符集转换、空值处理、日期转换、聚集运算、既定取值、字段切分、字段合并等;支持记录间的合并及计算;支持基于布尔表达式的数据的分流、过滤;支持横表纵表转换(仅BeeDI)等。

对于某些复杂的转换过滤功能,软件支持自定义单独的脚本函数,在脚本中可编辑极其复杂的转换或过滤逻辑,然后在ETL中调用自定义函数即可。


7   对于源端和目标端表名、字段名及字段类型皆不相同的情况,灵蜂ETL产品能否提供数据转换?

灵蜂ETL产品内置各种数据类型转换功能,对于源和目标表名不同、字段名称及类型皆不相同的情况,只需使用与源及目标字段类型匹配的转换函数即可实现转换规则定义。如源表tab1字段field1类型为字符串表示的时间,格式为YYYY/MM/DD hh:mm:ss,目标表tab2字段field2类型为时间型字段,在目标表tab2的字段field2对应的赋值表达式中输入toDateTime(tab1.field1,” YYYY/MM/DD hh:mm:ss”)即可实现转换。


8   相对于指定映射表的常规图形化配置,灵蜂ETL产品是否支持大批量表的ETL规则定义?

灵蜂ETL产品除支持图形化ETL配置外,也提供集成脚本开发环境。对于大批量(成千上万张)表的ETL规则定义,采用图形配置需要耗费大量人力去逐一定义表的转换规则,而通过脚本可以统一定义转换逻辑,极大减轻ETL的实施及维护成本。


9   灵蜂ETL产品是否支持跨越多个库的数据合并?

对于多个库的数据合并,有以下两种方式进行合并:

通过灵蜂ETL产品先将多个库的数据落地到中间库,然后在ETL任务中利用中间库的SQL功能抽取合并数据并存入目标库。

直接通过灵蜂BeeDI的数据联邦功能在ETL软件内部进行跨库数据合并,将合并结果存入目标库。


10  灵蜂产品是否支持不同类型数据库间的整库同步(如SQL ServerOracle),是否支持DDL操作同步?

对于异类数据库,有以下两种方式实现整库同步:

触发器方式,灵蜂ETL产品首先遍历源库为每个表创建触发器和缓冲增量数据的临时表,执行历史数据同步。然后定时读取临时表的增量数据并将其同步到目标库。

日志解析方式,同步前必须开启源库归档日志。灵蜂ETL产品BeeDI和灵蜂复制产品Beedup支持基于日志解析的异构整库同步,二者区别在于BeeDI支持同步数据过滤转换。

灵蜂ETL产品仅支持DML同步,不支持DDL同步。灵蜂复制产品同时支持DMLDDL同步。


11  在同步软件无法同时TCP连接源库和目标库的情况下,灵蜂ETL产品是否提供数据同步解决方案?

ETL服务器无法同时连接源库和目标库时,灵蜂ETL产品提供以下2种同步解决方案:

在源端和目标端分别部署灵蜂ETL产品,在源端或目标端部署FTP服务器。在源端ETL软件将数据抽取到文件,并将文件存入FTP服务器;在目标端ETL软件从FTP服务器获取文件,然后从中读取数据并同步到目标库。

在源端和目标端分别部署灵蜂ETL产品,在源端部署Tomcat服务器。在源端ETL中配置数据采集任务并将其发布为webService;在目标端通过http协议调用源端发布的webService,从中获取数据并同步到目标库。


12  如果多个ETL任务间存在顺序相关或某些任务需要定时触发或事件触发,灵蜂ETL产品是否提供调度支持?

灵蜂ETL产品集成工作流调度功能,用户可自由定义任务的触发条件及执行路径,控制多任务的协同运行。通过工作流调度,可控制多任务的顺序或并发运行,控制任务定时运行,控制特定条件下的任务运行。


13  灵蜂ETL产品是否支持Hadoop平台数据集成,支持哪些Hadoop接口?

灵蜂BeeDI支持Hadoop数据集成,可通过HiveHbaseHadoop交互数据。

Hive

Hadoop存入数据时,BeeDI抽取数据到文件,然后通过Hive接口将文件导入HDFS;从Hadoop导入数据时,BeeDI直接通过HiveQL获取数据并将其存入关系数据库或本地文件。

Hbase

灵蜂BeeDI提供SQL抽象接口访问HBase,支持将任意关系数据库的数据同步到HBase数据库。支持对HBase进行增删改查( crud操作。


14  在不改变主库结构的情况下灵蜂复制产品是否支持双活复制,初始化时是否需要停止主库业务操作,是否支持DDL操作复制,增量复制实时性如何?

灵蜂复制产品Beedup完全基于主库日志解析方式实现增量数据复制,无需改变主库结构或创建任何对象,复制时主从库处于活动状态,可正常提供业务支持。初始化时无需停止主库业务操作,复制任务自动记录主库时间,然后通过SQL语句读取主库结构及数据,采用并行方式同步历史数据。初始化结束后,复制任务自动进入增量状态,从记录的主库时间点开始顺序解析主库日志,还原主库产生的所有DMLDDL操作并将其复制到从库。灵蜂复制产品Beedup以事务为最小复制单位,支持并行方式复制多个事务,满足主库并发事务的快速复制。增量复制延时可在1-60秒范围调节,延时越小数据复制实时性越高、同时复制任务对主库的查询越频繁、对系统及网络资源占用也越高。部分复制环境由于网络带宽、磁盘IO、数据库负载、数据库结构、大批量数据更新等因素,实际延时会大于预设的延时。


15  当复制环境发生故障 (数据库或网络故障、系统掉电等)恢复后,灵蜂复制产品是否可以自动续传故障时未复制的增量数据?

灵蜂复制产品Beedup在每一事务复制成功后会自动记录当前事务的日志解析点,当复制环境发生故障恢复后,软件会从上次记录的日志解析点处开始解析日志,继续复制后续的事务操作,只要指定解析点的日志未被移除,软件即可正常续传未复制的增量数据。


16  灵蜂复制产品是否支持特定对象的选择性复制,是否可以审计某一时刻数据库发生的变化?

灵蜂复制产品Beedup可基于模式名、表名及其它对象名进行选择过滤,实现按需复制;软件支持事务操作审计,顺序记录主库发生的事务操作,审计信息包括操作时间、操作用户及操作对象。


17  灵蜂复制产品如何效验确保主从库的数据一致性?

灵蜂复制产品Beedup提供差异比对及回补功能用于验证确保主从库数据一致。

差异比对功能可以随机效验某一张表在主从库是否数据一致。

差异回补功能采用全表比对方式,逐条比对主从表记录,对于主表多余记录则插入从表;对于主从表不同记录,则修改从表对应记录;对于从表多余记录,用户可根据实际业务需求设置,可以保留多余的从表记录,也可以删除多余的从表数据。


18  灵蜂复制产品的数据审计功能与一些数据库内置的CDC功能相比有什么优势?

灵蜂复制产品Beedup企业版提供主表的数据变化及结构变化审计功能,实时跟踪记录主表数据变化,审计信息包含变化的数据、时间戳,用户代码,操作类型等。

与一些数据库内置的CDC相比,Beedup企业版数据审计有如下优势:

审计信息保存在从库,节省主库存储开销,同时对审计信息的读取查询不会增加主库负载。

对于开启审计功能的表,允许主表结构调整,复制任务会自动调整从表及数据审计表结构,同时记录对应的DDL到结构变化审计表中。


19  灵蜂产品处理性能如何,有无性能测试报告?

灵蜂产品在数据传输时均支持数据并行载入,采用多线程技术实现批量数据的快速提交。灵蜂ETL产品已成功应用于民族证券的盘后数据同步,灵蜂复制产品成功应用于医院的HIS库复制。灵蜂产品拥有广泛的应用基础,目前已成功应用于军队、公安、政府、证券、电信、电力、航空、燃气、医疗、餐饮、服饰、美容等行业。

鉴于项目环境(网络带宽、磁盘IO、数据库负载、数据库结构、数据更新方式)及项目需求(清洗、过滤的复杂度)的多样性,提供某一特定环境的性能测试报告对客户没有借鉴意义。如数据吞吐量指标,同步操作类型(insertupdate)、同步表是否分区、同步表是否存在触发器及外键环境等因素都会影响到最终的测试结果,同样的数据量在不同的环境因素下测试可能会相差几倍。所以我们建议客户下载安装软件按照实际需求去测试软件性能。


20  灵蜂产品售后服务提供哪些支持,是否提供现场服务?

灵蜂产品售后服务包括软件免费升级、基于网络和电话的远程技术支持。对于远程无法解决的产品技术问题,我们提供现场服务。