通过canal做rds实时同步数据到hbase遇到的坑

通过canal做rds实时同步数据到hbase遇到的坑

最近在做大数据项目的数据抽取,主要涉及oracle 阿里云rds monogo的生产数据全量抽取并做实时同步数据,选型为oracle 和rds 全量数据先通过datax抽取到hbase 然后oracle通过OGG做实时同步到hbase,rds 通过canal做实时同步到hbase。这里先记录一下rds抽取中遇到的坑。1、在rds通过datax全量抽取到hbase的时候出现了数据缺失的情况,...

大数据技术 2019-09-23 AM 0条
OGG实时同步数据到hbase出现不定时删除数据的情况

OGG实时同步数据到hbase出现不定时删除数据的情况

如果使用HBase Handler 配置属性,则源数据库可能与HBase Handler表中的数据不同步。这是由于可能存在源库先删除行然后立即重新插入行引起的。HBase为由特定时间戳标识的删除创建逻辑删除标记,此逻辑删除标记将HBase中的所有行记录标记为与删除时相同的行键,这些行记录在逻辑删除标记之前或之前具有时间戳。当立即重新插入已删除的行时,可能会发生这种情况。插入操作可能会无意中具...

大数据技术 2019-09-01 AM 0条
HDFS的读写操作原理解析

HDFS的读写操作原理解析

一、写入操作前提有一个文件FileA,100M大小。Client将FileA写入到HDFS上。HDFS按默认配置。HDFS分布在三个机架上Rack1,Rack2,Rack3。步骤1) Client将FileA按64M分块。分成两块,block1和Block2;2) Client向nameNode发送写数据请求,如图蓝色虚线①------>。3) NameNode节点,记录block信息...

大数据技术 2019-08-20 AM 0条
Oracle存储过程书写规范和技巧

Oracle存储过程书写规范和技巧

Oracle存储过程书写规范和技巧1 变量规范变量名全部采用小写,局部变量名使用“v_”开头,输入参数以“i_开头,输出参数以“o_”开头,输入输出参数用io_开头。所有输入参数必须显示声明游标的命名:游标统一用后缀 “_cur” 命名使用命名的常量以避免硬编码,使用常量包,常量统一用 cn_ 的前缀命名当变量代表列时,使用%TYPE属性,当变量实际上表示数据库表的某列数据时,为避免数据库结...

大数据技术 2019-08-07 PM 0条
ZooKeeper集群与Leader选举

ZooKeeper集群与Leader选举

ZooKeeper是一个开源分布式协调服务、分布式数据一致性解决方案。可基于ZooKeeper实现命名服务、集群管理、Master选举、分布式锁等功能。高可用为了保证ZooKeeper的可用性,在生产环境中我们使用ZooKeeper集群模式对外提供服务,并且集群规模至少由3个ZooKeeper节点组成。集群至少由3个节点组成ZooKeeper其实2个节点也可以组成集群并对外提供服务,但我们使...

大数据技术 2019-07-25 PM 0条