$ curl -fsSL https://get.docker.com -o get-docker.sh $ sudo sh get-docker.sh
最近在做大数据项目的数据抽取,主要涉及oracle 阿里云rds monogo的生产数据全量抽取并做实时同步数据,选型为oracle 和rds 全量数据先通过datax抽取到hbase 然后oracle通过OGG做实时同步到hbase,rds 通过canal做实时同步到hbase。这里先记录一下rds抽取中遇到的坑。1、在rds通过datax全量抽取到hbase的时候出现了数据缺失的情况,...
如果使用HBase Handler 配置属性,则源数据库可能与HBase Handler表中的数据不同步。这是由于可能存在源库先删除行然后立即重新插入行引起的。HBase为由特定时间戳标识的删除创建逻辑删除标记,此逻辑删除标记将HBase中的所有行记录标记为与删除时相同的行键,这些行记录在逻辑删除标记之前或之前具有时间戳。当立即重新插入已删除的行时,可能会发生这种情况。插入操作可能会无意中具...
一、写入操作前提有一个文件FileA,100M大小。Client将FileA写入到HDFS上。HDFS按默认配置。HDFS分布在三个机架上Rack1,Rack2,Rack3。步骤1) Client将FileA按64M分块。分成两块,block1和Block2;2) Client向nameNode发送写数据请求,如图蓝色虚线①------>。3) NameNode节点,记录block信息...