您的当前位置:首页正文

一种基于Spark和Impala高效采集数据库的实现方法[发明专利]

2020-01-22 来源:个人技术集锦
专利内容由知识产权出版社提供

专利名称:一种基于Spark和Impala高效采集数据库的实现方

专利类型:发明专利发明人:李泛洪

申请号:CN202110237793.9申请日:20210304公开号:CN112783923A公开日:20210511

摘要:本发明公开了一种基于Spark和Impala高效采集数据库的实现方法,涉及数据处理技术领域,其包括以下步骤:S1、根据模板封装采集任务报文;S2、解析采集任务报文;S3、根据报文、创建数据连接;S4、检查目标库是否存在对应的表,如果存在,执行S6后继续向下执行,如果不存在,执行S5后跳到S9继续向下一步执行;S5、根据报文,创建数据连接;S6、根据新增字段,修改目标表;S7、获取缺失字段;S8、通过源与目标表字段类型对比,生成类型转换语句。该基于Spark和Impala高效采集数据库的实现方法,通过采用Spark框架,可减少各类数据源对接的开发工作量,并可配置化数据来源,达到灵活数据源的效果。

申请人:辽宁振兴银行股份有限公司

地址:110000 辽宁省沈阳市沈河区北站路61号

国籍:CN

代理机构:郑州欧凯专利代理事务所(普通合伙)

代理人:王志兴

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Top