专利名称:一种解决Spark数据倾斜方法及系统专利类型:发明专利发明人:赵波
申请号:CN201710379913.2申请日:20170525公开号:CN107220123A公开日:20170929
摘要:本申请公开了一种解决Spark数据倾斜方法及系统,包括:将超过预设数据量的数据集按照预设分割方法进行分割处理,得到数据块集;将数据块集中的数据块分配给Redtask集中满足预设条件的Redtask,得到中间结果集;将中间结果集分配给Redtask集中的一个Redtask中进行汇总处理,得到处理结果。本发明在接收到超过预设数据量的数据集时,将其进行分割处理,得到数据块集,再将数据块集分配给Redtask集中的Redtask进行并行的计算和处理,从而使多个Redtask能对一个大数据量的数据集进行并行运算,加快数据的处理速度,运算完成后,得到中间结果集,再将中间结果分配到一个Redtask中进行汇总处理,形成与数据集相应的处理结果,保证了数据和结果的完整性,解决了Spark中数据倾斜的情况,提高了运行速度。
申请人:郑州云海信息技术有限公司
地址:450018 河南省郑州市郑东新区心怡路278号16层1601室
国籍:CN
代理机构:北京集佳知识产权代理有限公司
代理人:罗满
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容