spark通过jdbc读取数据库的并行(转载)

代码如下:

代码中,lowerbound和upperbound有两种情况需要考虑。

1) 分区字段值可以穷举出来,如年份。

如下,lowerbound和upperbound会按照年份进行数据分区,这里的分区指的是并行的executors。

分区后,SQL会拆分成多个SQL:

2)分区字段不固定,如自动增长的ip,这时候lowerbound和upperbound在id数值之间,分区是一个估算值

容易产生问题,每个executor的数据分布不均,导致OOM,源码带看。

使用方式如下:

Original: https://www.cnblogs.com/itboys/p/12882057.html
Author: 大葱拌豆腐
Title: spark通过jdbc读取数据库的并行(转载)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/8824/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部