[spark 面试]Yarn Cluster生产环境下JVM的OOM和Stack Overflow问题

2023年5月25日下午10:50 • 大数据 • 阅读 83

1、Spark on Yarn下JVM的OOM问题及解决方式
2、Spark中Driver的Stack Overflow的问题及解决方式

[spark 面试]Yarn Cluster生产环境下JVM的OOM和Stack Overflow问题

Spark on Yarn cluster mode: 此时有可能会报OOM的错误，具体来说：
由于Client模式下一定没有出现OOM，而在Cluster模式下一定出现了OOM，所以必然说明OOM是Driver导致的！
Driver在Client和Cluster模式下占用的内存都是一致的，例如都是100M，现在的问题是为什么在Client下的100M不会OOM，但是在Cluster模式下的100M会出现OOM？

更进一步：这个OOM是永久代产生的OOM

真相是：无论在Client模式还是在Cluster模式下，我们的Driver都是运行在JVM中的，而JVM一定有具体的例如永久代的配置参数等信息。在Client模式下，加载本地的配置信息的时候，Driver所在的JVM的永久代的默认大小是128MB，而在Cluster下默认的永久代的大小是82MB，当你的代码业务逻辑很多的时候，就要构造很多永久代的对象，此时的永久代消耗的大小例如说是100MB，所以在Client模式下可以成功运行，但是在Cluster模式下因为100M大于82M，所以就产生永久代的OOM问题，导致程序启动失败！

解决方式：
在spark-submit的时候设定conf部分的 spark.driver.extraJavaOptions: -XX:PermSize=256M -MaxPermSize-256M，现实生产环境下大多数都是使用Java7，Java8设置元数据空间。

Spark运行时候的StackOverflow问题：

之所以产生Stack Overflow，原因是在Stack方法栈中方法的调用链条太长所导致的，经典的过长链条有两种：
第一种：过于深度的递归
第二种：过于复杂的业务调用链条（很少见！）

在Spark中什么时候会出现Stack Overflow呢？

例如SQL语句中的条件组合太多，而SQL在Spark SQL中会通过Catalyst首先变成一棵树，并最终变成RDD的编程实现。在这个过程中，有可能把我们的SQL语句解析成为不断地递归调用，此时就有可能出现Stack Overflow的情况。什么样的SQL语句？例如：SELECT … FROM … WHERE ..OR…OR…OR…OR…

怎么办？
对于SQL的情况就要进行拆分！例如把一个很长的SQL语句变成很多小的SQL语句，构成很多子查询。

Original: https://blog.51cto.com/u_13360224/5455990
Author: qq59caeb714a7a4
Title: [spark 面试]Yarn Cluster生产环境下JVM的OOM和Stack Overflow问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/516652/

转载文章受原作者版权保护。转载请注明原作者出处！

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[spark 面试]Yarn Cluster生产环境下JVM的OOM和Stack Overflow问题

大家都在看