Spark_Spark内存模型管理

2023-09-15 13:51:40

工作中经常用到Spark内存调参，之前还没对这块记录，这次记录一下。

环境参数

spark 内存模型中会涉及到多个配置，这些配置由一些环境参数及其配置值有关，为防止后面理解混乱，现在这里列举出来，如果忘记了，可以返回来看看：

spark.executor.memory ：JVM On-Heap 内存（堆内内存），在使用 spark submit 提交的时候，可以通过配置 --executor-memory 来对这个值进行修改。
spark.yarn.executor.memoryOverhead ：这是用于配置 Executor 的额外内存，因为 Executor 在执行的时候，可能会超过 executor memory，所以会为 executor 预留一部分内存。
spark.memory.offHeap.enabled ：用于开启堆外内存（PS：这个是系统级别的，不受 JVM 管理）。
spark.memory.offHeap.size ：设置堆外内存大小；
spark.memeory.fraction ：用于配置统一内存，这个值在 Spark 2.0+ 为 60%，Spark 1.6 为 75%。
spark.storage.storageFraction ：用于从统一内存中分配 Storage Memory 的比例。
yarn.scheduler.maximum-allocation-mb ：Spark 在 Worker 节点的可用内存。
spark.executor.cores ：程序需要使用到的核数。

Executor 内存划分

由 yarn.scheduler.maximum-allocation-mb 指定 NodeManager 上 JVM 的内存，提交任务时，如果 MemoryOverhead 和 Executor Memory 所占的内存之和大于分配的内存之和，那就会造成 Executor 提交失败；运行过程中超过上限阈值，进程会被杀掉。

堆内内存（On-Heap Memory）

逐一介绍各个 Memory：

Executor Memory：由 spark.executor.memory 配置，或者在提交的时候使用 --executor-memory 进行配置。
Reserved Memory：这个内存是写死了的，默认 300MB，但也可以修改，前提是在测试环境下，通过修改 spark.test.reservedMemory 参数对这个值进行修改；这块内存用于存储 Spark 内部的对象。
Usable Memory： Executor Memory - Reserved Memory 就是可用内存。
Unified Memory： Usable Memory * spark.memeory.fraction 比例值（约等于 Usable Memory * 60%），这个内存由 Storage 和 Execution 共用，这两个之间有一个动态调节机制，后面说。
Storage Memory： Unified Memory * spark.storage.storageFraction 比例值（约等于 Unified Memory * 50%），这块内存主要是用来存储一些缓存数据的，比如 cache()，persist()，RDD 的缓存数据等。
Execution Memory： Unified Memory * (1 - spark.storage.storageFraction 比例值)，这块内存用于存储 Shuffle，Join，Sort，Aggregate 等计算过程中的临时数据。
User Memory： Usable Memory * (1 - spark.memeory.fraction 比例值)，这块内存用于保存 RDD 转换操作时需要的一些数据，如父子 RDD 的依赖关系。

堆外内存（Off-Heap Memory）

这里要介绍的内存只有一个 Off-Heap Memory：

堆外内存是 Spark 1.6+ 以后引入的一种新的内存，Spark 可以直接操作系统的堆外内存，减少了不必要的内存开销，比如 GC 扫描和垃圾回收，但也正因为堆外内存不再由 JVM 管理，所以需要手动实现内存的申请和释放逻辑，提高了内存操作的精度。

堆外内存的大小可以通过 spark.memory.offHeap.size 参数进行配置，但是堆外内存是默认关闭的，可以通过配置 spark.memory.offHeap.enable 参数进行开启。

动态调节机制

Spark 1.5 以前，Storage Memory 和 Execution Memory 的大小分配是静态的（也就是说从一开始计算好大小后就不会变了），当两块内存满了以后，就会把溢出的数据落到磁盘上，但总所周知，从磁盘读取数据是没有从内存中读取数据快的，所以在后来加上了动态调节机制：

Spark 程序提交后会计算 Storage Memory 和 Execution Memory 的内存大小并进行分配；
当两个内存空间都不足后，就会下落到磁盘上；若对方空间富余，就会向另一端借空间：
- Storage 向 Execution 借空间后，Execution 可以主动向 Storage 申请归还空间，并让 Storage 将数据放到磁盘上；
- Execution 向 Storage 借空间后，Storage 是无法主动让 Execution 归还空间的，因为 Execution 中存在 Shuffle 数据，该数据需要在网络中频繁传输，随时都会用到，而 Storage 中缓存的数据相对于 Shuffle 数据更会更少用到。

Task 能申请到的内存

spark.executor.cores 参数值就是 Spark 程序运行时得到的核数（以下简称为 N），每个 Task 能够分配到的内存大小为 1/2N ~ 1/N（举例，N=4，分配到的内存为 10G，那内存大小为 1.25G ~ 2.5G）。

智能配电房监控系统：实现配电智能化管理

智能配电房监控系统是一种基于现代信息技术，实现对配电房设备运行状态实时监控的智能化系统。它能够实时监测配电房设备的运行状态，及时发现设备故障，提高配电系统的可靠性，同时还可以实现远程监控和智能化控制，提高配电系统的效率。一、智能配电房监控系统的构成智能配电房监控系统主要由监控终端、通信网络和监控中心三部分构成。1.监控

ECharts

ECharts是一款基于JavaScript的数据可视化图表库，提供直观，生动，可交互，可个性化定制的数据可视化图表。ECharts提供了常规的折线图、柱状图、散点图、饼图、K线图，用于统计的盒形图，用于地理数据可视化的地图、热力图、线图，用于关系数据可视化的关系图、treemap、旭日图，多维数据可视化的平行坐标，还

Android 12 源码分析 —— 应用层六（StatusBar的UI创建和初始化)

Android12源码分析——应用层六（StatusBar的UI创建和初始化)在前面的文章中,我们分别介绍了Layout整体布局,以及StatusBar类的初始化.前者介绍了整体上面的布局,后者介绍了三大窗口的创建的入口处,以及需要做的准备工作.现在我们分别来细化三大窗口的UI创建和初始化,首先从StatusBar窗口

新版发布 | Cloudpods v3.10.5 和 v3.9.13 正式发布

Cloudpodsv3.10.5本期发布中，ocboot部署脚本有较多变化，首先支持以非root用户执行安装流程，其次响应社区的呼吁，增加了–stack参数，允许Allinone一键安装仅包含私有云（参数为edge）或云管（参数为cmp）的部署。本期亮点为KVM虚拟机对GPU的支持，不仅支持了虚拟机挂载图形模式的GPU

MacOS 控制固态磁盘写入量，设置定时任务监控

M1芯片的内存交换策略非常激进，导致内存较小的机型固态硬盘写入量十分恐怖，网上很多人都有类似的遭遇。如何看待8G256GM1MacBookAir使用一个月硬盘写入22TB+?而固态硬盘是有擦除、写入寿命的，一般就按100次算，256G大概就是250TB。当然，并不是说超过这个数，硬盘就坏了，只是一般超过这个数，再坏，厂

9.2 【MySQL】独立表空间结构

9.2.1区（extent）的概念对于16KB的页来说，连续的64个页就是一个区，也就是说一个区默认占用1MB空间大小。不论是系统表空间还是独立表空间，都可以看成是由若干个区组成的，每256个区被划分成一组。画个图表示就是这样：其中extent0~extent255这256个区算是第一个组，extent256~exte

Linux下的第一个小程序——进度条

目录编辑一，进度条的第一个版本1.准备工作2.写Makefile文件3.开始构建进度条1.process.h文件2.process.c文件3.main.c文件二，进度条的第二个版本1.为什么还要写第二个版本？2.如何升级？3.升级代码1.搭建场景一，进度条的第一个版本1.准备工作在写进度条之前，我们得把前期的准备工作

01_网络编程_传统IO

网络编程1.什么是网络编程在网络通信协议下，不同计算机上运行的程序，进行的数据传输。如果想把一个计算的结果，或者是电脑上的文件通过网络传递给你的朋友，就需要用到网络编程。在实际生活中，网络通信无处不在**应用场景：**即时通信、网游对战、金融证券、国际贸易、邮件、等等不管是什么场景，都是计算机跟计算机之间通过网络进行数