如何优化sql，spark sql 性能优化

2023-09-24 阅读 25 评论 0

摘要：一设置shuffle的并行度我们可以通过属性spark.sql.shuffle.partitions设置shuffle并行度二 Hive数据仓库建设的时候，合理设置数据类型，比如你设置成INT的就不要设置成BIGINT，减少数据类型不必要的内存开销三 SQL优化四并行的处理查询结果对于S

一设置shuffle的并行度

我们可以通过属性spark.sql.shuffle.partitions设置shuffle并行度

二 Hive数据仓库建设的时候，合理设置数据类型，比如你设置成INT的就不要设置成BIGINT，减少数据类型不必要的内存开销

三 SQL优化

四并行的处理查询结果

对于Spark SQL查询的结果,如果数据量比较大，比如超过1000条，那么就不要使用collect到driver再处理，使用foreach算子并行处理查询结果

五缓存表

对于一条SQL语句中可能多次使用到的表，可以对其进行缓存，使用SQLContext.cacheTable(tableName)或者DataFrame.cache即可。Spark SQL会用内存列存储的格式进行表的缓存。然后SparkSQL就可以仅仅扫描需要使用的列，并且自动优化压缩，来最小化内存使用和GC开销。可以通过spark.sql.inMemoryColumnarStorage.batchSize这个参数，默认10000，配置列存储单位

六广播JOIN表

spark.sql.autoBroadcastJoinThreshold，默认10485760（10M），在内存够用的情况下，提高其大小，可以将join中的较小的表广播出去，而不用进行网络数据传输

原文链接：https://hbdhgg.com/5/93094.html

上一篇：elasticsearch unauthorized，ElasticSearch之term vector

下一篇：dataframe清空数据，RDD和DataFrame和Dataset比较