SparkやDatabricksで大規模データを処理する際、処理の効率を大きく左右するのが「パーティション数」です。データは複数のパーティションに分割され並列処理されますが、分割数が多すぎるとオーバーヘッドが増え、少なすぎると並列度が下がり処理が遅く ...