31 Ekim 2014 Cuma

Hadoop Block Size ve Split Size Farkı

Hadoop bir dosyayı HDFS e atarken bloklar halinde atmakta. Blok büyüklükleri de varsayılan olarak 64 MB olarak atanmıştır. Bu değer istenildiğinde değiştirilebilir.

Splitler ise her bir map task parçacığının işleyeceği veri kümesidir. Örnek verecek olursak:

1. Durum:

SplitSize  = 64 MB
BlockSize = 64 MB

Bu durumda her split 1 bloğa yerleştirilecektir. Ve her map task bir split işleyeceğinden bir blokdaki veriyi işleyecektir.

2. Durum:

SplitSize  = 128 MB
BlockSize = 64 MB

Bu durumda her split 2 bloğa yerleştirilecektir. Ve her map task bir split işleyeceğinden iki blokdaki veriyi sırası ile alarak işleyecektir.

Her bir map task çok hızlı bir şekilde çalışıp sonlanıyor ise splitSize max seviyesine çıkartılarak bir map task'ın daha fazla veri işlemesi sağlanabilir. Böylelikle map task sayısı düşecektir. Map tasklarının ayağa kaldırılma süresinden kazanç sağlandığından toplam zamandan kazanç sağlanacaktır.

Hiç yorum yok:

Yorum Gönder