3 Kasım 2014 Pazartesi

Hadoop - Küçük Dosyalar

Hadoop büyük boyutlardaki dosyalar üzerinde daha verimli çalışmaktadır. Bunun nedenlerinden bazıları:

  • Küçük dosyalar blok boyutundan daha küçük olacağından bloklar verimli kullanılmamaış olacak ve bir çok blok ve split oluşacaktır.
  • Daha fazla split oluşacağından dolayı, bloklarda az veri olsada çok sayıda map task oluşacak ve zamandan kayıp olacaktır.
  • Çok fazla blok oluştuğundan namenode belleğinde daha fazla yer işgal edilecektir.
Bu problemleri ortadan kaldırmak için dosyalar ilk HDFS e atılırken FileInputFormat olarak atılabilir, eğer dosyalar zaten HDFS de ise CombineInputFormat kullanılır. 

Eğer map tasklar çok kısa sürede tamamlanıyor ise split size max. seviyesine ayarlanarak CombineInputFormat kullanmak zamandan kazanç sağlayacaktır.

Hiç yorum yok:

Yorum Gönder