6 Haziran 2017 Salı

Sqoop Import Fazladan Kayıt Problemi

Sqoop ile veri tabanından herhangi bir tabloyu kolaylıkla hadoop tarafına aktarmak mümkün.
Aktarma işlemini yaparken eğer tablolar çok büyük ise, tablodaki belirli bir kolona göre tabloyu splitlere ayırmasını sqoop'a --split-by parametresi ile söyleyebiliriz. -m  parametresi ile de kaç adet mapperda bu işlemin gerçekleşmesini belirtebiliyoruz.

Bu işlemi yaparken --split-by parametresine verdiğimiz kolonun değerinin string(varchar) olmamasına dikkat etmek gerek. String bir değer verdiğimizde sqqop importu gerçekleştiriyor ancak aradı bir uyarı veriyor. String bir kolona göre split yapıyorsunuzu veriler dublicate olabilir diyere. Ancak çok fazla console çıktısı olduğundan bunu çok dikkate almadan geçiyoruz ve sonuc :
RDMS deki satır sayısı ve import edilen tablodaki satır sayısı tutmuyor:)