Forum
Merhaba,
hadoop pig ile aşağıdaki alanları okumak istiyorum ama hata alıyorum. bunları pigle okuma için ne yapmam gerekir?
DATE_TIME,TRANSPORT_TYPE_ID,TRANSPORT_TYPE_DESC,LINE,TRANSFER_TYPE_ID,TRANSFER_TYPE,NUMBER_OF_PASSENGER,NUMBER_OF_PASSAGE
2020-01-29 12:00:00,2,RAY,KADIKÖY-MODA,2,AKTARMA,59,59
Merhaba,
Verilerinizi virgülle ayrılmış bir formatta görüyorum. Bu verileri Pig ile okumak için aşağıdaki adımları takip edebilirsiniz:
-
Verilerinizi bir dosyada saklayın. Örneğin, verilerinizin saklandığı dosya adı "mydata.txt" olsun.
-
Pig Latin betiğinde verilerinizi şu şekilde yükleyin:
data = LOAD 'mydata.txt' USING PigStorage(',') AS (
DATE_TIME:chararray,
TRANSPORT_TYPE_ID:int,
TRANSPORT_TYPE_DESC:chararray,
LINE:chararray,
TRANSFER_TYPE_ID:int,
TRANSFER_TYPE:chararray,
NUMBER_OF_PASSENGER:int,
NUMBER_OF_PASSAGE:int);
Bu komut, "mydata.txt" dosyasını Pig içinde bir ilişkisel veri olarak yükleyecektir. Dosyanız virgüllerle ayrıldığı için PigStorage(',')
kullanıyoruz.
Sonra "AS" ifadesiyle her sütuna bir alan adı atıyoruz.
- Verilerinizi filtreleyebilir, gruplayabilir veya işleyebilirsiniz. Örneğin, verilerinizi "NUMBER_OF_PASSENGER" sütununa göre gruplamak için aşağıdaki komutu kullanabilirsiniz:
grouped_data = GROUP data BY NUMBER_OF_PASSENGER;
Bu, verilerinizi "NUMBER_OF_PASSENGER" sütununa göre gruplar.
- İşlenmiş verilerinizi sonuç dosyasına yazdırabilirsiniz:
STORE grouped_data INTO 'output' USING PigStorage(',');
Bu, işlenmiş verilerinizi "output" adlı bir dosyaya yazacaktır.
Umarım bu yardımcı olur.
Danışman - ITSTACK Bilgi Sistemleri
****************************************************************
Probleminiz Çözüldüğünde Sonucu Burada Paylaşırsanız.
Sizde Aynı Problemi Yaşayanlar İçin Yardım Etmiş Olursunuz.
Eğer sorununuz çözüldü ise lütfen "çözüldü" olarak işaretlerseniz diğer üyeler için çok büyük kolaylık sağlayacaktır.
*****************************************************************