Apache Pig BinStorage()函數(shù)

2018-01-03 07:36 更新

BinStorage() 函數(shù)使用機(jī)器可讀格式將數(shù)據(jù)加載并存儲到Pig中。Pig中的 BinStorge() 通常用于存儲MapReduce作業(yè)之間生成的臨時(shí)數(shù)據(jù),它支持多個位置作為輸入。

語法

下面給出了 BinStorage() 函數(shù)的語法。

grunt> BinStorage();

假設(shè)在HDFS目錄 /pig_data/ 中有一個名為 stu_data.txt 的文件,如下所示。

Stu_data.txt

001,Rajiv_Reddy,21,Hyderabad 
002,siddarth_Battacharya,22,Kolkata 
003,Rajesh_Khanna,22,Delhi 
004,Preethi_Agarwal,21,Pune 
005,Trupthi_Mohanthy,23,Bhuwaneshwar 
006,Archana_Mishra,23,Chennai 
007,Komal_Nayak,24,trivendram 
008,Bharathi_Nambiayar,24,Chennai 

讓我們將這些數(shù)據(jù)加載到一個關(guān)系中,如下所示。

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/stu_data.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, age:int, city:chararray);

現(xiàn)在,我們可以使用 BinStorage() 函數(shù)將此關(guān)系存儲到名為 /pig_data/ 的HDFS目錄中。

grunt> STORE student_details INTO 'hdfs://localhost:9000/pig_Output/mydata' USING BinStorage();

執(zhí)行上述語句后,關(guān)系存儲在給定的HDFS目錄中。你可以使用HDFS ls命令查看它,如下所示。

$ hdfs dfs -ls hdfs://localhost:9000/pig_Output/mydata/
  
Found 2 items 
-rw-r--r--   1 Hadoop supergroup       0 2015-10-26 16:58
hdfs://localhost:9000/pig_Output/mydata/_SUCCESS

-rw-r--r--   1 Hadoop supergroup        372 2015-10-26 16:58
hdfs://localhost:9000/pig_Output/mydata/part-m-00000

現(xiàn)在,從文件 part-m-00000 加載數(shù)據(jù)。

grunt> result = LOAD 'hdfs://localhost:9000/pig_Output/b/part-m-00000' USING BinStorage();

驗(yàn)證關(guān)系的內(nèi)容如下所示

grunt> Dump result; 

(1,Rajiv_Reddy,21,Hyderabad) 
(2,siddarth_Battacharya,22,Kolkata) 
(3,Rajesh_Khanna,22,Delhi) 
(4,Preethi_Agarwal,21,Pune) 
(5,Trupthi_Mohanthy,23,Bhuwaneshwar) 
(6,Archana_Mishra,23,Chennai) 
(7,Komal_Nayak,24,trivendram) 
(8,Bharathi_Nambiayar,24,Chennai)


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號