DataFrame接口允許不同的DataSource在Spark SQL上工作。 它是一個臨時表,可以作為正常的RDD操作。 將DataFrame注冊為表允許您對其數(shù)據(jù)運(yùn)行SQL查詢。
在本章中,我們將描述使用不同Spark DataSource加載和保存數(shù)據(jù)的一般方法。 此后,我們將詳細(xì)討論可用于內(nèi)置數(shù)據(jù)源的特定選項(xiàng)。
SparkSQL中提供了不同類型的數(shù)據(jù)源,下面列出了其中的一些數(shù)據(jù)源:
編號 | 數(shù)據(jù)源 |
---|
1 | JSON數(shù)據(jù)集 Spark SQL可以自動捕獲JSON數(shù)據(jù)集的模式,并將其作為DataFrame加載。 |
2 | 蜂巢表 Hive與Spark庫捆綁為HiveContext,它繼承自SQLContext。 |
3 | Parquet文件 Parquet是一種柱狀格式,由許多數(shù)據(jù)處理系統(tǒng)支持。 |
更多建議: