SparkSQL
簡單介紹SparkSQL
SQL是擷取資料的語言。而Apache Spark是一個分散式處理的架構,用來處理龐大的數據。
用SparkSQL可以透過Spark的分散式處理,來擷取龐大的資料。
Spark 是一個資料庫嗎?
Spark並非一個資料庫,但是採用Spark這個技術的公司,往往有資料儲存在Spark可以處理以及擷取資料的地方。 這些地方現在有人稱之為【資料湖】Data Lake。
Spark可以用來處理這些資料。
SparkSQL是其中一種處理資料所應用的語言。
為什麼要學習SparkSQL?
學會用SparkSQL可以做資料分析。 可以學習彙總、篩選、排序、將不同的資料表連結,再分析。
通過學習SparkSQL,你可以學習SQL,這個通用的語言。因為SparkSQL支援ANSI SQL,也就是標準化的SQL。
你所學習到的SQL語言,也可以用於在其他的資料庫來處理資料。