簡單介紹SparkSQL

SQL是擷取資料的語言。而Apache Spark是一個分散式處理的架構,用來處理龐大的數據。

用SparkSQL可以透過Spark的分散式處理,來擷取龐大的資料。

Spark 是一個資料庫嗎?

Spark並非一個資料庫,但是採用Spark這個技術的公司,往往有資料儲存在Spark可以處理以及擷取資料的地方。 這些地方現在有人稱之為【資料湖】Data Lake。

Spark可以用來處理這些資料。

SparkSQL是其中一種處理資料所應用的語言。

為什麼要學習SparkSQL?

學會用SparkSQL可以做資料分析。 可以學習彙總、篩選、排序、將不同的資料表連結,再分析。

通過學習SparkSQL,你可以學習SQL,這個通用的語言。因為SparkSQL支援ANSI SQL,也就是標準化的SQL。

你所學習到的SQL語言,也可以用於在其他的資料庫來處理資料。