トップページデータ処理SQL, リレーショナルデータベースの活用CSV ファイルの Apache Spark へのインポートと SQL 問い合わせ(Ubuntu 上)

CSV ファイルの Apache Spark へのインポートと SQL 問い合わせ(Ubuntu 上)

このページで紹介しているソフトウエア類の利用条件等は,利用者で確認すること.

1つのCSVファイルを,Apache Spark の1つの一時テーブル(temporary table)にインポートする.

前準備

前準備として JDK のインストール

Java 関係のソフトウエアのライセンスは,この数年で変化している.

利用条件が穏やかに見える Open JDK のインストール手順を, 別ページで説明している.

※ その利用条件は,利用者自身で確認すること.

Apache Spark のインストール

Ubuntu での Apache Spark のインストールは,別ページで説明している.

CSV ファイルの準備

ここで扱う CSV ファイルは, 先頭行には,各列の属性名が書かれているものとする. 説明のために, このページでは,次のファイルを用いる.

このページの手順をそのまま試したい場合には,次の手順で CSV ファイルをダウンロードすること.

cd /tmp
rm -f /tmp/weather.csv
git clone https://github.com/simongeek/PandasDA
cp ./PandasDA/weather.csv /tmp/weather.csv

[image]

Apache Spark への CSV ファイルのインポート

  1. pyspark を起動

    [image]
  2. インポート操作
    sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("/tmp/w.csv").registerTempTable("weather")
    

    [image]
  3. SQL 問い合わせ
    r = sqlContext.sql("select * from weather")
    r.show()
    r.schema
    

    [image]