PostgreSQL への CSV ファイルインポートと性能確認手順
CSV ファイルインポートとは:CSVファイルをリレーショナルデータベースのテーブルにインポートする.
- ここで扱う CSV ファイルは, 先頭行には,各列の属性名が書かれているものとする.
- 1つのCSVファイルを1つのテーブルにインポートする.
- CSVファイルのレコードの中の値の順序は維持する.
このページで紹介しているソフトウェア類の利用条件等は,利用者で確認すること.
前準備
- テスト用に使うCSV データの合成: 別ページ »で説明
SQLite 3 について: 別ページ »にまとめ
PostgreSQL のインストール
PostgreSQL の利用: 別ページ »にまとめ
- Windows での PostgreSQL のインストール: 別ページ »で説明
- Ubuntu での PostgreSQL のインストール: 別ページ »で説明
SQLite 3 での CSV ファイルインポート性能
CSV ファイルインポートのテスト実行(SQLite 3 を使用)
次のように設定して実行すること.
- 「T1000M_1.csv」のところは CSV ファイル名
- 「T1000M_1」のところはテーブル名
- 「T1000M_1.db」のところは SQLite 3 データベース名
エラーメッセージが出ないことを確認.
cat >import.sql<<EOF
.separator ,
pragma journal_mode=off;
.import T1000M_1.csv T1000M_1
.exit
EOF
echo -n > T1000M_1.db
rm -f T1000M_1.db
cat import.sql | time sqlite3 T1000M_1.db
rm -rf import.sql
echo "select * from T1000M_1 limit 10;" | sqlite3 T1000M_1.db
echo "select region, count(*) from T1000M_1 group by region;" | sqlite3 T1000M_1.db
echo "select birth_cap from T1000M_1 where birth_cap > 80000 limit 10;" | sqlite3 T1000M_1.db


性能計測
数字 0 から 7 はプロセッサのコア.R, W はストレージの読み書き.

CSV ファイルインポートでのファイルサイズと処理時間の関係(SQLite 3 を使用)
#/bin/bash
function elapsed() {
echo `python3 -c "import sys; print( float(sys.argv[2]) - float(sys.argv[1]) )" $1 $2`
return
}
function avg() {
echo `python3 -c 'import sys; print("%.3f" % ((float(sys.argv[1]) + float(sys.argv[2]) + float(sys.argv[3])) / 3.0) )' $1 $2 $3`
return
}
# キャッシュのクリア(PageCache, dentries and inodes)
function cache_clear() {
/usr/bin/sync
/usr/bin/sync
/usr/bin/sync
/usr/bin/sync
/usr/bin/sync
sleep 3
sudo sysctl -w vm.drop_caches=3 > /dev/null
echo 3 | sudo tee -a /proc/sys/vm/drop_caches > /dev/null
return
}
# $1: CSV file name, $2: Table name, $3: SQLite 3 Database name
function sqlite3_import() {
echo -n > $3
rm -f $3
rm -f sqlite3_import.sql
cat >sqlite3_import.sql<<EOF
.separator ,
pragma journal_mode=off;
.import $1 $2
.exit
EOF
echo ".import $1 $2"
start=`date +%s.%N`
cat sqlite3_import.sql | sqlite3 $3 > /dev/null
current=`date +%s.%N`
echo `elapsed $start $current`
return
}
# 250M
cache_clear
elapsed1=`sqlite3_import T250M_1.csv T250M_1 T250M_1.db`
cache_clear
elapsed2=`sqlite3_import T250M_1.csv T250M_1 T250M_1.db`
cache_clear
elapsed3=`sqlite3_import T250M_1.csv T250M_1 T250M_1.db`
echo 250M: `avg $elapsed1 $elapsed2 $elapsed3`
# 500M
cache_clear
elapsed1=`sqlite3_import T500M_1.csv T500M_1 T500M_1.db`
cache_clear
elapsed2=`sqlite3_import T500M_1.csv T500M_1 T500M_1.db`
cache_clear
elapsed3=`sqlite3_import T500M_1.csv T500M_1 T500M_1.db`
echo 500M: `avg $elapsed1 $elapsed2 $elapsed3`
# 1000M
cache_clear
elapsed1=`sqlite3_import T1000M_1.csv T1000M_1 T1000M_1.db`
cache_clear
elapsed2=`sqlite3_import T1000M_1.csv T1000M_1 T1000M_1.db`
cache_clear
elapsed3=`sqlite3_import T1000M_1.csv T1000M_1 T1000M_1.db`
echo 1000M: `avg $elapsed1 $elapsed2 $elapsed3`
# 2000M
cache_clear
elapsed1=`sqlite3_import T2000M_1.csv T2000M_1 T2000M_1.db`
cache_clear
elapsed2=`sqlite3_import T2000M_1.csv T2000M_1 T2000M_1.db`
cache_clear
elapsed3=`sqlite3_import T2000M_1.csv T2000M_1 T2000M_1.db`
echo 2000M: `avg $elapsed1 $elapsed2 $elapsed3`
# 4000M
cache_clear
elapsed1=`sqlite3_import T4000M_1.csv T4000M_1 T4000M_1.db`
cache_clear
elapsed2=`sqlite3_import T4000M_1.csv T4000M_1 T4000M_1.db`
cache_clear
elapsed3=`sqlite3_import T4000M_1.csv T4000M_1 T4000M_1.db`
echo 4000M: `avg $elapsed1 $elapsed2 $elapsed3`
# 8000M
cache_clear
elapsed1=`sqlite3_import T8000M_1.csv T8000M_1 T8000M_1.db`
cache_clear
elapsed2=`sqlite3_import T8000M_1.csv T8000M_1 T8000M_1.db`
cache_clear
elapsed3=`sqlite3_import T8000M_1.csv T8000M_1 T8000M_1.db`
echo 8000M: `avg $elapsed1 $elapsed2 $elapsed3`
# 12000M
cache_clear
elapsed1=`sqlite3_import T12000M_1.csv T12000M_1 T12000M_1.db`
cache_clear
elapsed2=`sqlite3_import T12000M_1.csv T12000M_1 T12000M_1.db`
cache_clear
elapsed3=`sqlite3_import T12000M_1.csv T12000M_1 T12000M_1.db`
echo 12000M: `avg $elapsed1 $elapsed2 $elapsed3`

CSV ファイルインポートの並行処理
並行度を 1, 2, 4, 8 のように変える.インポートするデータの総量は同じとし,性能の違いを見る.
#/bin/bash
function elapsed() {
echo `python3 -c "import sys; print( float(sys.argv[2]) - float(sys.argv[1]) )" $1 $2`
return
}
function avg() {
echo `python3 -c 'import sys; print("%.3f" % ((float(sys.argv[1]) + float(sys.argv[2]) + float(sys.argv[3])) / 3.0) )' $1 $2 $3`
return
}
# キャッシュのクリア(PageCache, dentries and inodes)
function cache_clear() {
/usr/bin/sync
/usr/bin/sync
/usr/bin/sync
/usr/bin/sync
/usr/bin/sync
sleep 3
sudo sysctl -w vm.drop_caches=3 > /dev/null
echo 3 | sudo tee -a /proc/sys/vm/drop_caches > /dev/null
return
}
# $1: CSV file name, $2: Table name, $3: SQLite 3 Database name
function sqlite3_import() {
echo -n > $3
rm -f $3
rm -f sqlite3_import.$$.sql
cat >sqlite3_import.$$.sql<<EOF
.separator ,
pragma journal_mode=off;
.import $1 $2
.exit
EOF
echo ".import $1 $2"
start=`date +%s.%N`
cat sqlite3_import.$$.sql | sqlite3 $3 > /dev/null
current=`date +%s.%N`
rm -f sqlite3_import.$$.sql
echo `elapsed $start $current`
return
}
#########################################################################
# TODOLIST は,実行させたいコマンド,あるいは「taskほにゃらら <引数>」
TODOLIST=$(cat <<EOD
sqlite3_import T250M_1.csv T250M_1 T250M_1.db
sqlite3_import T250M_2.csv T250M_2 T250M_2.db
sqlite3_import T250M_3.csv T250M_3 T250M_3.db
sqlite3_import T250M_4.csv T250M_4 T250M_4.db
sqlite3_import T250M_5.csv T250M_5 T250M_5.db
sqlite3_import T250M_6.csv T250M_6 T250M_6.db
sqlite3_import T250M_7.csv T250M_7 T250M_7.db
sqlite3_import T250M_8.csv T250M_8 T250M_8.db
sqlite3_import T250M_9.csv T250M_9 T250M_9.db
sqlite3_import T250M_10.csv T250M_10 T250M_10.db
sqlite3_import T250M_11.csv T250M_11 T250M_11.db
sqlite3_import T250M_12.csv T250M_12 T250M_12.db
sqlite3_import T250M_13.csv T250M_13 T250M_13.db
sqlite3_import T250M_14.csv T250M_14 T250M_14.db
sqlite3_import T250M_15.csv T250M_15 T250M_15.db
sqlite3_import T250M_16.csv T250M_16 T250M_16.db
EOD
)
#########################################################################
# TODOLIST の記載を,指定された並列度で実行.
# この先は決まり文句
# さて,このプログラムは,引数の数が1のときは,行番号の指定である.TODOLIST のその行番号の1行を実行する.使い方 concurrent.sh <行番号>
if [ $# == 1 ]; then
# echo "$a" のように「"」を付けると改行が保たてる
eval $(echo "$TODOLIST" | sed -n ${1}P)
exit
fi
# 引数なしで実行するとき,
# seq 1 $(echo "$TODOLIST" | wc -l) は,TODOLIST の行数以下の整数を1から順に生成.
# 使うときは chmod 755 で実行可能にしておくこと.
for i in `seq 1 16`; do
# 並列度
NUM_CONCURRENT=$i
#
cache_clear
start=`date +%s.%N`
seq 1 $(echo "$TODOLIST" | wc -l) | xargs -L 1 -P ${NUM_CONCURRENT} bash ./$0 > /dev/null
current=`date +%s.%N`
elapsed1=`elapsed $start $current`
#
cache_clear
start=`date +%s.%N`
seq 1 $(echo "$TODOLIST" | wc -l) | xargs -L 1 -P ${NUM_CONCURRENT} bash ./$0 > /dev/null
current=`date +%s.%N`
elapsed2=`elapsed $start $current`
#
cache_clear
start=`date +%s.%N`
seq 1 $(echo "$TODOLIST" | wc -l) | xargs -L 1 -P ${NUM_CONCURRENT} bash ./$0 > /dev/null
current=`date +%s.%N`
elapsed3=`elapsed $start $current`
#
echo ${NUM_CONCURRENT} `avg $elapsed1 $elapsed2 $elapsed3`
done

PostgreSQL
sudo -u postgres service postgresql start
# clean up
echo "drop database testdb" | sudo -u postgres psql -U postgres
sudo service postgresql stop
sudo rm -rf /var/lib/postgresql/data
sudo mkdir /var/lib/postgresql/data
sudo chown -R postgres:postgres /var/lib/postgresql/data
sudo -u postgres /usr/lib/postgresql/12/bin/initdb --encoding='UTF-8' -D /var/lib/postgresql/data
#
sudo service postgresql start
echo "create database testdb owner postgres encoding 'UTF8';" | sudo -u postgres psql -U postgres
cat T1000M_1.sql | sudo -u postgres psql -U postgres -d testdb
echo "\copy T1000M_1 from 'T1000M_1.csv' with csv header;" | sudo -u postgres psql -U postgres -d testdb
echo "select region, count(*) from T1000M_1 group by region;" | sudo -u postgres psql -U postgres -d testdb
echo "select birth_cap from T1000M_1 where birth_cap > 80000 limit 10;" | sudo -u postgres psql -U postgres -d testdb