トップページ -> 最新情報技術の実習と研究ツール -> オープンデータの活用 -> データのグループ化。(irisデータセット, titanicデータセットを使用)
[サイトマップへ]

データのグループ化。(irisデータセット, titanicデータセットを使用)

金子邦彦研究室: データベース、人工知能(AI)、データサイエンスの融合により不可能を可能にする

前準備

Anaconda のインストール

前準備として,Python 開発環境のAnaconda のインストールが終わっていること.

Windows での Anaconda のインストール手順は、 別の Web ページに記載しています

Ubuntu での Anaconda のインストール手順は、 別の Web ページに記載しています

以下,Windows に Anaconda をインストール済みであるものとして説明を続けます.

spyder, numpy scipy h5py scikit-learn scikit-image matplotlib seaborn pandas pillow のインストール

conda install -y -c spyder-ide spyder 
conda install -y numpy scipy h5py scikit-learn scikit-image matplotlib seaborn pandas pillow

irisデータセット, titanic データセットの読み込み

Python プログラムを動かしたい.

Anacondaに入っている開発環境 spyder を実行し,右下の ipython コンソールを使うのが簡単.

import pandas as pd
import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

グループごとの数え上げ

列を1つ選ぶことで、グループを作り、各グループの要素数を求める

import pandas as pd
import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print( iris.groupby('species').size() )
print( titanic.groupby('embark_town').size() )

最大、最小、平均、中央値、和

列を1つ選ぶことで、グループを作り、各グループの最大、最小、平均、中央値、和を求める

import pandas as pd
import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print( iris.groupby('species').max() )
print( titanic.groupby('embark_town').max() )

print( iris.groupby('species').min() )
print( titanic.groupby('embark_town').min() )

print( iris.groupby('species').mean() )
print( titanic.groupby('embark_town').mean() )

print( iris.groupby('species').median() )
print( titanic.groupby('embark_town').median() )

print( iris.groupby('species').sum() )
print( titanic.groupby('embark_town').sum() )