データ前処理の例:欠損値補完とMinMaxスケーリング

【概要】scikit-learnを使用。データ前処理として、欠損値補完とMinMaxスケーリングを実行し、データの変化を観察。機械学習での前処理の重要性を確認する。

目次

概要

基本概念: 欠損値とは観測されなかった値であり、分析結果に偏りを生じさせる可能性がある。MinMaxスケーリングとは変数を指定された範囲(通常0-1)に変換するスケーリング手法である。

前処理の必要性: 機械学習アルゴリズムは数値データを前提とし、欠損値や異なるスケールの変数が存在すると計算が不安定になるため、前処理が必要となる。

技術的特徴: scikit-learnのデータ前処理機能として、欠損値処理、スケーリングなどの機能が提供される。本実習では欠損値補完(平均値)とMinMaxスケーリング(0-1変換)を実装する。

適用条件: MinMaxScalerは外れ値に敏感であり、データに極端な値が含まれる場合は結果が歪む。そのような場合は他のスケーリング手法の使用を検討する。

学習目標: 欠損値の影響とスケーリング前後での数値分布の変化を数値的に確認し、異なるスケーリング手法の効果を比較検証する。

論文: Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825-2830.

事前準備

Python, Windsurfをインストールしていない場合の手順(インストール済みの場合は実行不要)。

  1. 管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。
  2. 以下のコマンドをそれぞれ実行する(winget コマンドは1つずつ実行)。

REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Windsurf をシステム領域にインストール
winget install --scope machine --id Codeium.Windsurf -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul
REM Windsurf のパス設定
set "WINDSURF_PATH=C:\Program Files\Windsurf"
if exist "%WINDSURF_PATH%" (
    echo "%PATH%" | find /i "%WINDSURF_PATH%" >nul
    if errorlevel 1 setx PATH "%PATH%;%WINDSURF_PATH%" /M >nul
)

必要なライブラリのインストール

コマンドプロンプトを管理者として実行(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する:


pip install pandas numpy scikit-learn

プログラムコードと実行結果

ソースコード


# 欠損値補完とMinMaxスケーリングによるデータ前処理プログラム
# 特徴技術名: scikit-learn [機械学習のための前処理・モデリングライブラリ]
# 出典: F. Pedregosa et al., "Scikit-learn: Machine Learning in Python," Journal of Machine Learning Research, vol. 12, pp. 2825-2830, 2011.
# 特徴機能: MinMaxScaler [各特徴量を指定範囲(デフォルト0-1)に線形変換する正規化機能。最小値を0、最大値を1に変換することで、異なるスケールの特徴量を統一的に扱える]
# 学習済みモデル: 使用なし
# 方式設計:
#   - 関連利用技術:
#     - pandas (データ分析ライブラリ、欠損値処理のfillna()メソッドを提供)
#     - numpy (数値計算ライブラリ、欠損値表現のnp.nanを提供)
#   - 入力と出力: 入力: データ(ユーザは「0:CSVファイル,1:サンプルデータ」のメニューで選択.0:CSVファイルの場合はtkinterでファイル選択)、出力: コンソールへのテキスト表示およびresult.txtファイル
#   - 処理手順: 1) データ取得(CSVまたはサンプル)、2) 各列の平均値で欠損値補完、3) MinMaxScalerで0-1範囲に正規化、4) 結果表示・保存
#   - 前処理、後処理: 該当なし(MinMaxScaler自体が前処理機能)
#   - 追加処理: 該当なし
#   - 調整を必要とする設定値: feature_range(MinMaxScalerのスケーリング範囲、デフォルト(0,1))
# 将来方策: ユーザがfeature_rangeを対話的に設定できる機能の実装
# その他の重要事項: 欠損値補完は平均値を使用。カテゴリカルデータには適用不可
# 前準備: pip install pandas numpy scikit-learn

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import tkinter as tk
from tkinter import filedialog

# 定数定義
RANDOM_SEED = 42  # 再現性のための乱数シード
FEATURE_RANGE = (0, 1)  # MinMaxScalerのデフォルト範囲(最小値, 最大値)

# 再現性のための乱数シード設定
np.random.seed(RANDOM_SEED)

# プログラム概要表示
print('=== 欠損値補完とMinMaxスケーリングによるデータ前処理プログラム ===')
print('このプログラムは、データの欠損値を平均値で補完し、')
print('MinMaxScalerで指定範囲に正規化します。')
print()

# データ取得
print('0: CSVファイル')
print('1: サンプルデータ')

choice = input('選択: ')

if choice == '0':
    root = tk.Tk()
    root.withdraw()
    path = filedialog.askopenfilename(filetypes=[('CSV files', '*.csv')])
    if not path:
        exit()
    try:
        data = pd.read_csv(path)
        # 数値列のみ抽出
        numeric_columns = data.select_dtypes(include=[np.number]).columns
        data = data[numeric_columns]
        if data.empty:
            print('エラー: 数値データが含まれていません')
            exit()
    except Exception as e:
        print(f'ファイル読み込みエラー: {e}')
        exit()
elif choice == '1':
    # サンプルデータの作成(欠損値含む)
    data = pd.DataFrame({
        'age': [25, 30, np.nan, 45, 50],
        'income': [50000, 60000, 55000, np.nan, 65000],
        'score': [200, 250, 240, 260, 220]
    })
else:
    print('無効な選択です')
    exit()

# データ検証
if len(data) < 2:
    print('エラー: データが2行以上必要です')
    exit()

# データ読み込み後にスケーリング範囲を設定
print()
print('データの概要:')
print(f'  行数: {len(data)}')
print(f'  列数: {len(data.columns)}')
print(f'  列名: {list(data.columns)}')

# 欠損値の状況を表示
missing_info = data.isnull().sum()
if missing_info.sum() > 0:
    print()
    print('欠損値の状況:')
    for col in missing_info[missing_info > 0].index:
        print(f'  {col}: {missing_info[col]}件 ({missing_info[col]/len(data)*100:.1f}%)')

print()
print('MinMaxスケーリングの範囲を設定します(デフォルト: 0-1)')
use_default = input('デフォルト値を使用しますか? (y/n): ')

if use_default.lower() != 'y':
    try:
        min_val = float(input('最小値を入力してください: '))
        max_val = float(input('最大値を入力してください: '))
        if min_val >= max_val:
            print('エラー: 最小値は最大値より小さくしてください')
            exit()
        FEATURE_RANGE = (min_val, max_val)
    except ValueError:
        print('エラー: 数値を入力してください')
        exit()

# メイン処理
# 全値が欠損の列をチェック
all_null_columns = data.columns[data.isnull().all()].tolist()
if all_null_columns:
    print()
    print(f'警告: 以下の列は全ての値が欠損しています: {all_null_columns}')
    print('これらの列は0で補完されます')

# 欠損値を平均値で補完(全値欠損の場合は0で補完)
column_means = data.mean()
# 全値欠損の列は平均値がNaNになるため、0で置換
column_means = column_means.fillna(0)
filled_data = data.fillna(column_means)

# 補完後の欠損値チェック
if filled_data.isnull().any().any():
    print('エラー: 欠損値の補完に失敗しました')
    print('残存する欠損値:')
    remaining_nulls = filled_data.isnull().sum()
    for col in remaining_nulls[remaining_nulls > 0].index:
        print(f'  {col}: {remaining_nulls[col]}件')
    exit()

# MinMaxスケーリングによるデータスケーリング
scaler = MinMaxScaler(feature_range=FEATURE_RANGE)
try:
    scaled_data = pd.DataFrame(scaler.fit_transform(filled_data), columns=filled_data.columns)
except ValueError as e:
    print(f'エラー: スケーリング処理に失敗しました: {e}')
    exit()

# 結果出力
output = []
output.append('■ 元のデータ(欠損値含む)')
output.append('※ NaNは欠損値を表します')
output.append(str(data))
output.append('')

output.append('■ 欠損値補完後(平均値で補完)')
output.append('※ 各列の平均値で欠損値を置換しています')
output.append('※ 全値欠損の列は0で補完されています')
output.append(str(filled_data.round(2)))
output.append('')

output.append(f'■ MinMaxスケーリング後({FEATURE_RANGE[0]}-{FEATURE_RANGE[1]}スケーリング)')
output.append(f'※ 全ての値が{FEATURE_RANGE[0]}-{FEATURE_RANGE[1]}の範囲に変換されています')
output.append(f'※ 最小値={FEATURE_RANGE[0]}、最大値={FEATURE_RANGE[1]}となります')
output.append(str(scaled_data.round(3)))

# 統計情報の追加(動的精度調整)
def format_stats(df, label):
    """統計情報を適切な精度で整形"""
    result = []
    result.append(f'【{label}】')

    # 各統計量を計算
    min_vals = df.min()
    max_vals = df.max()
    mean_vals = df.mean()

    # 列ごとに適切な精度を決定
    min_dict = {}
    max_dict = {}
    mean_dict = {}

    for col in df.columns:
        # 値の大きさに応じて精度を調整
        max_abs = max(abs(min_vals[col]), abs(max_vals[col])) if not pd.isna(min_vals[col]) else 0

        if max_abs == 0:
            precision = 1
        elif max_abs < 1:
            precision = 4
        elif max_abs < 100:
            precision = 2
        elif max_abs < 10000:
            precision = 1
        else:
            precision = 0

        min_dict[col] = round(min_vals[col], precision) if not pd.isna(min_vals[col]) else 'NaN'
        max_dict[col] = round(max_vals[col], precision) if not pd.isna(max_vals[col]) else 'NaN'
        mean_dict[col] = round(mean_vals[col], precision) if not pd.isna(mean_vals[col]) else 'NaN'

    result.append(f'  最小値: {min_dict}')
    result.append(f'  最大値: {max_dict}')
    result.append(f'  平均値: {mean_dict}')

    return result

output.append('')
output.append('■ 統計情報')

# 元データ(欠損値含む)の統計
stats_original = format_stats(data, '元データ(欠損値含む)')
output.extend(stats_original)
output.append('')

# 補完後データの統計
stats_filled = format_stats(filled_data, '補完後データ')
output.extend(stats_filled)
output.append('')

# スケーリング後データの統計
stats_scaled = format_stats(scaled_data, 'スケーリング後データ')
output.extend(stats_scaled)

# 補完情報の追加
if missing_info.sum() > 0:
    output.append('')
    output.append('■ 欠損値補完の詳細')
    for col in missing_info[missing_info > 0].index:
        if col in all_null_columns:
            output.append(f'  {col}: 全値欠損のため0で補完')
        else:
            mean_val = data[col].mean()
            output.append(f'  {col}: 平均値 {mean_val:.2f} で補完')

# コンソール出力
for line in output:
    print(line)

# ファイル保存
with open('result.txt', 'w', encoding='utf-8') as f:
    for line in output:
        f.write(line + '\n')

print()
print('result.txtに保存しました')

実行結果の解釈: スケーリング後の値0は元データの最小値、1は元データの最大値に対応する。変換後も元データの順序関係は保持される。各列で独立してスケーリングが適用されるため、列間の相対的な大きさの関係は変化する場合がある。

使用方法

  1. 上記のプログラムを実行
  2. 3段階の処理結果が表示され、データの変化を確認できる

実験のアイデア

スケーリング手法の比較:

欠損値処理の比較:

発展的な検証: