LangChain + Gemini 2.5 Flash 処理コマンド(画像アップロード可能)(ソースコードと実行結果)

Python開発環境,ライブラリ類

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール

インストール済みの場合は実行不要。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。

REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul

関連する外部ページ

Python の公式ページ: https://www.python.org/

AI エディタ Windsurf のインストール

Pythonプログラムの編集・実行には、AI エディタの利用を推奨する。ここでは,Windsurfのインストールを説明する。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行して、Windsurfをシステム全体にインストールする。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。

winget install --scope machine Codeium.Windsurf -e --silent

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

必要なライブラリのインストール

コマンドプロンプトを管理者として実行(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する


pip install langchain-google-genai pillow langchain-core

LangChain + Gemini 2.5 Flash 処理コマンド(画像アップロード可能)

概要

本プログラムは、LangChainフレームワークとGemini 2.5 Flash APIを組み合わせたバッチ処理型AIアプリケーションである。テキストファイルと画像ファイル(オプション)を入力として受け付け、指定されたインストラクションに基づいて処理を行うマルチモーダル機能を持つ。コマンドライン引数による一回完結の処理方式を採用し、Gemini 2.5 Flash の思考機能による高度な推論処理と問題解決を実現している。

主要技術

Gemini 2.5 Flash API

Gemini Teamが2025年に開発した思考機能付き言語モデルAPI [1]。推論プロセスを経た内部思考により、複雑な問題解決を可能とする。

LangChain

Harrison Chaseが2022年に開発した大規模言語モデル統合フレームワーク [2][3]。LLMを活用したアプリケーション開発を支援する。

Python argparse

Python標準ライブラリのコマンドライン引数解析モジュール。位置引数とオプション引数の処理、ヘルプメッセージの自動生成を提供する。

技術的特徴

本実装では、複数の技術的工夫が施されている。マルチモーダルメッセージ構築にはLangChainのHumanMessageクラスを使用し、インストラクションテキストと処理対象テキストファイル、オプションの画像データを統合処理する。画像データはBase64エンコーディングによってテキスト形式に変換され、APIリクエストに組み込まれる。APIキー管理については、環境変数(GEMINI_API_KEY、GOOGLE_API_KEY)と.envファイルの双方からの自動取得機能を実装している。

実装の特色

バッチ処理型設計により、コマンドライン引数で処理内容を指定し、一回の実行で完結する効率的な処理を実現している。出力形式は標準出力またはファイル出力(-oオプション)を選択可能で、自動化処理やパイプライン処理に適している。設定値の定数化(TEMPERATURE、MODEL_NAME)により、保守性と可読性を向上させている。包括的なエラーハンドリングにより、ファイル存在確認、APIキー検証、例外処理を適切に実装している。

参考文献

[1] Gemini Team, Google. (2025). Gemini 2.5: Our newest Gemini model with thinking. Google DeepMind. https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

[2] Chase, H. (2022). LangChain: Building applications with LLMs through composability. GitHub. https://github.com/langchain-ai/langchain

[3] LangChain Development Team. (2025). LangChain Documentation. LangChain Inc. https://python.langchain.com/docs/introduction/

ソースコード


#!/usr/bin/env python3
# LangChain + Gemini 2.5 Flash 処理コマンド
# 特徴技術名: Gemini 2.5 Flash API
# 出典: Gemini Team, Google. (2025). Gemini 2.5: Our newest Gemini model with thinking. Google DeepMind. https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
# 特徴機能: 思考機能による文脈理解推論(推論プロセスを経た思考により、単純な応答生成ではなく複雑な問題解決と文脈理解を実現)
# 学習済みモデル: 使用なし(Gemini 2.5 Flash APIによる直接呼び出し)
# 方式設計:
#   関連利用技術: LangChain(LLMフレームワーク)、argparse(コマンドライン引数解析)、base64(画像エンコーディング)、pathlib(ファイル操作)
#   入力と出力: 入力: インストラクション(コマンドライン引数)、テキストファイル、画像ファイル(オプション)、出力: AI応答テキスト(標準出力またはファイル)
#   処理手順: APIキー取得→コマンドライン引数解析→ファイル読み込み→LangChain初期化→API呼び出し→結果出力
#   前処理、後処理: 前処理: テキストファイル読み込み、画像Base64エンコーディング、マルチモーダルメッセージ構築、後処理: 結果の標準出力またはファイル保存
#   調整を必要とする設定値: GEMINI_API_KEY(Gemini APIアクセスキー)、TEMPERATURE(応答の一貫性制御)、MODEL_NAME(使用モデル)
# 前準備: pip install langchain-google-genai langchain-core

import os
import re
import sys
import base64
import argparse
from pathlib import Path
from datetime import datetime
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.messages import HumanMessage

# 設定定数
TEMPERATURE = 0.1
MODEL_NAME = "gemini-2.5-flash"

def load_api_key():
    # 環境変数から取得
    for var_name in ['GEMINI_API_KEY', 'GOOGLE_API_KEY']:
        if api_key := os.getenv(var_name):
            return api_key

    # .envファイルから取得
    for env_file in ['.env', '.env.development']:
        if Path(env_file).exists():
            try:
                content = Path(env_file).read_text()
                for var_name in ['GEMINI_API_KEY', 'GOOGLE_API_KEY']:
                    if match := re.search(rf'^\s*{var_name}\s*=(.+)$', content, re.M):
                        return match.group(1).strip().strip('"\'')
            except Exception:
                continue
    return None

def encode_image(image_path):
    try:
        with open(image_path, "rb") as f:
            return base64.b64encode(f.read()).decode()
    except Exception as e:
        print(f"画像読み込みエラー: {e}", file=sys.stderr)
        return None

def generate_filename(extension="txt"):
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    return f"gemini_2.5_flash_output_{timestamp}.{extension}"

def main():
    # プログラム開始時の明確なタイトル表示
    print("=== LangChain + Gemini 2.5 Flash 処理コマンド ===")

    parser = argparse.ArgumentParser()
    parser.add_argument("instruction", help="処理インストラクション")
    parser.add_argument("text_file", help="処理対象テキストファイル")
    parser.add_argument("image_file", nargs="?", help="画像ファイル(オプション)")
    parser.add_argument("-o", "--output", help="出力ファイル")
    args = parser.parse_args()

    api_key = load_api_key()
    if not api_key:
        # APIキー取得手順を表示
        print("=" * 60)
        print("Gemini APIキーが見つかりません")
        print("=" * 60)
        print()
        print("このプログラムを使用するには、Gemini APIキーが必要です。")
        print()
        print("APIキー取得手順:")
        print("1. または手動でAPIキーを取得:")
        print("   - https://aistudio.google.com/app/apikey にアクセス")
        print("   - Googleアカウントでログイン")
        print("   - 'Get API key' → 'Create API key' をクリック")
        print("   - 'Create API key in new project' を選択")
        print("   - 生成されたAPIキーをコピー")
        print()
        print("参考: 「Gemini APIキー取得支援ツール」を用意しています")
        print("   https://www.kkaneko.jp/ai/labo/geminiapikey.html")
        print()
        print("2. 設定")
        print("   **1. 環境変数での設定**")
        print("   - `GEMINI_API_KEY` または `GOOGLE_API_KEY` を環境変数に設定")
        print("   **2. .envファイルでの設定**")
        print("   - プログラムと同じフォルダに `.env` ファイルを作成し、以下のように記述:")
        print("   GEMINI_API_KEY=your_api_key_here")
        print("   または")
        print("   GOOGLE_API_KEY=your_api_key_here")
        print()
        print("3. 設定後、このプログラムを再実行してください")
        print("=" * 60)

    if not Path(args.text_file).exists():
        print(f"テキストファイルが見つかりません: {args.text_file}", file=sys.stderr)
        return 1

    try:
        text_content = Path(args.text_file).read_text(encoding='utf-8')
    except Exception as e:
        print(f"テキストファイル読み込みエラー: {e}", file=sys.stderr)
        return 1

    image_data = None
    if args.image_file:
        if not Path(args.image_file).exists():
            print(f"画像ファイルが見つかりません: {args.image_file}", file=sys.stderr)
            return 1
        image_data = encode_image(args.image_file)
        if not image_data:
            return 1

    try:
        # 初期化完了メッセージ
        print("LangChain初期化中...")
        llm = ChatGoogleGenerativeAI(
            model=MODEL_NAME,
            google_api_key=api_key,
            temperature=TEMPERATURE
        )
        print("初期化完了!処理を開始します")

        # 操作ガイドの表示
        print(f"使用モデル: {MODEL_NAME}")
        print(f"処理対象ファイル: {args.text_file}")
        if args.image_file:
            print(f"画像ファイル: {args.image_file}")
        print(f"インストラクション: {args.instruction}")

        prompt = f"{args.instruction}\n\n{text_content}"

        if image_data:
            message = HumanMessage(
                content=[
                    {"type": "text", "text": prompt},
                    {"type": "image_url", "image_url": f"data:image/jpeg;base64,{image_data}"}
                ]
            )
            response = llm.invoke([message])
        else:
            response = llm.invoke(prompt)

        result = response.content

        if args.output:
            Path(args.output).write_text(result, encoding='utf-8')
            print(f"結果をファイルに保存しました: {args.output}")
        else:
            # タイムスタンプ付きファイル名の自動生成と保存
            output_filename = generate_filename()
            Path(output_filename).write_text(result, encoding='utf-8')
            print(f"結果をファイルに保存しました: {output_filename}")
            print("\n=== 処理結果 ===")
            print(result)

    except KeyboardInterrupt:
        print("\n\nプログラムを終了します", file=sys.stderr)
        return 1
    except Exception as e:
        print(f"エラー: {e}", file=sys.stderr)
        return 1

    return 0

if __name__ == "__main__":
    sys.exit(main())