トップページデータ処理Wikipedia ダンプのダウンロード日本語版 Wikipedia ダンプのダウンロード,ファイル分割(XMLファイル)

日本語版 Wikipedia ダンプのダウンロード,ファイル分割(XMLファイル)

利用条件は,利用者自身で確認すること.

日本語版 Wikipedia のダウンロード

  1. Wikipedia のデータベースダウンロードページを開く.

    利用条件,注意事項,ダウンロード手順を確認する.

    https://ja.wikipedia.org/wiki/Wikipedia:Database_download

  2. 日本語版 Wikipedia ダンプのページを開く

    https://dumps.wikimedia.org/jawiki/

  3. 日付を選ぶ

    [image]
  4. jawiki-...-pages-articles-multistream.xml.bz2 をダウンロード

    「...」のところは日付.

    [image]

Python, Git のインストール: 別ページで説明している.

git の URL: https://git-scm.com/

Python のインストール: 別ページで説明している.,pip と setuptools の更新,Python 開発環境,Python コンソールJupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, spyder)のインストール

Windows の場合

  1. Python のインストール: 別ページで説明している.

    Python の URL: http://www.python.org/

  2. pip, setuptools の更新,Python 開発環境,Python コンソールJupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, spyder)のインストール p

    インストールするには, 端末で,次のコマンドを実行.

    python -m pip install -U pip setuptools jupyterlab jupyter jupyter-console jupytext nteract_on_jupyter spyder
    

    [image]

Git のインストール

Git の URL: https://git-scm.com/

Ubuntu の場合

システム Python を使用(インストール操作は不要)

  1. pip と setuptools の更新Python 開発環境,Python コンソールJupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, spyder)のインストール(Ubuntu 上)

    端末で,次のコマンドを実行.

    sudo apt -y update
    sudo apt -y install python-is-python3 python3-dev python3-pip python3-setuptools python3-venv
    sudo pip3 uninstall ptyprocess sniffio terminado tornado jupyterlab jupyter jupyter-console jupytext nteract_on_jupyter spyder
    sudo apt -y install jupyter jupyter-qtconsole spyder3
    sudo apt -y install python3-ptyprocess python3-sniffio python3-terminado python3-tornado 
    sudo pip3 install -U jupyterlab nteract_on_jupyter
    

日本語版 Wikipedia ファイルの分割(Python, git, attardi/wikiextractor を使用)

  1. まず,ダウンロードしたファイル名を確認
  2. 次のコマンドで,ダウンロードしたファイルを分割する.

    「jawiki-20200701-pages-articles-multistream.xml.bz2」は 実際のファイル名に読み替えること.

    終わるまで数時間かかるので待つ.

    Windows の場合は「python」,Ubuntu の場合は「python3」.

    git clone https://github.com/attardi/wikiextractor.git
    mkdir jawiki
    python wikiextractor/WikiExtractor.py s -b 500M -o jawiki/ jawiki-20200701-pages-articles-multistream.xml.bz2
    

    [image]
  3. 表示を確認

    エラーメッセージが出ていないこと.

    [image]

    結果は,ディレクトリ名 jawiki のディレクトリに置かれる.