トップページデータ処理Wikipedia ダンプのダウンロード英語版 Wikipedia ダンプのダウンロード,ファイル分割(XMLファイル)

英語版 Wikipedia ダンプのダウンロード,ファイル分割(XMLファイル)

利用条件は,利用者自身で確認すること.

英語版 Wikipedia のダウンロード

  1. Wikipedia のデータベースダウンロードページを開く.

    利用条件,注意事項,ダウンロード手順を確認する.

    https://en.wikipedia.org/wiki/Wikipedia:Database_download

  2. 英語版 Wikipedia ダンプのページを開く

    https://dumps.wikimedia.org/enwiki/

  3. 日付を選ぶ

    [image]
  4. enwiki-...-pages-articles-multistream.xml.bz2 をダウンロード

    「...」のところは日付.

    [image]

Python, Git のインストール: 別ページで説明している.

git の URL: https://git-scm.com/

Python のインストール: 別ページで説明している.,pip と setuptools の更新,Python 開発環境,Python コンソールJupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, spyder)のインストール

Windows の場合

  1. Python のインストール: 別ページで説明している.

    Python の URL: http://www.python.org/

  2. pip, setuptools の更新,Python 開発環境,Python コンソールJupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, spyder)のインストール

    コマンドプロンプト管理者として実行し,次のコマンドを実行.

    Windows での pip の実行では,コマンドプロンプト管理者として実行することにする。

    [image]

    python -m pip install -U pip setuptools jupyterlab jupyter jupyter-console jupytext nteract_on_jupyter spyder
    

    [image]

Git のインストール

Git の URL: https://git-scm.com/

Ubuntu の場合

システム Python を使用(インストール操作は不要)

  1. pip と setuptools の更新Python 開発環境,Python コンソールJupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, spyder)のインストール(Ubuntu 上)

    端末で,次のコマンドを実行.

    sudo apt -y update
    sudo apt -y install python-is-python3 python3-dev python3-pip python3-setuptools python3-venv
    sudo pip3 uninstall ptyprocess sniffio terminado tornado jupyterlab jupyter jupyter-console jupytext nteract_on_jupyter spyder
    sudo apt -y install jupyter jupyter-qtconsole spyder3
    sudo apt -y install python3-ptyprocess python3-sniffio python3-terminado python3-tornado 
    sudo pip3 install -U jupyterlab nteract_on_jupyter
    

英語版 Wikipedia ファイルの分割(Python, git, attardi/wikiextractor を使用)

  1. まず,ダウンロードしたファイル名を確認
  2. 次のコマンドで,ダウンロードした英語版 Wikipedia ファイルを分割する.

    「enwiki-20200701-pages-articles-multistream.xml.bz2」は 実際のファイル名に読み替えること.

    終わるまで数時間かかるので待つ.

    Windows の場合は「python」,Ubuntu の場合は「python3」.

    git clone https://github.com/attardi/wikiextractor.git
    mkdir enwiki
    python wikiextractor/WikiExtractor.py -s -b 500M -o enwiki/ enwiki-20200701-pages-articles-multistream.xml.bz2
    

    結果は,ディレクトリ名 enwiki のディレクトリに置かれる.