亀の甲羅2

今日もまた朝とく起きて励まなん窓に明るきありあけの月

Python で Webスクレイピング (1)

なんとなく、Web上の情報を自動収集してデータ化したり、別のシステムに投入したりしたいことがあったのでWebスクレイピングを学んだ。
そのまとめと抄。

目次

本文

1. Pythonのインストール

Pythonのダウンロードは以下から。記事を書いた時点で「Latest: Python 3.9.7」だった。

Welcome to Python.org

2. seleniumのインストール

WindowsTerminalなどからpipにてseleniumをインストールする。

PS > pip install selenium
Collecting selenium
  Using cached selenium-3.141.0-py2.py3-none-any.whl (904 kB)
Collecting urllib3
  Using cached urllib3-1.26.6-py2.py3-none-any.whl (138 kB)
Installing collected packages: urllib3, selenium
Successfully installed selenium-3.141.0 urllib3-1.26.6

3. pillowのインストール

画像を扱うためのプラグイン

PS > pip install pillow
Collecting pillow
  Downloading Pillow-8.3.2-cp39-cp39-win_amd64.whl (3.2 MB)
Installing collected packages: pillow
Successfully installed pillow-8.3.2

4. WebDriverのインストール

WebDriverとはブラウザを起動するモジュールの総称。

こんなページもあるので参考にする。
Installing browser drivers | Selenium

Firefoxを使用する方

geckodriver のインストール(FireFoxをブラウザとして使用する場合)

Release 0.29.1 · mozilla/geckodriver · GitHub

chromeを使用する方

chromedriverをインストール

Downloads - ChromeDriver - WebDriver for Chrome

◆Edge(おそらくchromium版)を使用する方

EdgeのWebdriverはmicrosoftがリリースしている。

Microsoft Edge ドライバー - Microsoft Edge Developer

5. その他

Webスクレイピングに使われるライブラリ。キーワードとして覚えておくといい。

名称 説明(Wikipediaなどから)
Selenium Webアプリケーションをテストするためのポータブルフレームワーク
BeautifulSoup HTMLおよびXMLドキュメントを解析するためのPythonパッケージ
requests HTTPリクエストを簡単に行うためのもの
PyQuery PythonjQueryの要領でスクレイピングするためのもの
scrapy Webサイトをクロールし、構造化されたデータを抽出するためのアプリケーション・フレームワークScrapy 1.7 文書 — Scrapy 1.7.3 ドキュメント

バージョン情報

・Windows10
・Python 3.9.7