なんとなく、Web上の情報を自動収集してデータ化したり、別のシステムに投入したりしたいことがあったのでWebスクレイピングを学んだ。
そのまとめと抄。

本文

1. Pythonのインストール

Pythonのダウンロードは以下から。記事を書いた時点で「Latest: Python 3.9.7」だった。

2. seleniumのインストール

WindowsTerminalなどからpipにてseleniumをインストールする。

PS > pip install selenium
Collecting selenium
  Using cached selenium-3.141.0-py2.py3-none-any.whl (904 kB)
Collecting urllib3
  Using cached urllib3-1.26.6-py2.py3-none-any.whl (138 kB)
Installing collected packages: urllib3, selenium
Successfully installed selenium-3.141.0 urllib3-1.26.6

3. pillowのインストール

画像を扱うためのプラグイン。

PS > pip install pillow
Collecting pillow
  Downloading Pillow-8.3.2-cp39-cp39-win_amd64.whl (3.2 MB)
Installing collected packages: pillow
Successfully installed pillow-8.3.2

4. WebDriverのインストール

WebDriverとはブラウザを起動するモジュールの総称。

こんなページもあるので参考にする。
Installing browser drivers | Selenium

◆Firefoxを使用する方

geckodriver のインストール（FireFoxをブラウザとして使用する場合）

Release 0.29.1 · mozilla/geckodriver · GitHub

◆chromeを使用する方

chromedriverをインストール

Downloads - ChromeDriver - WebDriver for Chrome

◆Edge（おそらくchromium版）を使用する方

EdgeのWebdriverはmicrosoftがリリースしている。

Microsoft Edge ドライバー - Microsoft Edge Developer

5. その他

Webスクレイピングに使われるライブラリ。キーワードとして覚えておくといい。

名称	説明（Wikipediaなどから）
Selenium	Webアプリケーションをテストするためのポータブルフレームワーク
BeautifulSoup	HTMLおよびXMLドキュメントを解析するためのPythonパッケージ
requests	HTTPリクエストを簡単に行うためのもの
PyQuery	PythonでjQueryの要領でスクレイピングするためのもの
scrapy	Webサイトをクロールし、構造化されたデータを抽出するためのアプリケーション・フレームワーク Scrapy 1.7 文書 — Scrapy 1.7.3 ドキュメント

バージョン情報

・Windows10
・Python 3.9.7

亀の甲羅２

今日もまた朝とく起きて励まなん窓に明るきありあけの月

Python で Webスクレイピング（１）

目次

本文