Python で Webスクレイピング (1)
なんとなく、Web上の情報を自動収集してデータ化したり、別のシステムに投入したりしたいことがあったのでWebスクレイピングを学んだ。
そのまとめと抄。
目次
本文
1. Pythonのインストール
Pythonのダウンロードは以下から。記事を書いた時点で「Latest: Python 3.9.7」だった。
2. seleniumのインストール
WindowsTerminalなどからpipにてseleniumをインストールする。
PS > pip install selenium Collecting selenium Using cached selenium-3.141.0-py2.py3-none-any.whl (904 kB) Collecting urllib3 Using cached urllib3-1.26.6-py2.py3-none-any.whl (138 kB) Installing collected packages: urllib3, selenium Successfully installed selenium-3.141.0 urllib3-1.26.6
3. pillowのインストール
画像を扱うためのプラグイン。
PS > pip install pillow Collecting pillow Downloading Pillow-8.3.2-cp39-cp39-win_amd64.whl (3.2 MB) Installing collected packages: pillow Successfully installed pillow-8.3.2
4. WebDriverのインストール
WebDriverとはブラウザを起動するモジュールの総称。
こんなページもあるので参考にする。
Installing browser drivers | Selenium
◆Firefoxを使用する方
geckodriver のインストール(FireFoxをブラウザとして使用する場合)
Release 0.29.1 · mozilla/geckodriver · GitHub
◆chromeを使用する方
chromedriverをインストール
Downloads - ChromeDriver - WebDriver for Chrome
◆Edge(おそらくchromium版)を使用する方
EdgeのWebdriverはmicrosoftがリリースしている。
Microsoft Edge ドライバー - Microsoft Edge Developer
5. その他
Webスクレイピングに使われるライブラリ。キーワードとして覚えておくといい。
名称 | 説明(Wikipediaなどから) |
---|---|
Selenium | Webアプリケーションをテストするためのポータブルフレームワーク |
BeautifulSoup | HTMLおよびXMLドキュメントを解析するためのPythonパッケージ |
requests | HTTPリクエストを簡単に行うためのもの |
PyQuery | PythonでjQueryの要領でスクレイピングするためのもの |
scrapy | Webサイトをクロールし、構造化されたデータを抽出するためのアプリケーション・フレームワークScrapy 1.7 文書 — Scrapy 1.7.3 ドキュメント |
バージョン情報
・Windows10 ・Python 3.9.7