スクレイピング

Python BeautifulSoupメモ

投稿日:

BeautifulSoupとは?

Python pipでパッケージ管理されている。HTMLを容易に解析する機能提供する。

BeautifulSoup import宣言

from bs4 import BeautifulSoup

bs4 とは BeautifulSoup4の略である。

スープの作り方

soup = BeautifulSoup(fileオブジェクト, ‘html.parser’)

簡単なAPIを紹介

bs4.element.Tag タグを表すオブジェクト

#name タグ名を取得する
#string 要素の直接の子の中身(文字列)を取得する
#text 要素内の全ての文字を連結した文字列を取得する

タグ内の任意の属性を取得する Tag[‘属性名’]
例 h1タグについているidを取得。

soup.h1['id']

タグ内の全属性を取得する Tag.attrs
例 h1タグについている属性を取得

soup.h1.attrs

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

lxml.etree.ParserError: Document is empty

lxml.etree.ParserError: Document is empty が出た。このとき。 response=requests.get(”https://discussions.apple …

no image

ドメインの取得可否をチェックする

いろんな方法がある。 しかし、最終的にはお名前.comなどで確認しないと取得できるかは分からない。 URLからドメインを抽出する tldextractを使用できる。 https://pypi.pyth …

no image

スクレイピングで使用するlinuxコマンド

wget ファイルをダウンロードする $ wget http://www.yahoo.co.jp/ オプション 意味 例 -P 保存先ディレクトリを指定する wget -P dataset bzcat …

no image

PythonでWebサイトをクローリング・スクレイピングの実践

 各モジュールの公式ドキュメント モジュール バージョン ドキュメントURL 言語 Python 3 https://docs.python.jp/3/index.html 日本語 urllib ht …

no image

クローラーのUserAgent

Python Requests でのUserAgent指定方法 >>> url=”http://www.yahoo.co.jp/ >>> userAgent=”Mo …