スクレイピング

Python BeautifulSoupメモ

投稿日:

BeautifulSoupとは?

Python pipでパッケージ管理されている。HTMLを容易に解析する機能提供する。

BeautifulSoup import宣言

from bs4 import BeautifulSoup

bs4 とは BeautifulSoup4の略である。

スープの作り方

soup = BeautifulSoup(fileオブジェクト, 'html.parser')

簡単なAPIを紹介

bs4.element.Tag タグを表すオブジェクト

#name タグ名を取得する
#string 要素の直接の子の中身(文字列)を取得する
#text 要素内の全ての文字を連結した文字列を取得する

タグ内の任意の属性を取得する Tag['属性名']
例 h1タグについているidを取得。

soup.h1['id']

タグ内の全属性を取得する Tag.attrs
例 h1タグについている属性を取得

soup.h1.attrs

-スクレイピング

Copyright© SIerからWeb系自社開発に転職!失敗して感じたたった1つの後悔 , 2019 All Rights Reserved.