スクレイピング

Python BeautifulSoupメモ

投稿日:

BeautifulSoupとは?

Python pipでパッケージ管理されている。HTMLを容易に解析する機能提供する。

BeautifulSoup import宣言

from bs4 import BeautifulSoup

bs4 とは BeautifulSoup4の略である。

スープの作り方

soup = BeautifulSoup(fileオブジェクト, ‘html.parser’)

簡単なAPIを紹介

bs4.element.Tag タグを表すオブジェクト

#name タグ名を取得する
#string 要素の直接の子の中身(文字列)を取得する
#text 要素内の全ての文字を連結した文字列を取得する

タグ内の任意の属性を取得する Tag[‘属性名’]
例 h1タグについているidを取得。

soup.h1['id']

タグ内の全属性を取得する Tag.attrs
例 h1タグについている属性を取得

soup.h1.attrs

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

クローラー開発メモ

URLを巡回すると、同じドメインではまってしまう。 URLが期限切れだと、sedo.comというドメイン屋さんで永遠はまってしまう。 だから、 ①sedo.comを巡回無視リストに入れる ②同一ドメイ …

no image

PythonでWebサイトをクローリング・スクレイピングの実践

 各モジュールの公式ドキュメント モジュール バージョン ドキュメントURL 言語 Python 3 https://docs.python.jp/3/index.html 日本語 urllib ht …

no image

mecab

mecabとは? 自然言語処理ライブラリである。 形態素解析 与えられた文章を形態素という文章の最小単位に分解し、その最小単位の品詞や読みを判別すること。 公式ドキュメント MeCab: Yet An …

no image

Python requestsのエラー処理

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …

no image

lxml.etree.ParserError: Document is empty

lxml.etree.ParserError: Document is empty が出た。このとき。 response=requests.get(”https://discussions.apple …