スクレイピング

Python BeautifulSoupメモ

投稿日:

BeautifulSoupとは?

Python pipでパッケージ管理されている。HTMLを容易に解析する機能提供する。

BeautifulSoup import宣言

from bs4 import BeautifulSoup

bs4 とは BeautifulSoup4の略である。

スープの作り方

soup = BeautifulSoup(fileオブジェクト, ‘html.parser’)

簡単なAPIを紹介

bs4.element.Tag タグを表すオブジェクト

#name タグ名を取得する
#string 要素の直接の子の中身(文字列)を取得する
#text 要素内の全ての文字を連結した文字列を取得する

タグ内の任意の属性を取得する Tag[‘属性名’]
例 h1タグについているidを取得。

soup.h1['id']

タグ内の全属性を取得する Tag.attrs
例 h1タグについている属性を取得

soup.h1.attrs

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

クローラーとスクレイピングの構成 

くローラーとスクレイピング(スクレイパー?)は分離しておく。 クローラーが最後まで終わってからスクレイピングではなく、クローラーからメッセージを送って、そのタイミングでスクレイピングを開始するようにす …

no image

mecab

mecabとは? 自然言語処理ライブラリである。 形態素解析 与えられた文章を形態素という文章の最小単位に分解し、その最小単位の品詞や読みを判別すること。 公式ドキュメント MeCab: Yet An …

no image

クローラー開発メモ

URLを巡回すると、同じドメインではまってしまう。 URLが期限切れだと、sedo.comというドメイン屋さんで永遠はまってしまう。 だから、 ①sedo.comを巡回無視リストに入れる ②同一ドメイ …

no image

Pythonでスクレイピング

スクレイピングに使えるPythonライブラリ lxml…C言語ライブラリのlibxml2とlibxsltをPythonに組み込んだもの Beautiful…Soup シンプルで分かりやすいAPI py …

no image

Python3 RecursionError: maximum recursion depth exceeded

再起処理の自作URLクローラーを夜回したら、朝起きたら落ちていた。   File “/usr/lib/python3.5/threading.py”, line 224, in __init …