Python スクレイピング

URLの構造

更新日:

http://hoge.sample.com/category/diet?q=drink#ojousama

  • スキーム scheme httpやhttpsのようにプロトコルを表す
  • オーソリティ authority ホスト名やドメインを表す。
  • パス path ホストにおけるリソースのパスを表す。
  • クエリ query パスとは異なるリソースを表す。
  • フラグメント fragment リソース内の特定の位置を表す。

PythonでURLの解析

urllib.parse を使用する。 URL を解析して構成要素にするモジュールである。

>>> from urllib.parse import urlparse
>>> o = urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
>>> o.netloc
'www.cwi.nl:80'
>>> o.hostname
'www.cwi.nl'
>>> o.path
'/%7Eguido/Python.html'

 

しかし、例えば https://discussions.apple.com/このようなURLの場合、

>>>o.hostname
discussions.apple.com

となってしまう。
ドメインだけ取得したい場合は、さらに正規表現などで抽出する必要がある。

<参考>

https://docs.python.jp/3/library/urllib.parse.html

https://wiki.suikawiki.org/n/URL

-Python, スクレイピング

Copyright© SIerからWeb系自社開発に転職!失敗して感じたたった1つの後悔 , 2019 All Rights Reserved.