未分類

Pythonでページ内のリンクを一括抽出する

投稿日:

import requests
import lxml.html

#開始URLにリクエストを投げる
r=requests.get("http://開始URL/")

#レスポンスをパースする
tree=lxml.html.parse(r.content)

#ツリーからHTMLを得る
html=tree.getroot()

#HTMLのAタグを取得する
for a in html.cssselect('a'):

   #Aタグのhref属性を取得する
   print(a.get('href'), a.text)
EOF

内部リンク・外部リンクを判定。
schemeの有無で判定できそう。

関数

リンクをwwwありに整形する
リンクをwwwなしに整形する

urllibが使える。

scheme http://の部分

netloc www.abc.com の部分

いくつかのドメインで検証してみよう。

https://docs.python.jp/3/library/urllib.parse.html

-未分類

Copyright© SIerからWeb系自社開発に転職!失敗して感じたたった1つの後悔 , 2019 All Rights Reserved.