未分類

Pythonでページ内のリンクを一括抽出する

投稿日:

import requests
import lxml.html

#開始URLにリクエストを投げる
r=requests.get("http://開始URL/")

#レスポンスをパースする
tree=lxml.html.parse(r.content)

#ツリーからHTMLを得る
html=tree.getroot()

#HTMLのAタグを取得する
for a in html.cssselect('a'):

   #Aタグのhref属性を取得する
   print(a.get('href'), a.text)
EOF

内部リンク・外部リンクを判定。
schemeの有無で判定できそう。

関数

リンクをwwwありに整形する
リンクをwwwなしに整形する

urllibが使える。

scheme http://の部分

netloc www.abc.com の部分

いくつかのドメインで検証してみよう。

https://docs.python.jp/3/library/urllib.parse.html

-未分類

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Python3 勉強サイト

python3 ドキュメントhttps://docs.python.org/ja/3/ ここが一番勉強になります。通勤電車などでコツコツ読み進めるといいですよ。

no image

Jenkinsを使うインターネット企業

Paypal 4000人が対象。 ・1日当たり3万2000回のビルド ・1日当たり1000回のデプロイ作業 http://itpro.nikkeibp.co.jp/atcl/column/15/061 …

no image

AWSでの冗長化策

冗長化の基本 複数のAZに渡ってリソースを配置すること。 良くない例)AZ1 EC2-A EC2-B 良い例)AZ1 EC2-A,AZ2 EC2-B リージョン内に複数のAZがある。 AZが1つのデー …

no image

インターネットサービスの売却価格

youtube→Google 810億円 開始2年で。

no image

AI研究で必要なテクノロジー・要素

教師データを集めること 大規模分散処理(ビッグデータ) 統計?