スクレイピング

クローラー開発メモ

投稿日:2017年11月9日 更新日:

URLを巡回すると、同じドメインではまってしまう。

URLが期限切れだと、sedo.comというドメイン屋さんで永遠はまってしまう。

だから、
①sedo.comを巡回無視リストに入れる
②同一ドメインが何十件も出てきたら一旦スキップする
そういう工夫が必要になる。

URLを巡回すると、2割のページが全体の8割のリンク先を占めている

URL巡回して出てくるURLって決まってるんですね。

facebook
github

そういうゆうところです。そういうところが、全体のトラフィックの8割を占めているんですよ。びっくりしますよね。

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

クローラーとスクレイピングの構成 

くローラーとスクレイピング(スクレイパー?)は分離しておく。 クローラーが最後まで終わってからスクレイピングではなく、クローラーからメッセージを送って、そのタイミングでスクレイピングを開始するようにす …

no image

クローラーのUserAgent

Python Requests でのUserAgent指定方法 >>> url=”http://www.yahoo.co.jp/ >>> userAgent=”Mo …

no image

スクレイピングで使用するlinuxコマンド

wget ファイルをダウンロードする $ wget http://www.yahoo.co.jp/ オプション 意味 例 -P 保存先ディレクトリを指定する wget -P dataset bzcat …

no image

lxml.etree.ParserError: Document is empty

lxml.etree.ParserError: Document is empty が出た。このとき。 response=requests.get(”https://discussions.apple …

no image

URLの構造

http://hoge.sample.com/category/diet?q=drink#ojousama スキーム scheme httpやhttpsのようにプロトコルを表す オーソリティ auth …