スクレイピング

クローラー開発メモ

投稿日:2017年11月9日 更新日:

URLを巡回すると、同じドメインではまってしまう。

URLが期限切れだと、sedo.comというドメイン屋さんで永遠はまってしまう。

だから、
①sedo.comを巡回無視リストに入れる
②同一ドメインが何十件も出てきたら一旦スキップする
そういう工夫が必要になる。

URLを巡回すると、2割のページが全体の8割のリンク先を占めている

URL巡回して出てくるURLって決まってるんですね。

facebook
github

そういうゆうところです。そういうところが、全体のトラフィックの8割を占めているんですよ。びっくりしますよね。

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

lxml.etree.ParserError: Document is empty

lxml.etree.ParserError: Document is empty が出た。このとき。 response=requests.get(”https://discussions.apple …

no image

Python BeautifulSoupメモ

BeautifulSoupとは? Python pipでパッケージ管理されている。HTMLを容易に解析する機能提供する。 BeautifulSoup import宣言 from bs4 import …

no image

Python3 RecursionError: maximum recursion depth exceeded

再起処理の自作URLクローラーを夜回したら、朝起きたら落ちていた。   File “/usr/lib/python3.5/threading.py”, line 224, in __init …

no image

PythonでWebサイトをクローリング・スクレイピングの実践

 各モジュールの公式ドキュメント モジュール バージョン ドキュメントURL 言語 Python 3 https://docs.python.jp/3/index.html 日本語 urllib ht …

no image

クローラーのUserAgent

Python Requests でのUserAgent指定方法 >>> url=”http://www.yahoo.co.jp/ >>> userAgent=”Mo …