スクレイピング

クローラー開発メモ

投稿日:2017年11月9日 更新日:

URLを巡回すると、同じドメインではまってしまう。

URLが期限切れだと、sedo.comというドメイン屋さんで永遠はまってしまう。

だから、
①sedo.comを巡回無視リストに入れる
②同一ドメインが何十件も出てきたら一旦スキップする
そういう工夫が必要になる。

URLを巡回すると、2割のページが全体の8割のリンク先を占めている

URL巡回して出てくるURLって決まってるんですね。

facebook
github

そういうゆうところです。そういうところが、全体のトラフィックの8割を占めているんですよ。びっくりしますよね。

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

mecab

mecabとは? 自然言語処理ライブラリである。 形態素解析 与えられた文章を形態素という文章の最小単位に分解し、その最小単位の品詞や読みを判別すること。 公式ドキュメント MeCab: Yet An …

no image

ドメインの取得可否をチェックする

いろんな方法がある。 しかし、最終的にはお名前.comなどで確認しないと取得できるかは分からない。 URLからドメインを抽出する tldextractを使用できる。 https://pypi.pyth …

no image

Python requestsのエラー処理

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …

no image

Pythonでスクレイピング

スクレイピングに使えるPythonライブラリ lxml…C言語ライブラリのlibxml2とlibxsltをPythonに組み込んだもの Beautiful…Soup シンプルで分かりやすいAPI py …

no image

Python3 RecursionError: maximum recursion depth exceeded

再起処理の自作URLクローラーを夜回したら、朝起きたら落ちていた。   File “/usr/lib/python3.5/threading.py”, line 224, in __init …