「 スクレイピング 」 一覧

no image

Python3 RecursionError: maximum recursion depth exceeded

2017/11/14   -Python, スクレイピング

再起処理の自作URLクローラーを夜回したら、朝起きたら落ちていた。   File “/usr/lib/python3.5/threading.py”, line 224, in __init …

no image

Python requestsのエラー処理

2017/11/13   -Python, スクレイピング

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …

no image

クローラーのUserAgent

2017/11/13   -スクレイピング

Python Requests でのUserAgent指定方法 >>> url=”http://www.yahoo.co.jp/ >>> userAgent=”Mo …

no image

ドメインの取得可否をチェックする

2017/11/12   -スクレイピング

いろんな方法がある。 しかし、最終的にはお名前.comなどで確認しないと取得できるかは分からない。 URLからドメインを抽出する tldextractを使用できる。 https://pypi.pyth …

no image

lxml.etree.ParserError: Document is empty

2017/11/11   -Python, スクレイピング

lxml.etree.ParserError: Document is empty が出た。このとき。 response=requests.get(”https://discussions.apple …

no image

クローラー開発メモ

2017/11/09   -スクレイピング

URLを巡回すると、同じドメインではまってしまう。 URLが期限切れだと、sedo.comというドメイン屋さんで永遠はまってしまう。 だから、 ①sedo.comを巡回無視リストに入れる ②同一ドメイ …

no image

Python-Scrapyを使う

2017/10/24   -Python, Scrapy

Scrapyとは? Scrapyはクローリング・スクレイピングのためのPythonのフレームワークである。 Scrapyを使うと、プログラマーはサイトごとの個別処理を書けばよく、その他の面倒なことをフ …

no image

mecab

2017/10/23   -スクレイピング

mecabとは? 自然言語処理ライブラリである。 形態素解析 与えられた文章を形態素という文章の最小単位に分解し、その最小単位の品詞や読みを判別すること。 公式ドキュメント MeCab: Yet An …

no image

スクレイピングで使用するlinuxコマンド

2017/10/23   -スクレイピング

wget ファイルをダウンロードする $ wget http://www.yahoo.co.jp/ オプション 意味 例 -P 保存先ディレクトリを指定する wget -P dataset bzcat …

no image

URLの構造

2017/10/22   -Python, スクレイピング

http://hoge.sample.com/category/diet?q=drink#ojousama スキーム scheme httpやhttpsのようにプロトコルを表す オーソリティ auth …