スクレイピング

クローラーのUserAgent

投稿日:

Python Requests でのUserAgent指定方法

>>> url="http://www.yahoo.co.jp/
 >>> userAgent="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"
>>> headers = {'User-Agent': userAgent}
>>> requests.get(url, headers=headers)

あなたのブラウザのUAはこれ→UA調べる君

もっとfakeするなら UserAgentモジュールを使う

>>> from fake_useragent import UserAgent
>>> ua = UserAgent()
>>> ua.chrome
u'Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1667.0 Safari/537.36'
>>> ua.random
u'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36'

<参考>
https://stackoverflow.com/questions/27652543/how-to-use-python-requests-to-fake-a-browser-visit

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

スクレイピングで使用するlinuxコマンド

wget ファイルをダウンロードする $ wget http://www.yahoo.co.jp/ オプション 意味 例 -P 保存先ディレクトリを指定する wget -P dataset bzcat …

no image

Pythonでスクレイピング

スクレイピングに使えるPythonライブラリ lxml…C言語ライブラリのlibxml2とlibxsltをPythonに組み込んだもの Beautiful…Soup シンプルで分かりやすいAPI py …

no image

PythonでWebサイトをクローリング・スクレイピングの実践

 各モジュールの公式ドキュメント モジュール バージョン ドキュメントURL 言語 Python 3 https://docs.python.jp/3/index.html 日本語 urllib ht …

no image

クローラーとスクレイピングの構成 

くローラーとスクレイピング(スクレイパー?)は分離しておく。 クローラーが最後まで終わってからスクレイピングではなく、クローラーからメッセージを送って、そのタイミングでスクレイピングを開始するようにす …

no image

Python requestsのエラー処理

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …