Python スクレイピング

lxml.etree.ParserError: Document is empty

投稿日:

lxml.etree.ParserError: Document is empty が出た。このとき。

response=requests.get(”https://discussions.apple.com/discussion/create.jspa?sr=cmenu&containerType=14&containerID=2043”)
html=lxml.html.fromstring(response.content)

response.contentの中身を見たら、

b’\n\n\n\n\n<!DOCTYPE html>\n<html lang=”en”>\n\n\n \n\n\n\n \n\n\n<head>\n <meta charset=”utf-8″/>\n <link rel=”shortcut ico

Terms of Use\n </a>\n \n </div>\n </div>\n </section>\n </div>\n</footer>\n\n\n\n\n</html>\n’

このように、ちゃんとコンテンツは入っている。Document is empty(ドキュメントは空)ではない!

対策1 try~except でこのURLはスキップする。

対策2 response.contentに対してチェックをかけてスキップする。

どっちにしてもスキップだ。

-Python, スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

python3のloggingを呼ぶための自作logger.pyは作るときにハマったこと

python3 の標準ログ出力モジュールであるlogging。 これを自作のlogger.pyにあるgetLoggerから返そうとした。 loggerの取得を共通関数化したかったからです。 すると、メ …

no image

スクレイピングで使用するlinuxコマンド

wget ファイルをダウンロードする $ wget http://www.yahoo.co.jp/ オプション 意味 例 -P 保存先ディレクトリを指定する wget -P dataset bzcat …

no image

【Python クローリング&スクレイピング】を読んで

紀伊国屋で買いました。 カバー外してます。 クローリングフレームワーク lxml Beautiful Soup Scrapy クローリング→データ収集 スクレイピング→収集したものからデータ抽出するこ …

no image

Python3 RecursionError: maximum recursion depth exceeded

再起処理の自作URLクローラーを夜回したら、朝起きたら落ちていた。   File “/usr/lib/python3.5/threading.py”, line 224, in __init …

no image

URLの構造

http://hoge.sample.com/category/diet?q=drink#ojousama スキーム scheme httpやhttpsのようにプロトコルを表す オーソリティ auth …