Python スクレイピング

lxml.etree.ParserError: Document is empty

投稿日:

lxml.etree.ParserError: Document is empty が出た。このとき。

response=requests.get(”https://discussions.apple.com/discussion/create.jspa?sr=cmenu&containerType=14&containerID=2043”)
html=lxml.html.fromstring(response.content)

response.contentの中身を見たら、

b’\n\n\n\n\n<!DOCTYPE html>\n<html lang=”en”>\n\n\n \n\n\n\n \n\n\n<head>\n <meta charset=”utf-8″/>\n <link rel=”shortcut ico

Terms of Use\n </a>\n \n </div>\n </div>\n </section>\n </div>\n</footer>\n\n\n\n\n</html>\n’

このように、ちゃんとコンテンツは入っている。Document is empty(ドキュメントは空)ではない!

対策1 try~except でこのURLはスキップする。

対策2 response.contentに対してチェックをかけてスキップする。

どっちにしてもスキップだ。

-Python, スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

PythonでWebサイトをクローリング・スクレイピングの実践

 各モジュールの公式ドキュメント モジュール バージョン ドキュメントURL 言語 Python 3 https://docs.python.jp/3/index.html 日本語 urllib ht …

no image

Windows7にjupyter notebookをインストールする

Windows7には先にPythonは入っていた。後からjupyterだけを追加する。 基本的には公式サイトhttp://jupyter.org/install.htmlに従う。 PowerShell …

no image

Pythonでスクレイピング

スクレイピングに使えるPythonライブラリ lxml…C言語ライブラリのlibxml2とlibxsltをPythonに組み込んだもの Beautiful…Soup シンプルで分かりやすいAPI py …

no image

環境構築・Pythonのインストール

おまけ Eclipseのプラグイン PyDevをインストールする マーケットプレースで「python」と検索すると出てくる。 インストールしよう。 インストール完了後、再起動を求められる。 再起動しよ …

no image

Python urlibなど、スクレイピングTIPS

Python urlibについて Webページを手軽に取得できる。 HTTPヘッダーのカスタマイズ、Basic認証など複雑な処理は苦手。 サードパーティライブラリのRequestsを使おう。 レスポン …