Python スクレイピング

lxml.etree.ParserError: Document is empty

投稿日:

lxml.etree.ParserError: Document is empty が出た。このとき。

response=requests.get(”https://discussions.apple.com/discussion/create.jspa?sr=cmenu&containerType=14&containerID=2043”)
html=lxml.html.fromstring(response.content)

response.contentの中身を見たら、

b’\n\n\n\n\n<!DOCTYPE html>\n<html lang=”en”>\n\n\n \n\n\n\n \n\n\n<head>\n <meta charset=”utf-8″/>\n <link rel=”shortcut ico

Terms of Use\n </a>\n \n </div>\n </div>\n </section>\n </div>\n</footer>\n\n\n\n\n</html>\n’

このように、ちゃんとコンテンツは入っている。Document is empty(ドキュメントは空)ではない!

対策1 try~except でこのURLはスキップする。

対策2 response.contentに対してチェックをかけてスキップする。

どっちにしてもスキップだ。

-Python, スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Ubuntu16.04にPython3環境を構築する

Ubuntu16.04をインストールしたら、この順でやっていこう。 1.aptのパッケージリスト最新化 $ sudo apt update   2.Python3の最新化 $ sudo ap …

no image

Windows7にjupyter notebookをインストールする

Windows7には先にPythonは入っていた。後からjupyterだけを追加する。 基本的には公式サイトhttp://jupyter.org/install.htmlに従う。 PowerShell …

no image

Python-Scrapyを使う

Scrapyとは? Scrapyはクローリング・スクレイピングのためのPythonのフレームワークである。 Scrapyを使うと、プログラマーはサイトごとの個別処理を書けばよく、その他の面倒なことをフ …

no image

Python requestsのエラー処理

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …

no image

スクレイピングで使用するlinuxコマンド

wget ファイルをダウンロードする $ wget http://www.yahoo.co.jp/ オプション 意味 例 -P 保存先ディレクトリを指定する wget -P dataset bzcat …