Python 書籍・読書

【Python クローリング&スクレイピング】を読んで

投稿日:2017年10月11日 更新日:

紀伊国屋で買いました。
カバー外してます。

クローリングフレームワーク

  • lxml
  • Beautiful Soup
  • Scrapy

クローリング→データ収集
スクレイピング→収集したものからデータ抽出すること

3章

スクレイピングライブラリ

  • lxml
  • BeautifulSoup 内部でlxml使用
  • pyquery 内部でlxml使用

必ず使う

  • XPath
  • CSS

chrome開発者ツールでコピーできる。

lxml

  • lxml.etree
  • lxml.html 壊れたHTMLも扱える
  • lxml.objectfy
  • lxml.sax SAX形式

libxml2,libxsltをインストールしておく必要あり。

pythonからMYSQLはmysqlclient。

MongoDBはNoSQLの一種。

NoSQL RDBより書き込み速い。スクレイピング結果保存に向く。大量ページの同時クローリング・スクレイピングはDB書き込みがボトルネックになることがあるから。

相対→絶対URLの変換は標準のurllib.parse#urljoinで。

4章

セッションを持つクローラー

  • セッション Requestsで対応
  • Referer

Javascriptを解釈するクローラー

  • Seleniumを経由して
  • PhantomJSを使用する

考慮すること

  • 著作権
  • robots.txtは紳士協定
  • クロール先の負荷 同時接続数、クロール間隔
  • 連絡先の明示

繰り返し実行を前提とした設計

  • 更新されたデータだけ取得する

プロキシサーバーでキャッシュ

  • Squid
  • Polipo

クロール先の更新を検知

  • if文で
  • バリデーション Voluptuous
  • smtplibモジュールを使ってメール通知

5章

自然言語処理技術

  • 基本は形態素解析
  • OSSはMeCab

【curl】ファイルのダウンロードやアップロードを行う

pandas

  • 内部でNumPy使用
  • データ分析のためのデータ構造とツールである
  • シリーズ‥1次元のラベルつき配列(行に相当)
  • データフレーム‥2次元の表

matplotlib

  • グラフ描画ライブラリ

クローラー使ってやりたいこと

  • 世界中の国毎の情報まとめサイト
  • 検索エンジン(評価軸を選べる)‥yougleと名付ける!

何でもできそう。

Linuxの勉強にもなる。

AWSの勉強にもなる。

  • MQM
  • EC2

補足・IDE

  • PyCharmが有名・人気。
  • Eclipseのプラグイン PyDevも。

-Python, 書籍・読書

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Python mainメソッドと関数メソッドの定義

mainメソッド if __name__ == ‘__main__’: if __name__ == ‘__main__’: #処理の内容 test()   関数メソ …

no image

グーグルに学ぶディープラーニング tensorflow.playgroundの試算

あまりよくなかった。これまでにディープラーニングの入門本は沢山読んできて、ある程度の内容は知っていて、事例を補いたいと思い読んだのですが、「人工知能 解体新書」のほうが有益だった。   気に …

no image

いちばんやさしい機械学習プロジェクトの教本

この本はAIプロジェクトのプロマネ、コンサルは必携の本。 エンジニアもAI案件に携わるなら、全工程を見通すために役に立ちます。 各工程でのポイントがよくまとめられているため、具体的な AIで起業する場 …

no image

Python requestsのエラー処理

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …

no image

決断力の磨き方を読んで

冒頭から素晴らしい言葉が並ぶ。 決めている人ほど悩みが少なく、幸せである複雑にこんがらがった毎日を、スッキリと抜け出す方法がある。考えるのをやめて、決めることに集中することだ。 決められない人ほど不自 …