Python 書籍・読書

【Python クローリング&スクレイピング】を読んで

投稿日:2017年10月11日 更新日:

紀伊国屋で買いました。
カバー外してます。

クローリングフレームワーク

  • lxml
  • Beautiful Soup
  • Scrapy

クローリング→データ収集
スクレイピング→収集したものからデータ抽出すること

3章

スクレイピングライブラリ

  • lxml
  • BeautifulSoup 内部でlxml使用
  • pyquery 内部でlxml使用

必ず使う

  • XPath
  • CSS

chrome開発者ツールでコピーできる。

lxml

  • lxml.etree
  • lxml.html 壊れたHTMLも扱える
  • lxml.objectfy
  • lxml.sax SAX形式

libxml2,libxsltをインストールしておく必要あり。

pythonからMYSQLはmysqlclient。

MongoDBはNoSQLの一種。

NoSQL RDBより書き込み速い。スクレイピング結果保存に向く。大量ページの同時クローリング・スクレイピングはDB書き込みがボトルネックになることがあるから。

相対→絶対URLの変換は標準のurllib.parse#urljoinで。

4章

セッションを持つクローラー

  • セッション Requestsで対応
  • Referer

Javascriptを解釈するクローラー

  • Seleniumを経由して
  • PhantomJSを使用する

考慮すること

  • 著作権
  • robots.txtは紳士協定
  • クロール先の負荷 同時接続数、クロール間隔
  • 連絡先の明示

繰り返し実行を前提とした設計

  • 更新されたデータだけ取得する

プロキシサーバーでキャッシュ

  • Squid
  • Polipo

クロール先の更新を検知

  • if文で
  • バリデーション Voluptuous
  • smtplibモジュールを使ってメール通知

5章

自然言語処理技術

  • 基本は形態素解析
  • OSSはMeCab

【curl】ファイルのダウンロードやアップロードを行う

pandas

  • 内部でNumPy使用
  • データ分析のためのデータ構造とツールである
  • シリーズ‥1次元のラベルつき配列(行に相当)
  • データフレーム‥2次元の表

matplotlib

  • グラフ描画ライブラリ

クローラー使ってやりたいこと

  • 世界中の国毎の情報まとめサイト
  • 検索エンジン(評価軸を選べる)‥yougleと名付ける!

何でもできそう。

Linuxの勉強にもなる。

AWSの勉強にもなる。

  • MQM
  • EC2

補足・IDE

  • PyCharmが有名・人気。
  • Eclipseのプラグイン PyDevも。

-Python, 書籍・読書

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

PythonでWebサイトをクローリング・スクレイピングの実践

 各モジュールの公式ドキュメント モジュール バージョン ドキュメントURL 言語 Python 3 https://docs.python.jp/3/index.html 日本語 urllib ht …

no image

【書籍】【HOW GOOGLE WORKS】Googleが今ほど巨大になれた理由

Googleが今ほど巨大になった理由は、「優れた検索エンジンを開発したから」だと思っていました。 もしくは、「優れたエンジニアを沢山雇っているから」さらに成長が加速しているのだと思っていました。 どう …

no image

あなたの脳のしつけ方を読んで

た退屈、辛い、飽きる という理由で、決めたことをやめたことがありませんか? 続かなくて、自己嫌悪や反省をしたことはありませんか? 実はそれ、脳の性質であり、あなたの「性格」や「資質」の問題ではないので …

no image

【AI(人口知能)まるわかり】(日経ビジネス)を読んで

 機械学習・ディープラーニングによりAI開発が加速している 機械学習に必要なもの。 大量の学習データ 膨大な計算リソース これらを可能にしたのがgoogleである。計算リソースはGoogle …

no image

時間のない人程、本を読むべき。

本ほど時間短縮になるものはない。 編集者が読みやすく編集してくれてるんだから。 ブログやネットの記事は素人が書いたものであるから、正確性を担保する必要もないし、読みやすく配慮するには時間がかかるから、 …