スクレイピング

スクレイピングで使用するlinuxコマンド

投稿日:

wget ファイルをダウンロードする

$ wget http://www.yahoo.co.jp/
オプション 意味
-P 保存先ディレクトリを指定する wget -P dataset

bzcat 「bzip2」コマンドで圧縮された圧縮ファイルの中身を確認する

$ bzcat 圧縮ファイル名

less テキスト・ファイルの内容を閲覧する

$ less ファイル名

操作

↑キー ↓キー 次行を閲覧する
qキー 閲覧を終了する

類似

$ cat ファイル名

catコマンドはファイルの中身を全て出力する。lessコマンドは上下キーで一行ずつ閲覧する。

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

mecab

mecabとは? 自然言語処理ライブラリである。 形態素解析 与えられた文章を形態素という文章の最小単位に分解し、その最小単位の品詞や読みを判別すること。 公式ドキュメント MeCab: Yet An …

no image

クローラーとスクレイピングの構成 

くローラーとスクレイピング(スクレイパー?)は分離しておく。 クローラーが最後まで終わってからスクレイピングではなく、クローラーからメッセージを送って、そのタイミングでスクレイピングを開始するようにす …

no image

lxml.etree.ParserError: Document is empty

lxml.etree.ParserError: Document is empty が出た。このとき。 response=requests.get(”https://discussions.apple …

no image

Python requestsのエラー処理

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …

no image

ドメインの取得可否をチェックする

いろんな方法がある。 しかし、最終的にはお名前.comなどで確認しないと取得できるかは分からない。 URLからドメインを抽出する tldextractを使用できる。 https://pypi.pyth …