スクレイピング

ドメインの取得可否をチェックする

投稿日:2017年11月12日 更新日:

いろんな方法がある。
しかし、最終的にはお名前.comなどで確認しないと取得できるかは分からない。

URLからドメインを抽出する

tldextractを使用できる。

https://pypi.python.org/pypi/tldextract

import tldextract
>>> ext = tldextract.extract('http://forums.bbc.co.uk')
>>> (ext.subdomain, ext.domain, ext.suffix)
('forums', 'bbc', 'co.uk')

 

tldextractがpip管理されているか確認する

$ python -m pip search tldextract
tldextract (2.2.0) - Accurately separate the TLD from the registered domain
 and subdomains of a URL, using the Public Suffix List.
 By default, this includes the public ICANN TLDs and
 their exceptions. You can optionally support the Public
 Suffix List's private domains as well.

tldextractのインストール

$ pip install tldextract
…
Successfully installed requests-file-1.4.2 six-1.11.0 tldextract-2.2.0

 

 

成功した。

socket.gethostbyname_exを使う方法

import socket
domain="sonzaisinaidomain.jp"
ip = socket.gethostbyname_ex(domain)
print(ip)
socket.gaierror: [Errno -2] Name or service not known

ソケットSocket)とは、BSDUNIXを起源とするAPIであり、C言語によるアプリケーション開発でのプロセス間通信、特にコンピュータネットワークに関するライブラリを構成する。   

ネットワークの抽象化インタフェースとしてのデファクトスタンダードとなっている。

ローカルにネームサーバが動作していない場合、/etc/hosts ファイルを参照する。

https://docs.python.jp/3/library/socket.html

PyDNSを使う方法

http://pydns.sourceforge.net

 

どんな方法を使っても、DNS解決の可否やレスポンスコードのチェックはあくまで一次チェックにすぎない。

最終的にはお名前.comのようなレジストラでチェックしないといけない。

AWS Route53で最終チェックできないか?

Route53 API公式ドキュメント

324PにCheckDomainAvailabilityというのがある。

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

lxml.etree.ParserError: Document is empty

lxml.etree.ParserError: Document is empty が出た。このとき。 response=requests.get(”https://discussions.apple …

no image

スクレイピングで使用するlinuxコマンド

wget ファイルをダウンロードする $ wget http://www.yahoo.co.jp/ オプション 意味 例 -P 保存先ディレクトリを指定する wget -P dataset bzcat …

no image

クローラーのUserAgent

Python Requests でのUserAgent指定方法 >>> url=”http://www.yahoo.co.jp/ >>> userAgent=”Mo …

no image

Python BeautifulSoupメモ

BeautifulSoupとは? Python pipでパッケージ管理されている。HTMLを容易に解析する機能提供する。 BeautifulSoup import宣言 from bs4 import …

no image

PythonでWebサイトをクローリング・スクレイピングの実践

 各モジュールの公式ドキュメント モジュール バージョン ドキュメントURL 言語 Python 3 https://docs.python.jp/3/index.html 日本語 urllib ht …