スクレイピング

mecab

投稿日:

mecabとは?

自然言語処理ライブラリである。

形態素解析

与えられた文章を形態素という文章の最小単位に分解し、その最小単位の品詞や読みを判別すること。

公式ドキュメント

MeCab: Yet Another Part-of-Speech and Morphological Analyzer
http://taku910.github.io/mecab/

 

mecabのインストール

インストール

$ sudo apt install mecab
…
done!
update-alternatives: /var/lib/mecab/dic/debian (mecab-dictionary) を提供するために自動モードで /var/lib/mecab/dic/ipadic-utf8 を使います
libc-bin (2.23-0ubuntu9) のトリガを処理しています ...

バージョン確認

$ mecab -v
mecab of 0.996

PythonからMecabを使用する

mecab-python3をインストールする

(pydev1) $ pip install mecab-python3
Successfully installed mecab-python3-0.7

 

mecab-python3のAPI

<class 'module'> MeCab

 

戻り値の型 プロパティ・メソッド名 引数 意味
MeCab.Tagger Tagger() - taggerとはタグをつける人のことである。

<class 'MeCab.Tagger'>

戻り値の型 プロパティ・メソッド名 引数 意味
str parse(str) str ? ?
 MeCab.Node parseToNode(str) str 形態素解析対象となる文章 strを形態素解析する

<class 'MeCab.Node'>

戻り値の型 プロパティ・メソッド名 引数 意味
str surface - 形態素の文字列
例)売却
str feature - 品詞
例)名詞,サ変接続,*,*,*,*,売却,バイキャク,バイキャク
MeCab.Node next() - 次のNodeを返却する

-スクレイピング

Copyright© SIerからWeb系自社開発に転職!失敗して感じたたった1つの後悔 , 2019 All Rights Reserved.