PHP Simple HTML DOM Parserでタイトルタグ内の文字列を取得する:PHP

ライブラリをインクルードしてたった数行で、WEBスクレイピング(HTML内を部分的に取り出し、表示する)ができる恐ろしいPHPライブラリを見つけました。

Link

301 Moved Permanently

http://sourceforge.net/projects/simplehtmldom/

ライブラリは上記よりダウンロードできます。

<?php

    include_once($_SERVER['DOCUMENT_ROOT']."/lib/simplehtmldom/simple_html_dom.php");
    
    $html = file_get_html('http://qwerty.work');  
       
    foreach($html->find('title') as $row)
    $row = $row->plaintext;
    $row = mb_convert_encoding($row, mb_internal_encoding(), "auto" );  
    echo $row;

?>

たったこれだけで取得できます。

find()で取り出したい条件や要素を記入するだけです。

恐ろしく簡単で便利なのはタグはもちろん、idやclassも指定できるし、そのタグ自体を抽出することもできます。

検索結果の一覧や、リンク集なども楽に抽出ができそうな感じです。

その他の使い方などは「PHP Simple HTML DOM Parserマニュアルページ」を参照してみてください。

参考サイト

Link

Htmlsqlよりアツい!?jqueryみたいにセレクタでHtmlをparse(解析)する「Php Simple Html Dom Parser」 | Itキヲスク

http://smkn.xsrv.jp/blog/2010/02/php_simple_html_dom_parser/

関連記事

PAGETOP