PHP Simple HTML DOM Parserでタイトルタグ内の文字列を取得する:PHP

ライブラリをインクルードしてたった数行で、WEBスクレイピング(HTML内を部分的に取り出し、表示する)ができる恐ろしいPHPライブラリを見つけました。

ライブラリは上記よりダウンロードできます。

<?php
include_once($_SERVER['DOCUMENT_ROOT']."/lib/simplehtmldom/simple_html_dom.php");
$html = file_get_html('http://qwerty.work');  
foreach($html->find('title') as $row)
$row = $row->plaintext;
$row = mb_convert_encoding($row, mb_internal_encoding(), "auto" );  
echo $row;
?>

たったこれだけで取得できます。

find()で取り出したい条件や要素を記入するだけです。

恐ろしく簡単で便利なのはタグはもちろん、idやclassも指定できるし、そのタグ自体を抽出することもできます。

検索結果の一覧や、リンク集なども楽に抽出ができそうな感じです。

その他の使い方などは「PHP Simple HTML DOM Parserマニュアルページ」を参照してみてください。

参考サイト

関連記事

前へ

htmlSQLを使ってタイトルタグ内の文字列を取得する:PHP

次へ

Javascriptでできるインクルード:sprinkle.js