読者です 読者をやめる 読者になる 読者になる

PageTAKA's blog

写真、PC、ネット、岡山の話題をお届けします

原発ゼロをめざす岡山アクション○毎週金曜日お昼12:15から中国電力岡山支社周辺(岡山市北区内山下1-11-1)○連絡先:岡山県労会議内の実行委員会、086-221-0133

PHP:DOMをどう進めるか、HTMLタグ、リンクは千差万別…

PHPでDOMをやりまして、サイト情報を自動抽出しようと妄想しています。

外部と内部のリンクが混在。その上、画像がリンク先…

サイトの表の頁に出ている記事紹介のリンク、舐めてました。反省。

考えてみれば当たり前なんですが、すべて自サイト内とは限らない…。これは、例えば、最初の4字が「http」であるのかどうかというような、文字比較をすればOKです。このあとに条件分岐をつかって絶対リンクをつくりあげれば「カンペキ」!と思ったです。しかし、落とし穴が…。リンク先がPDFで、それは実は「画像」だったという…。悲しい現実…。つまり、文字情報とするにはOCRしないと…。これは使えない…。まあ、それこそ画像PDFがリンク先なら、排除するという条件分岐を含めるというようなことになるのかな…あ・イヤ・爺にはもうそれ面倒…アキラメル。縁談を断るときの「過ぎたご縁」(≠スギタ誤嚥)というパターンであります。そういうサイトはDOMする対象からはずす…。

どのhtmlタグに必要な情報があるか千差万別

これも当たり前なんですが、どのhtmlタグに抽出したい情報があるかサイトによって千差万別なんですよね…。ピンポイント的にはaタグなんですけど、実はこれはピンポイントではなく、ゼネラルな状態…。

で、いくつかのタグを組み合わせ必要なaタグ情報を抽出できるか、ということで、DOM対象のサイトの作り方を見ていく作業が…。そして、表のページには、およそタイトルとリンク先+α程度の情報しかないので、実際に記事がある頁にたどり着き、そのURL、タイトル、本文のサワリ、などを抽出する…という作業が必要になるのかと。まあ、画像を排除するとか、足したり引いたりの作業があるです…。そして、終了情報も掲載している…掲載対象からはずす仕掛けが必要になる…。

複数サイトを一気にやるより…

爺は、横着を考えていたです。当初、リンク構造とか、予想範囲内だろうと。なので、一気に複数サイトを対象にした、ある程度汎用性のあるPHPを書いた方が「ラク」なのだろというような、横着であります。

そして、イロイロやってみて、必要な記事にたどり着くリンクが結構面倒だと思い至ったのでありました。

ということは、遠回りに見えるかもしれんけど(実際、遠回り、面倒なんだけど)、ひとつのサイトにフィットしたPHP書いて動くようにするのが先かな、と。それがうまく動いてくれたら、また次のPHPを別に作り、最後に、次々とチェーンにすればいいじゃん、などと…。ええ、そういった妄想をしているです。

若いころなら、一気に複数サイトをDOMする、というのをがむしゃらにやっていたでしょうが、もうそんな元気は無いです。まず、ひとつ…なんとかできるようにしてみよう、と…これも妄想で終わるのか? イヤイヤ、なんとかしたい!≒妄想