pagetaka

写真、PC、ネット、岡山、旅の話題をお届けします

PHP:HTMLをパースする

さて、PHPでDOMとかWEBスクレイピングとかやっておるですが、なかなか、効率が悪いです…。いろんなサイトがあって、いろんなHTMLの書き方になっています。一部にはNGは表記を使っていたり、現在では非推奨になっているのとか、JSが立ちはだかっていたり…。

で、次のステップを何か考えないといけんです…。ということで、HTMLをXML的につかむことのできる「解析」を実行してくれる道具を上手に使えたら…どうなるだろうかと…。

暑さで気力が萎えた午後、とりあえず備忘録程度に残しておくです…。