読者です 読者をやめる 読者になる 読者になる

PageTAKA's blog

写真、PC、ネット、岡山の話題をお届けします

原発ゼロをめざす岡山アクション○毎週金曜日お昼12:15から中国電力岡山支社周辺(岡山市北区内山下1-11-1)○連絡先:岡山県労会議内の実行委員会、086-221-0133

PHP:HTMLをパースする

さて、PHPでDOMとかWEBスクレイピングとかやっておるですが、なかなか、効率が悪いです…。いろんなサイトがあって、いろんなHTMLの書き方になっています。一部にはNGは表記を使っていたり、現在では非推奨になっているのとか、JSが立ちはだかっていたり…。

で、次のステップを何か考えないといけんです…。ということで、HTMLをXML的につかむことのできる「解析」を実行してくれる道具を上手に使えたら…どうなるだろうかと…。

暑さで気力が萎えた午後、とりあえず備忘録程度に残しておくです…。