読者です 読者をやめる 読者になる 読者になる

PageTAKA's blog

写真、PC、ネット、岡山の話題をお届けします

原発ゼロをめざす岡山アクション○毎週金曜日お昼12:15から中国電力岡山支社周辺(岡山市北区内山下1-11-1)○連絡先:岡山県労会議内の実行委員会、086-221-0133

PHP:URLのワナ。重複に引っかからない仕掛け

ネット、情報端末 BLOG HP PC

PHPでDOM、WEBスクレイピングを使いサイトの新規記事情報を得ようともがいております。

重複URLのはずがチェックを通り抜ける

「新記事」を得ようとすると、これまでどんな記事を取得したかという記録との照合が必要になります。
爺は、URLをその資料にしました。
ところが、同じタイトルの記事が何回もUPされるのです。不思議~

よく見るとURLは異なる

http://a.jp/abc.html で取得したはずのURLが実は、http://a.jp/abc.html?areyakoreya789 などという具合になっていました。おそらく?以降は「セッション」に関するモノだろうと想像します。セッションということは、アクセスするたびに異なる内容になる…。

すると、URLでDBを突合しても、同じ見出しの記事でも、URLは?以降違う、ということで、通り抜けてしまうことになっていました。

人間の知恵というのは、イロイロとはたらくものです。

「?」からあとは削除する、というURLの補正を加え、やっと思い通りのURLを得ることができ、重複UPを解消することができました…ヤレヤレ…。