PHPでDOM、WEBスクレイピングを使いサイトの新規記事情報を得ようともがいております。
重複URLのはずがチェックを通り抜ける
「新記事」を得ようとすると、これまでどんな記事を取得したかという記録との照合が必要になります。
爺は、URLをその資料にしました。
ところが、同じタイトルの記事が何回もUPされるのです。不思議~
よく見るとURLは異なる
http://a.jp/abc.html で取得したはずのURLが実は、http://a.jp/abc.html?areyakoreya789 などという具合になっていました。おそらく?以降は「セッション」に関するモノだろうと想像します。セッションということは、アクセスするたびに異なる内容になる…。
すると、URLでDBを突合しても、同じ見出しの記事でも、URLは?以降違う、ということで、通り抜けてしまうことになっていました。
人間の知恵というのは、イロイロとはたらくものです。
「?」からあとは削除する、というURLの補正を加え、やっと思い通りのURLを得ることができ、重複UPを解消することができました…ヤレヤレ…。