PHPをつかってDOM、WEBスクレイピングしようという、還暦が過ぎた爺のもがきであります。
HTMLの基礎問題にぶちあたる。titleの表示は大切でそのページに適切な内容を
まずは、画像でございまする。
HTMLファイルのヘッダブにある「title」のうち、困ってしまったのが「おてだま」頁の状態です。代表頁と同じなのであります…。「新しいページ1」とかいうのより良いのかもしれませんが、これを作った方の「手抜き」とも「統一表記」ともとれる結果物に、ちょっとひるんでいるところです。
実は爺、この「title」の内容を読みとって、DOM結果の個別記事の見出しとするようPHPで設定していたです。あるサイトをDOMしてみた結果、同じ見出しの記事が何十個もUPされるではありませぬか…。
あちゃ~! こういうこともあるのかと…。
そして、改めてHTMLソースを見ると、記事見出しは、div#のh3という扱いでありました。
h1は、titleの一部と同一。h2は、画像の例でいうと「日本の伝統的なあそび」とでもいえばよいでしょうか、そういった内容が埋め込まれていました。
爺が思うのは、画像の例でいうと、「なわとび|あそびのサイト」みたいな(並びなど表記方法はイロイロありそうですが…)感じです。少なくとも、そのページがなんであるかわかるよう、titleにセットしといていただけたらありがたい…。
具体例でいうと、下の画像のようなことかと。こちらは、個別記事見出しが「title」になっていました。
titleだけではNGとすると…悩む…
対象頁の「title」内容をPHPで読みだせば、個別記事見出しにできると想像していた爺であります。しかし、現実は、なかったり、代表頁「title]がそのまま埋め込まれていたり…。なかなか、人間がする作業の結果というのは、多種多様であります…。見出し用のタグを見つけDOMしなおさないといけないのか…。
課題は増える~。
でもねぇ、個人の趣味のページでというならイザ知らず。それなりにお金もかかっているでしょこのサイト、というようなサイトです。それなりに◎◎では看板サイトじゃないの?、というようなことであります。
納品受けする側の能力も問われている、ということかな…。