pagetaka

写真、PC、ネット、岡山、旅の話題をお届けします

PHP:htmlのtitle表示は大切

PHPをつかってDOM、WEBスクレイピングしようという、還暦が過ぎた爺のもがきであります。

HTMLの基礎問題にぶちあたる。titleの表示は大切でそのページに適切な内容を

まずは、画像でございまする。
f:id:PageTAKA:20150709094028g:plain
HTMLファイルのヘッダブにある「title」のうち、困ってしまったのが「おてだま」頁の状態です。代表頁と同じなのであります…。「新しいページ1」とかいうのより良いのかもしれませんが、これを作った方の「手抜き」とも「統一表記」ともとれる結果物に、ちょっとひるんでいるところです。

実は爺、この「title」の内容を読みとって、DOM結果の個別記事の見出しとするようPHPで設定していたです。あるサイトをDOMしてみた結果、同じ見出しの記事が何十個もUPされるではありませぬか…。

あちゃ~! こういうこともあるのかと…。

そして、改めてHTMLソースを見ると、記事見出しは、div#のh3という扱いでありました。
h1は、titleの一部と同一。h2は、画像の例でいうと「日本の伝統的なあそび」とでもいえばよいでしょうか、そういった内容が埋め込まれていました。

爺が思うのは、画像の例でいうと、「なわとび|あそびのサイト」みたいな(並びなど表記方法はイロイロありそうですが…)感じです。少なくとも、そのページがなんであるかわかるよう、titleにセットしといていただけたらありがたい…。

具体例でいうと、下の画像のようなことかと。こちらは、個別記事見出しが「title」になっていました。
f:id:PageTAKA:20150709095608j:plain

titleだけではNGとすると…悩む…

対象頁の「title」内容をPHPで読みだせば、個別記事見出しにできると想像していた爺であります。しかし、現実は、なかったり、代表頁「title]がそのまま埋め込まれていたり…。なかなか、人間がする作業の結果というのは、多種多様であります…。見出し用のタグを見つけDOMしなおさないといけないのか…。

課題は増える~。

でもねぇ、個人の趣味のページでというならイザ知らず。それなりにお金もかかっているでしょこのサイト、というようなサイトです。それなりに◎◎では看板サイトじゃないの?、というようなことであります。

納品受けする側の能力も問われている、ということかな…。