読者です 読者をやめる 読者になる 読者になる

PageTAKA's blog

写真、PC、ネット、岡山の話題をお届けします

原発ゼロをめざす岡山アクション○毎週金曜日お昼12:15から中国電力岡山支社周辺(岡山市北区内山下1-11-1)○連絡先:岡山県労会議内の実行委員会、086-221-0133

よそさまのサイト情報をお借りする:RSS、JSON、DOM、API、XML

ネット、情報端末 備忘録

Wordpressがらみのおはなしです。

RSS

文字情報を一定形式にまとめた「文書フォーマット」の一種類…。JavaScriptなどのように「動く」というような「言語」とはことなるです。

RSSは、ブログ記事内容等をXML形式にまとめ、世間に知ってもらったり再利用してもらい、自サイト訪問をしてもらおうというような趣旨で流通しています。
e-words.jp

特別な許可も必要なく、Wordpressでは、RSSのURLを利用して、サイドバー表示するウィジットがあらかじめ用意されています。ありがたい限りです…。この、RSSを設置しないサイトが最近多くなっているんですよね…シクシク。サーバの負担や利用制限をかけることができない、というようなことでしょうか…。

JSON

こちらも「文書フォーマット」(≒文書表現書式)のひとつ。
JSONRSSと似たようなことですが、読み込むのにちょっとした技術や「許可」「登録」が必要になります。APIの登場であります。
このため、サーバの側からコントロールしやすいというメリットがあることになります。

JSONRSSと同様、再利用を目的に一定の制約、たとえば「アクセス許可」「アプリ登録」「アクセス回数制限」などのもとに利用できる形式です。JavaScriptとの相性が良いそうです。JSONPは、JSONをよそ様のサイト、つまりドメインが違う状態(≒クロスドメイン)でもつかえるようしたもの…とのこと。

JSONPJavaScriptで利用する初歩的なことができるようになりました。
pagetaka.hatenablog.com

WEBスクレイピング

こちらは、先の二つとは違う手法で、よそ様のサイト情報を「お借りする」というような作業です。この記事の見出しでは「DOM」と書いたことに一番関係するです。

公開されているWebページは、その背後で動いているのがPHPであろうとJavaScriptであろうと、とりあえず最終形はWeb表現の王者「HTML」として表現されている、というのを利用するです。
爺は表示されたページのHTMLタグやプロパティなどから、必要なリンク先やタグの規則性を見つけ、それをPHPで構成しなおす、というようなことを昨年の夏に一応なんとかできるようになったです。
pagetaka.hatenablog.com
でも、この方法は、力技という感じがするです…。よそ様のサイトが、こういう状態を喜ぶかどうかは検討する必要がありそうですしね…。

API利用:最近やっていること

RSSが減少しても、意外だったのがXML形式でAPI利用を前提としたサイト情報提供があることでした。WEBサイトは見てもらってナンボ、という世界であります。情報を提供するから見に来てね、良かったら「買ってね」などという塩梅なわけです。暴走しないよう、APIで提供側がコントロールしているという情景です。

昨日できたのは、PHP言語を使い、XMLで表現されたデータ・情報をAPI経由で読み込み、Wordpress記事に追記する、という作業でした。
pagetaka.hatenablog.com

よそ様のサイト情報をお借りする、というのでこれまでにできたことをまとめると、

というようなことになります。

残っているのは、PHPでAPI経由JSON読み取り・表示、というようなことになるでしょうか…。ここまでできたら、なにかをする準備が整った、といえるのかも知れませぬ…はい。

Wordpressを前提とする限り、JavaScriptをつかうよりはPHPのほうがソースのセキュリティなどを考えても有利だな、と思った次第です。もっとも、セキュリティに関係しそうなところだけPHPにして、JavaScriptでAPIがらみのところを処理するというのも一案、などと妄想・暴走する爺でありました…さて、どうなりますか…。