pagetaka

写真、PC、ネット、岡山、旅の話題をお届けします

BLOG

PHP:URLのワナ。重複に引っかからない仕掛け

PHPでDOM、WEBスクレイピングを使いサイトの新規記事情報を得ようともがいております。 重複URLのはずがチェックを通り抜ける 「新記事」を得ようとすると、これまでどんな記事を取得したかという記録との照合が必要になります。 爺は、URLを…

PHP:サーバー接続時間30秒制限と折り合いをつける

PHPでDOM、WEBスクレイピング実現しようと、浅学菲才ならぬ「浅学被災」な状態になっている爺です。レンタルサーバーで連続使用30秒、というのを何とかしようと考えると熱が出そうです。熱が出ても解決できるならともかく、とてもできそうもないという…

PHP:Maximum execution time of 30 seconds exceeded

1(Aサイト) 11:43:39 : DB接続・サイト基本データ取得開始 11:43:39 : DB切断・サイト基本データ取得終了 11:43:39 : サイト表頁 個別記事リンク用DOM開始 11:43:40サイト代表頁で個別記事リンク取得--終了: 11:43:40 : サイト表頁 個別記事リンク…

PHP:htmlのtitle表示は大切

PHPをつかってDOM、WEBスクレイピングしようという、還暦が過ぎた爺のもがきであります。 HTMLの基礎問題にぶちあたる。titleの表示は大切でそのページに適切な内容を まずは、画像でございまする。 HTMLファイルのヘッダブにある「title」のうち、困…

PHP:正規表現でaタグhref要素のリンク先抽出。条件式で文字列処理も使った。

PHPでDOMとかWEBスクレイピングというようなことをやって、RSSがないサイトでも記事更新状況取得を実現したいと妄想・幻想を抱いている耄碌爺です。 目的サイトでaタグの使い方が一般的な書式ではNGとなる例に当たり、単純な正規表現では「href=」に続…

PHP:正規表現で「href」のリンクURLが抽出できない?

PHPでDOMとかWEBスクレイピングし、RSS未設置のサイト更新情報を得たいと妄想中の爺です。今朝は、HTML「a」タグ要素「href」に続くURL(リンク先)を抜き出せないというトラブルに見舞われました…。 経過と状況 昨夜は、Aサイトでpreg_match(正規表現)は…

PHP:DOMしてWPに自動投稿。ひとつのサイトを対象に自サバではできた。

PHPでDOMとかWEBスクレイプングとかいう動作をして、RSSを設けてないサイトの更新情報を取得。それを、Wordpressに自動投稿しようという爺であります。 割りと時間がかかるDOM 21:21:48 -> DB接続・サイト基本データ取得開始 21:21:48 -> DB切断・サイト基本…

PHP:リダイレクト0秒転送にやられる。サイト内・サイト外リンク判定…

PHPでDOMとかWebスクレイピングし、RSS設置してないサイトの更新情報を取得しようと妄想している爺です。DOMするとき、問題なのはどのHTMLタグを対象にするか、ということです。サイトによって使い方が違うですから、気をつけないといけませぬ。次に気づいた…

PHP:配列・配列内の値、どこまで有効。フォーカス範囲を再確認

PHPでイロイロやろうとしてつまずいている爺です。本当は、ひとつのことをやりたくて、それが、うまくいってないという…。DOMなっているんだ…いえ、ドウなっているんだ…などと、寒いダジャレを…作業対象に掛けたツモリ…。昨日は、散歩以外ほとんど家にい…

PHP:結果はOKだけど、「Notice」が表示される「PHP Simple HTML DOM Parser」

「PHP Simple HTML DOM Parser」を「simple_html_dom.php」でやっています。とあるサイトを対象に実行すると「Notice: iconv(): Detected an illegal character in input string in C:\xampp\php\simple_html_dom.php on line 806」というような注意エラーが…

PHP:URL相対指定「.」をtrimする

PHPでDOMとかWEBスクレイピングして、RSSがないサイトでも、その更新情報を取得できるようにしたい、と妄想中の爺です。 サイト内リンクだと相対指定になっている trim-文字列関数-初心者のPHP入門 行事を載せているサイトだと、行事名と日付だけあってあと…

PHP:DOMするHTMLタグを限定する。

前説:PHP:DOM実行エラー。パスを通し忘れ焦る - PageTAKA's blog aタグはいっぱいある インターネットの特性というか、リンクは命であります。それを表すHTMLタグは「a」です。 ひとつ前の記事で「find('a')」と書いて「a」タグ周りの情報を拾いだしたんで…

PHP:DOM実行エラー。パスを通し忘れ焦る

find('a') as $ele){ echo $ele. "<br />"; } ?>上のPHPスクリプトは条件が整っていれば、このブログのHTMLソースにある「a」タグ関連情報を表示します。 Fatal error: Call to undefined function file_g…

「日刊ゲンダイ」デジタル版、月間PV9000万。長めの見出し

ウェブ用には紙面のメイン見出しやサブ見出し、小見出しをまとめて、わかりやすい1本の見出しに書き換える 「日刊ゲンダイ」デジタル版と爺のWEB記事見出しの考え方は近いと思いました。 新聞記事メインの見出しだけをブログ記事の見出しにしても、無味乾燥…

PHP:サイトをDOMして更新状況をWPに自動公開。非RSS

PHPの本をしょぼついた目で読みながらDOMをやろうとしているです。その結果物をWordpressに自動投稿したいと妄想しているのであります。 これまでできたこと XAMPPを自PCにインストールしApacheがうごくようになった。MySQLも稼働。PHPもちゃんとスクリプ…

文字コード:utf8mb4

XAMPPで自サバを動かしながら、PHP作業を進めています(≒実際にはふりだけで、すすんでない)。PHPからExcelファイルの読み書きは少しできたので、MySQLをつかって試してみたいことがある~と妄想。phpMyAdminを使いカラのデータベースをひとつ作りました。…

PHP:DOMをどう進めるか、HTMLタグ、リンクは千差万別…

PHPでDOMをやりまして、サイト情報を自動抽出しようと妄想しています。 PHP: DOMDocument - Manual 外部と内部のリンクが混在。その上、画像がリンク先… サイトの表の頁に出ている記事紹介のリンク、舐めてました。反省。考えてみれば当たり前なんですが…

PHP:Excelを併用して行おうとしていることの再確認

先だってから、WinPC内にインストールしたXAMPPにあるWebサーバApacheを稼働してPHPでイロイロ試しています。PHPにさせるのは、ExcelファイルにセットしたいくつかのURLを順にめぐり、DOMで必要なデータを抽出し、セルに書き込んで保存する、というのが第一…

PHP:htmlのaタグから、リンクと文字を抜き出す

前説:PHP: の検索結果 - PageTAKA's blog DOMでaタグを取得できたけど、絶対リンクで無かった PHPを使って、サイトの更新情報などを得ようと妄想しています。これまでに、特定URLに表示された、HTMLから、たとえばaタグを取得する、というようなことがDO…

PHP:エクセルファイルをPHPで読んだりしてみる

前説:PHP:HTMLタグを頼りに見出しを読みだす - PageTAKA's blog PHPとMySQLをつなぐより、Excelの方が視認しやすいかも PHPとDB(この場合MySQLを想定)をつなぐよりも、PHPとExcelを連携した方が、データの様子がわかりやすい、というか視認しやすい、と…

PHP:HTMLタグを頼りに見出しを読みだす

あらすじ:PHPを使ってHTML文書のh1タグを抜き出すのに、simple_html_dom.php を使う Wordpress(WP)を使っています。よそ様のサイト更新状況をRSS経由で再利用したいと思っているのですが、最近RSS配信しているサイトが減少傾向みたいです(妄想?)…。…

WP:plugin、Rss Post Importer が重たい

公開情報をRSS経由で収集しWP記事に 人様が公開しているネット上の情報を適宜収集しWordpress記事として表示できるプラグインがあります。 WordPress › RSS Post Importer « WordPress Plugins RSSを収集の対象としていて、RSS自体は公開・再利用を意識し…

TypePad:MT派生のCMSだけど、3年くらい前に別サービスに…

まず、MTから。 MovableType(以下MT)は、ブログ発展に大きな役割を果たしたCMSです。爺が初めてブログを意識したのはMTでした。それを簡易な形で、サービスとして使えるようにしたのが、TypePadでした。インストールやセキュリティ、バージョンアッ…

CSS3:ブロックレベルのオブジェクトを中央に揃える

CSSを使う際、CSS2とCSS3で少し違うこともあります。今回は、CSS3のお話し(だろう)と思います。 CSS2で中央揃え 画像をセンタリング(中央揃え)するCSS2つ | web sign* XHTML/CSS~ブロック要素をセンタリングする~ CSS3で中央揃え display:flex; justif…

WP:PlugIn、GoogleMap挿入が簡単にできた

Wordpressを使っています。GoogleMAPをつかおうとその昔努力したのですが、アカウントがどうとかこうとか、わりと面倒だったのを覚えています。久しぶりに使ってみようかと思い、適当なプラグインは無いのかと思い徘徊したです。 プラグイン:Huge IT Google…

WP:「メディアを追加」固まる

WordPress 4.2.2 (Twenty Twelve テーマ)を使っている方から、記事は書くことができるが画像を挿入できない、「メディアを追加」アイコンが反応しなくなった、とのご連絡をいただきました。 似た例は以前からあるみたい 「ESC」キーを押せば解消する admin-a…

WP:新規投稿「公開」ボタン(アイコン)が表示されない

参考にさせていただいた頁:WordPress で新規投稿を追加しようとすると「最新の投稿を表示するページを編集中です。」と表示されて困った話 | 街のWeb屋さん Wordpress:新規投稿の記事入力できるが「公開」ボタンが無い 最近設置したWPなら問題ないのでしょ…

WordPress:プラグイン RSS Post Importer

WordPressにRSSを利用し自動新規投稿 WordPress › RSS Post Importer « WordPress Plugins こちらは、対象となるRSSが更新されるとそれをチェックし、新規にWordpress記事として自動投稿してくれるプラグインです。 WPをリンク集というような位置づけで運用…

XOOPS Cube日本サイト

XOOPS Cube日本サイト - Simple, Secure, Scalable 10年以上前の予測では、MT、Xoops、Wikiが伸びるのだろうと… ええ、爺が会社に勤めていたころ、もう10年以上も前のことだと思います。当時MovableType(MT)が大変な勢いで伸長してたのを記憶しています。…

WP:メールで投稿する。プラグインPostieを使う

WordPressを使っています。メール送信で投稿できる、ということになっています。 WPの設定を使わず、プラグイン「Postie」で設定 WPのダッシュボード→設定→投稿設定→メールでの投稿、で表示される画面は今回使いませんでした。インストールした時の状態とい…