pagetaka

写真、PC、ネット、岡山、旅の話題をお届けします

スクレイピング の検索結果:

PHP:本日のお勉強は、外に置いた「関数」(function)

…せぬ。昨年、「WEBスクレイピング」「DOM」をやったとき、ひとまずは経験したことなのですが、痴呆進行中につき、記憶は皆無…あるのはテキストに浸かった、イエ「使った」本だけであります…グスン。まあ、毎日が日曜日なわけで、ゆっくりと格闘中(のふり?)…。WordPressで学ぶPHP ?関数編作者: 藤本 壱発売日: 2014/08/16メディア: Kindle版この商品を含むブログを見るイラストでよくわかるPHP はじめてのWebプログラミング入門作者: 岡本雄樹,アシアル株…

よそさまのサイト情報をお借りする:RSS、JSON、DOM、API、XML

…og.com WEBスクレイピング こちらは、先の二つとは違う手法で、よそ様のサイト情報を「お借りする」というような作業です。この記事の見出しでは「DOM」と書いたことに一番関係するです。 ウェブスクレイピング - Wikipedia 公開されているWebページは、その背後で動いているのがPHPであろうとJavaScriptであろうと、とりあえず最終形はWeb表現の王者「HTML」として表現されている、というのを利用するです。 爺は表示されたページのHTMLタグやプロパティな…

PHP:HTMLをパースする

…使用方法 - Webスクレイピング ライブラリ PHPでHTMLをパースする | zaru blog PHPでHTMLをパースして解析する簡単な方法 | 三度の飯とエレクトロン PHPでHTMLをパースして解析、編集して保存する方法 - さとうさんのキロク さて、PHPでDOMとかWEBスクレイピングとかやっておるですが、なかなか、効率が悪いです…。いろんなサイトがあって、いろんなHTMLの書き方になっています。一部にはNGは表記を使っていたり、現在では非推奨になっているのと…

PHP:Webスクレイピングのスクリプト、レンタルサーバーで動いた

…HPでDOM、WEBスクレイピングなどして、RSSが無いサイトでも、記事の更新情報を取得したいと6月上旬からどりょくしたふりの爺でありました。 とあるレンタルサバに移植。PDO接続でエラー 自サバからレンタルサバですから、MySQL(DB)関係の書き直しは当然でありますので、そのあたりはバッチリ!さて、と動かしてみると次のようなエラーがでました。 SQLSTATE[HY000] [1045] Access denied for user ''@'x.x.x.x' (using…

PHP:WEBスクレイピング

「Webスクレイピングとは (Web scraping) ウェブスクレイピング: - IT用語辞典バイナリ」をやろうともがいている(≒あがいている)爺です。使っているのはPHPです。これまでのまとめと、この先の課題をまとめておこうかと思っています。 自サバではおよそできた、PHP配列ポインタ、DOM、正規表現などで苦労した~ 自サバでは、いくつかのサイトを巡回し、狙ったタグを目印に、タイトルや平文を抜き出すのを自動的にできるようになりました。作業で苦労したのは次のようなことで…

PHP:URLのワナ。重複に引っかからない仕掛け

…HPでDOM、WEBスクレイピングを使いサイトの新規記事情報を得ようともがいております。 重複URLのはずがチェックを通り抜ける 「新記事」を得ようとすると、これまでどんな記事を取得したかという記録との照合が必要になります。 爺は、URLをその資料にしました。 ところが、同じタイトルの記事が何回もUPされるのです。不思議~ よく見るとURLは異なる http://a.jp/abc.html で取得したはずのURLが実は、http://a.jp/abc.html?areyako…

PHP:サーバー接続時間30秒制限と折り合いをつける

…HPでDOM、WEBスクレイピング実現しようと、浅学菲才ならぬ「浅学被災」な状態になっている爺です。レンタルサーバーで連続使用30秒、というのを何とかしようと考えると熱が出そうです。熱が出ても解決できるならともかく、とてもできそうもないというのが、爺の「被災」状況です。 1回の巡回で取得する件数を少なくする これまで、以前取得してないURLはすべて調べるということにしていました。その結果、1サイトでも10秒以上かかるというようなことになっておりました。ここを短くするにはスクリ…

PHP:htmlのtitle表示は大切

…かってDOM、WEBスクレイピングしようという、還暦が過ぎた爺のもがきであります。 HTMLの基礎問題にぶちあたる。titleの表示は大切でそのページに適切な内容を まずは、画像でございまする。 HTMLファイルのヘッダブにある「title」のうち、困ってしまったのが「おてだま」頁の状態です。代表頁と同じなのであります…。「新しいページ1」とかいうのより良いのかもしれませんが、これを作った方の「手抜き」とも「統一表記」ともとれる結果物に、ちょっとひるんでいるところです。実は爺…

PHP:正規表現でaタグhref要素のリンク先抽出。条件式で文字列処理も使った。

…PでDOMとかWEBスクレイピングというようなことをやって、RSSがないサイトでも記事更新状況取得を実現したいと妄想・幻想を抱いている耄碌爺です。 目的サイトでaタグの使い方が一般的な書式ではNGとなる例に当たり、単純な正規表現では「href=」に続くリンク先URLを取得できない場合があることがわかりました。 昨日だいぶやってみたですけどダメでした。 「"」がない、「target」属性などの記載もあったり… 本来であれば「href="URL"」などと記載するところを「href…

PHP:正規表現で「href」のリンクURLが抽出できない?

…PでDOMとかWEBスクレイピングし、RSS未設置のサイト更新情報を得たいと妄想中の爺です。今朝は、HTML「a」タグ要素「href」に続くURL(リンク先)を抜き出せないというトラブルに見舞われました…。 経過と状況 昨夜は、Aサイトでpreg_match(正規表現)はできた 今朝は、Bサイトで、一部できない 表示されるのは、抽出結果を格納する配列が一部でできあがってないのだ…。 昨夜使ったPHPスクリプト、例(部分)[追記:↓不十分なマッチングになるようです] inclu…

PHP:リダイレクト0秒転送にやられる。サイト内・サイト外リンク判定…

…PでDOMとかWebスクレイピングし、RSS設置してないサイトの更新情報を取得しようと妄想している爺です。DOMするとき、問題なのはどのHTMLタグを対象にするか、ということです。サイトによって使い方が違うですから、気をつけないといけませぬ。次に気づいたのが、代表頁に表示される個別記事リンク先が、必ずしも同一サイト内でない場合がある、ということです。まあ、これは、aタグ内のリンク先頭4文字がhttpであるかどうかで判断できる、と見通しておりました。しかし、外部サイトになると、…

PHP:WEBスクレイピング、対象URLの抽出まで進行。先は長い

…ってDOMとかWEBスクレイピングというのを実行し、RSS設置してないサイトの更新状況を取得したいと妄想しています。結果物を、Wordpressに自動投稿する、というのが目標であります(≒ほぼ妄想)…。現在までの進行状況や、先の見通しを中間的に整理しようかと…ま、耄碌進行中の爺の備忘録、ということで。 対象URLの抽出まで進行 これまで作業して、なんとかたどり着いたのがチェックする対象記事の個別URL抽出までです。主な流れは次の通りです。 XAMPP稼働 Apache、MyS…

PHP:URL相対指定「.」をtrimする

…PでDOMとかWEBスクレイピングして、RSSがないサイトでも、その更新情報を取得できるようにしたい、と妄想中の爺です。 サイト内リンクだと相対指定になっている trim-文字列関数-初心者のPHP入門 行事を載せているサイトだと、行事名と日付だけあってあとはサイト内の該当ページで詳細を確認して頂戴、みたいなのがよくあります。その際、リンク先の指定は「http」からでなく「../」「./」「/」などのサイト内の相対位置を示すリンク形式になることが多くあります。このURLを収集…

PHP:PDOのfetchとfetchAllの違いがわからずつまずく

…PでDOMとかWEBスクレイピングとかいうようなことをやって、RSSを備えてないサイトの更新情報を得たいと妄想している爺です。PHPでMySQLを使い、というところでDB接続が昔と異なっていることに直面したです。それが、PDO接続…。 fetch と fetchAll 「fetch」という英単語「つかんでもってくる」というような意味かと。 それで、PHPのPDO接続で、「fetch」にAllがついているのとそうでないのがある…はて、わからん…グスン。同じような悩みがあるもので…

PHP:データベースにPDO接続で読み出し

…業が必要です。WEBスクレイピングともいうようなことです。 ウェブスクレイピング - Wikipedia Webスクレイピングの法律周りの話をしよう! - Qiita WEBスクレイピング:ネット上に公開された情報は一応セーフ。ただし… 「Webスクレイピングの法律周りの話をしよう! - Qiita」にあるように、著作権や個人情報保護の点から注意する必要があります。また、SNSのように会員だけが閲覧できる状態の情報を、一般公開のように利用するのは、NG…。RSSは二次利用を前…

PHP:HTMLを解析・分析する

…ませぬ…。 [追記]スクレイピング 誰でもスクレイピング!DOM要素を引っこ抜くSimple HTML Dom-ITかあさん スクレイピングという言い方もあるらしい…。直上のところにはWPでの使い方も書いてあった。爺が考えつくようなことは、どこぞの賢い人がすでに実行しネット上にUPしてくださっているという、ありがたい世界がひろがっている…感謝。以下の単語がキーワードみたい…。wpのプラグイン探すとき忘れないようにメモ~メモ! parser Scraper Scrape scr…

VBA:ExcelとIEの連携04

…log キーワード:スクレイピング ネット徘徊してまして、「スクレイピング」という言葉に行き当たりました。 エクセルVBAを使用してIEを操作する方法(但しHTMLは表示しない.. - 人力検索はてな スクレイピング VBA - Google 検索 「HTMLデータを直接取得しつつ処理」というところがTAKAが現在欲していることなわけです。情報だけ得ることができれば、InternetExplorerに対象となるURLの内容表示する必要はないという、横着の発想なわけです。 表示…