[ < ] [ > ]   [ << ] [ Up ] [ >> ]         [表紙] [目次] [索引] [検索] [上端 / 下端] [?]

9. 付録

URL="http://www.bookshelf.jp/cgi-bin/goto.cgi?file=wget-ja&node=Appendices"
"wget/付録"へのコメント(無し)
検索全文Elisp

この章は,私が役に立つと考えるものへの参照も含んでいます.



[ < ] [ > ]   [ << ] [ Up ] [ >> ]         [表紙] [目次] [索引] [検索] [上端 / 下端] [?]

9.1 ロボットの排除

URL="http://www.bookshelf.jp/cgi-bin/goto.cgi?file=wget-ja&node=Robot+Exclusion"
"wget/ロボットの排除"へのコメント(無し)
検索全文Elisp

Wgetに,進行中に利用可能なすべてのデータを吸い上げながら,ウェブサイト 中をあてもなく歩きまわらせることは非常に簡単です.`wget -r site'とその設定です.すばらしいでしょうか?サーバ管理者にとって はそうではありません.

Wgetが静的なページを回収している限り,そして適切なレートで行なわれてい る限り(`--wait'オプションを参照してください),余り問題ありません. 問題は,Wgetが静的なページとほとんどのCGIを要求するページの間の違いを 伝えることができないことにあります.InfoファイルをHTMLに変換する CGI Perlスクリプトで処理させるセクションを持つサイトを知っています.ス クリプトは遅いのですが,人間のユーザが予備のInfoファイルを閲覧するのに 十分うまく動作します.しかし,Wgetで再帰ダウンロードしている人の中に, スクリプト全体のすべてのInfoファイルへのリンクがある索引ページでつまづ く人がいるとき,そのシステムはユーザが役に立つものを提供すること無くやっ てきます(Infoファイルを変換するこの処理はローカルに行なわれるべきで, インストールされているすべてのGNUのソフトウェアに対するInfoドキュメン トはinfoコマンドで利用可能にすべきです).

このような問題を避けるため,うまく動作するロボットから保護する必要があ るドキュメントのプライバシーを保護することと同様に,ロボット拒否 (robot exclusion)の概念が導入されました.その考え方とは,サーバの管理 者とドキュメントの著者が,ロボットから保護したい,そしてアクセスを許可 したいサイトの部分を指定することを可能にすることです.

最も人気のあるメカニズムで,すべての主要なロボットがサポートするデ ファクトスタンダードは,"Robots Exclusion Standard" (RES)でMartijn Koster他によって1994年に書かれました.それは,ロボットに避けて欲しい URLパスを指示する命令を含むテキストファイルの書式を指定しています.ロ ボットが見つけるように,ロボットがダウンロードし解析するということを期 待して,その指定はサーバのルートの`/robots.txt'に配置する必要があ ります.

Wgetは,厳密な意味ではウェブロボットではありませんが,個別のページをダ ウンロードするためにユーザが介入すること無く,サイトの大半をダウンロー ドすることが可能です.そのため,再帰的なダウンロード時にはWgetはRESに 従います.例えば,以下のようにします.

 
wget -r http://www.server.com/

`www.server.com'の最初のインデクッスがダウンロードされます.Wget がそのサーバからダウンロードするより多くのドキュメントを見つけた場合, `http://www.server.com/robots.txt'を要求し,見つかった場合はそれ 以降のダウンロードでそれを使用します.`robots.txt'はそれぞれのサー バごとに一回のみロードされます.

バージョン1.8までのWgetは,Martijn Kosterが1994年に書いた http://www.robotstxt.org/wc/norobots.htmlで利用可能な最初のバー ジョンの標準をサポートしていました.バージョン1.8では,Wgetはインター ネットドラフト`<draft-koster-robots-00.txt>'の"A Method for Web Robots Control"と言うタイトルで指定された追加命令もサポートしています. 私の知る限りRFCにはなっていませんが,そのドラフトは http://www.robotstxt.org/wc/norobots-rfc.txtで利用可能です.

このマニュアルは,もはやRobot Exclusion Standardを含んでいません.

二番目に,メカニズムの知識はそれほどありませんが,個々のドキュメントの 著者をロボットでたどるファイルからリンクしたいかどうかを指定することも 可能です.これはMETAタグを以下のように使用します.

 
<meta name="robots" content="nofollow">

これは,http://www.robotstxt.org/wc/meta-user.htmlで幾分詳細に説 明されてます.Wgetは,通常の`/robots.txt'への排他的な追加で,ロボッ ト除外のこの手法をサポートしています.

ロボットの拒否を本当に,本当に望むことがどうなるか知っている場合, `.wgetrc'のrobots変数を`off'にして下さい.同じことは, 例えば`wget -e robots=off url...'のように,-eスイッ チで達成可能です.



[ < ] [ > ]   [ << ] [ Up ] [ >> ]         [表紙] [目次] [索引] [検索] [上端 / 下端] [?]

9.2 セキュリティの考慮

URL="http://www.bookshelf.jp/cgi-bin/goto.cgi?file=wget-ja&node=Security+Considerations"
"wget/セキュリティの考慮"へのコメント(無し)
検索全文Elisp

Wgetを使用するとき,それが暗号化されていないパスワードをネットワークに 流すことを知っている必要があり,それはセキュリティの問題を提示するかも しれません.ここに主な問題と,いくつかの解決があります.

  1. コマンドラインのパスワードは,psの使用で見えるようになります. それを回避する最善策は,wget -i -を使用し,それぞれ分離された行 になっていてC-dで終端したものをWgetの標準入力にURLとして与 えることです.もう一つの回避方法はパスワードの保存に`.netrc'を使 用することです.しかし,暗号化されていないパスワードもセキュリティの危 機と考えられます.

  2. 安全でないbasic認証方式を使用すると,暗号化されていないパスワー ドがネットワークのルータとゲートウェイを通じて転送されます.

  3. FTPパスワードも暗号化されません.現在これに関しては良い解決方法が ありません.

  4. Wgetの"通常の"出力はパスワードを隠そうとしますが,デバッグログは,あ らゆる形式でそれらを表示します.この問題は,バグの報告を送るとき注意す ることで避けます(そう,それらを私に送るときもです).



[ < ] [ > ]   [ << ] [ Up ] [ >> ]         [表紙] [目次] [索引] [検索] [上端 / 下端] [?]

9.3 寄稿者

URL="http://www.bookshelf.jp/cgi-bin/goto.cgi?file=wget-ja&node=Contributors"
"wget/寄稿者"へのコメント(無し)
検索全文Elisp

GNU WgetはHrvoje Niksic hniksic@arsdigita.comによって書かれま した. しかしその開発は,バグレポート,特徴の提案,パッチや"Thanks!"と書か れた感謝状など,多くの人々の助けが無ければ非常に遠いものとなっていたは ずです.

以下の人々に特別な感謝を送ります(順不同).

以下の人々は,パッチ,バグ/ビルドレポート,役立つ提案,ベータテスト, ファンメールと管理者が喜ばしいと感じるあらゆることを提供してくれました.

Ian Abbott Tim Adam, Adrian Aichner, Martin Baehr, Dieter Baron, Roger Beeman, Dan Berger, T. Bharath, Paul Bludov, Daniel Bodea, Mark Boyns, John Burden, Wanderlei Cavassin, Gilles Cedoc, Tim Charron, Noel Cragg, Kristijan Conkas, John Daily, Ahmon Dancy, Andrew Davison, Andrew Deryabin, Ulrich Drepper, Marc Duponcheel, Damir Dzeko, Alan Eldridge, Aleksandar Erkalovic, Andy Eskilsson, Christian Fraenkel, Masashi Fujita, Howard Gayle, Marcel Gerrits, Lemble Gregory, Hans Grobler, Mathieu Guillaume, Dan Harkless, Aaron Hawley, Herold Heiko, Jochen Hein, Karl Heuer, HIROSE Masaaki, Gregor Hoffleit, Erik Magnus Hulthen, Richard Huveneers, Jonas Jensen, Simon Josefsson, Mario Juric, Hack Kampbjorn, Const Kaplinsky, Goran Kezunovic, Robert Kleine, KOJIMA Haime, Fila Kolodny, Alexander Kourakos, Martin Kraemer, Simos KSenitellis, Hrvoje Lacko, Daniel S. Lewart, Nicolas Lichtmeier, Dave Love, Alexander V. Lukyanov, Thomas Lussnig, Aurelien Marchand, Jordan Mendelson, Lin Zhe Min, Tim Mooney, Simon Munton, Charlie Negyesi, R. K. Owen, Andrew Pollock, Steve Pothier, Jan Prikryl, Marin Purgar, Csaba Raduly, Keith Refson, Bill Richardson, Tyler Riddle, Tobias Ringstrom, Juan Jose Rodrigues, Maciej W. Rozycki, Edward J. Sabol, Heinz Salzmann, Robert Schmidt, Andreas Schwab, Chris Seawood, Toomas Soome, Tage Stabell-Kulo, Sven Sternberger, Markus Strasser, John Summerfield, Szakacsits Szabolcs, Mike Thomas, Philipp Thomas, Mauro Tortonesi, Dave Turner, Gisle Vanem, Russell Vincent, Charles G Waldman, Douglas E. Wegscheid, Jasmin Zainul, Bojan Zdrnja, Kristijan Zimmer.

記載忘れの方へ謝罪し,そしてWgetメーリングリストの全ての方に多いに感謝 します.


[ << ] [ >> ]           [表紙] [目次] [索引] [検索] [上端 / 下端] [?]