3. 再帰的な回収

URL="https://bookshelf.jp/cgi-bin/goto.cgi?file=wget-ja&node=Recursive+Retrieval"
"wget/再帰的な回収"へのコメント(無し)

GNU Wgetは，Web(または，単一のHTTPやFTPサーバ)の部分を，リンクとディレクトリ構造をたどりながら渡り歩くことができます．これは 再帰的な回収(recursive retrieval) ，または再帰(recursion) と呼ばれます．

HTTP URLを用いると，Wgetは与えられたURLすなわちドキュメントから得たHTMLを，hrefやsrcのようなマークアップを通じて，HTMLドキュメントが参照しているファイルを回収しながら，回収と解析を行ないます．新たにダウンロードされたファイルも text/html形式やapplication/xhtml+xml形式の場合も，それは解析され更に続けます．

HTTPの再帰的な回収とHTMLの内容はbreadth-firstです．これは，要求されたHTMLドキュメントをWgetが最初に，その後でドキュメントがリンクしているドキュメントを，そして更にそれがリンクしているドキュメントというようにダウンロードすることを意味します．言い替えると，Wget は最初に深さ1のドキュメントをダウンロードし，それから深さ2のものというようにして最大深度で指定されたものまでダウンロードするということです．

回収が下降する最大の深度は，`-l'オプションで指定されます．デフォルトの最大深度は5階層です．

FTP URLを再帰的に回収するとき，Wgetはリモートサーバの与えられた(指定された深度以上のサブディレクトリを含め)ディレクトリツリーから，全てのデータを回収し，ローカルにミラーイメージを作成します．FTPの回収もdepthパラメータで制限されます．HTTPの再帰と異なり， FTPの再帰は最初の深度で実行されます．

デフォルトで，Wgetはローカルディレクトリツリーを作成し，それはリモートサーバで見つかったものに対応しています．

再帰的回収は複数の応用が可能で，最も重要なものはミラーです．それは， WWWの公開と，その他の状況として，ネットワーク接続が遅いところでファイルをローカルに保存することでバイパスすることで役に立ちます．

再帰呼び出しはネットワークを通じたデータの高速転送になるため，システムの過負荷を起こす可能性があることを警告します．このため，管理者の多くはそれに難色を示していて，大量の内容物を高速にダウンロードしているのを検出した場合，あなたのサイトからのアクセスを禁止するかもしれません． Internetサーバからダウンロードしている時，サーバへのアクセスの間の遅延を導入するため，`-w'オプションを使用することを考慮に入れてしてください．ダウンロードにはより長い時間がかかりますが，サーバ管理者はあなたの無礼には心配しなくなるでしょう．

もちろん，再帰的なダウンロードは自分のマシンにも問題を発生するかもしれません．調査無しで実行したままにする場合，ディスクが簡単にいっぱいになるはずです．ローカルのネットワークからのダウンロードの場合，メモリと CPUの消費と同様に，システムの帯域幅にも注意すべきです．

ダウンロードを達成するような試みに適した基準を指定してみてください．1 ページのみダウンロードしたい場合，あらゆる再帰を追加すること無く `--page-requisites'を使用してください．一つのディレクトリ以下をダウンロードしたい場合，他のディレクトリからダウンロードすることを避けるため`-np'を使用してください．一つのディレクトリの全てのファイルをダウンロードしたい場合，再帰深度が超過しないことを確実にするため `-l 1'を使用してください．これについての詳細はSee 節 4. リンクの追跡.

再帰的な回収は注意して使用すべきです．警告しなかったとは言わせません．

[ << ]

[ >> ]

[表紙]

[目次]

[索引]

[検索] [上端 / 下端] [?]