GetHTMLW 8.3.02011/11/03 00:15

とある老舗の雑誌社の方から、プログラムの紹介打診を受けましたので現状の最新バージョンをアップロードしました。

Ver.8.3.0: http://www.ne.jp/asahi/net/pockey/program/gethtmlw-8.3.0.zip

コメント

_ hige ― 2012/04/29 18:57

よく便利に使わせてもらっています
許容URL設定で正規表現を使えるようにはなりませんでしょうか?
取得範囲を上手く設定出来るようになるのですが。。。
いかがですか?

_ 管理人 ― 2012/05/01 11:09

hige さん、コメントありがとうございます。
なるほど、それはおもしろいかもしれないですね。
すぐにはできませんが、時間があったときに試してみます。

以下自分用メモ
line 127 in regcheck.cpp,
int RegistCheckClass::check_underhome(char *url);

_ 管理人 ― 2012/05/04 20:17

hige さん、
試しに作ってみました。
ver 8.3.0 のdownload path (URL) のファイル名を
gethtmlw-8.4.0TR1.zip
に変えてダウンロードしてください。
http://www.ne.jp/asahi/net/pockey/program/gethtmlw-8.4.0TR1.zip

_ 管理人 ― 2012/05/04 20:22

使い方の説明を忘れていました。
許容URL設定の指定を正規表現表記でしたい場合は、指定文字列の先頭を
*
で始めてください。
例) URL 内の /image/ という文字を含む URL は許容という場合
*/image/
例) URL 内の banner という文字を含む URL は拒否という場合
!*banner

_ hige ― 2012/05/15 20:11

うおおお すごい 許容範囲が一発です
ありがとうございます
blog内のリンク先の画像が簡単に落とせるようになりました
すごすぐる

_ 通りすがり ― 2012/10/09 15:22


ありがとうございます。
GetHTML 使わせていただいている者です。

日本語で表記されているURLで「取得できません」とダイアログが出ます。
(status:NoGood)

何か解決策がありましたらお教え頂ければ幸いです。

_ hoge ― 2013/01/03 22:35

はじめましてGetHTMLW(8.3.0)を使わせてもらっています。
ProxyModo2で特定の状況で強制終了するという問題が起りました。
設定は 「prohibit.lws」に「.* *psv」と記述して全てのものを保存し、旧データも全て残しておく設定です。
しばらく使っていて、どうやら拡張子のないページやコンテンツ(主にgooブログやso-netブログ、他にはURLに2バイト文字を使用しているページ等)を読み込み保存して、
そのページやコンテンツをもう一度を読み込んで保存しようとする(更新時?)と、旧データの名前を変更できずに強制終了してしまうようです。(現在20GB 60万ファイル)
念のために0ファイルの状態からやり直してみましたが、強制終了は発生しませんでしたが、旧データのページやコンテンツは名前を変更して保存が出来ていませんでした。
もしかしたら、私の設定の仕方が間違っている場合があるかもしれませんので、その場合は正しい設定方法を教えてください。

それと、URLに2バイト文字を使用しているページを保存するときにファイル名が文字化けしてしまいます。
どうやら、URLはUTF-8文字コードのようで、それがGetHTMLWを通して保存するとShift-JIS文字コードで保存されているのが原因で文字化けが発生しているようです。修正お願いします。

あと、個人的な要望なのですがGetHTMLWを設定を別々にして複数起動できるようにしてほしいです。
複数のブラウザでProxyModo2とLocalModeを切り替えて使っているのですが、たまにどっちに切り替えているのか忘れてミスをしてしまうことがありますので、できればよろしくお願いします。

長々となってすみませんが、以上です。

_ 通りすがり2 ― 2013/12/01 16:44

ありがとうございます。長年愛用させてもらっております。
気がついた点を2つ
リトライリストの文字列フィルター部分「0:」の文字化け、エディターで修正するとフィルターが利きます
URLが256文字(たぶん)を超えたときの強制終了
私の環境(XP)によるものかもしれませんが、一応ご報告まで

_ 管理人 ― 2015/12/30 01:22

通りすがり2様、
feedbackありがとうございます。
もう二年も前なのでご覧になっていないか記憶から無くなっているかとは思いますが、
もし覚えていたら、
「リトライリストの文字列フィルター部分「0:」の文字化け、エディターで修正するとフィルターが利きます」の件、もう少し詳しく教えて頂けると対処が出来るかもしれません。

また、「URLが256文字(たぶん)を超えたときの強制終了 」の件、URL自体は 1024文字だったか、4096文字だったか、リミッタを設けて強制終了しないようにはじいているつもりなのですが、特定の URL で問題が発生するのかもしれません。落ちる URL をご連絡いただけると対処できるかもしれません。

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://gethtmlw.asablo.jp/blog/2011/11/03/6184821/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。