shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] wget; substituir simbolos das paginas baixadas.


From: Julio C. Neves
Subject: Re: [shell-script] wget; substituir simbolos das paginas baixadas.
Date: Tue, 13 Mar 2007 12:11:12 -0300

Fala Tiago,
desde vc tenha esta tabela (não a conheço), vc pode transformála em um
arquivo que sirva com entrada de um sed -f file.

Suponha que o esta tabela esta formatada da seguinte maneira:
ú ú
ç ç
ã ã

Ou seja com um branco separando o valor html do valor ascii. Para
transformar isso em um arquivo para o sed faça:

$ sed 's#^\(.*\) \(.*\)$#s/\1/\2/#' TabelaDeConversão > SaidaParaSed
$ cat SaidaParaSed
s/ú/ú/
s/ç/ç/
s/ã/ã/

Como vc viu, criamos um arquivo com cmds sed. Agora basta aplicá-lo ao se
html:

$ sed -f SaidaParaSed arquivo.html

E prompt :)

Abraços,
Julio
:wq


Em 13/03/07, Tiago Barcellos Peczenyj <address@hidden> escreveu:
>
>   Desconheço tal opção do wget ou curl.
>
> vc poderia usar ou um script sed ou então salvar a pagina através de um
> browser modo texto como o lynx ou o links
>
> On 3/13/07, Thiago Argolo <address@hidden <targolo%40gmail.com>> wrote:
> >
> > Olá Pessoal,
> >
> > Com o wget é possivel tratar o conteudo html da pagina baixada? Por
> > exemplo:
> >
> > A página baixada com wget o código fonte vem assim:
> > Data da &uacute;ltima atualiza&ccedil;&atilde;o:
> >
> > Se for salvo direto do navegador o código fonte vem assim:
> > Data da última atualização:
> > Caso não, existe outro comando?
> >
> > A única forma que achei foi pegando uma tabela com "Entidades de
> > Caracteres
> > Nomeadas", onde consta o símbolo e o nome. Achava os existentes no
> arquivo
> > html, pegava o caracter corespondente na tabela e fazia a alteração...
> Mas
> > acho que deva existir uma alternativa mais simples!!
> >
> > [As partes desta mensagem que não continham texto foram removidas]
> >
> >
> >
>
> --
> Tiago B Peczenyj
> Linux User #405772
>
> # cd /pub
> # more beer
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>  
>


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]