[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] wget; substituir simbolos das paginas baixadas.
From: |
Julio C. Neves |
Subject: |
Re: [shell-script] wget; substituir simbolos das paginas baixadas. |
Date: |
Tue, 13 Mar 2007 12:11:12 -0300 |
Fala Tiago,
desde vc tenha esta tabela (não a conheço), vc pode transformála em um
arquivo que sirva com entrada de um sed -f file.
Suponha que o esta tabela esta formatada da seguinte maneira:
ú ú
ç ç
ã ã
Ou seja com um branco separando o valor html do valor ascii. Para
transformar isso em um arquivo para o sed faça:
$ sed 's#^\(.*\) \(.*\)$#s/\1/\2/#' TabelaDeConversão > SaidaParaSed
$ cat SaidaParaSed
s/ú/ú/
s/ç/ç/
s/ã/ã/
Como vc viu, criamos um arquivo com cmds sed. Agora basta aplicá-lo ao se
html:
$ sed -f SaidaParaSed arquivo.html
E prompt :)
Abraços,
Julio
:wq
Em 13/03/07, Tiago Barcellos Peczenyj <address@hidden> escreveu:
>
> Desconheço tal opção do wget ou curl.
>
> vc poderia usar ou um script sed ou então salvar a pagina através de um
> browser modo texto como o lynx ou o links
>
> On 3/13/07, Thiago Argolo <address@hidden <targolo%40gmail.com>> wrote:
> >
> > Olá Pessoal,
> >
> > Com o wget é possivel tratar o conteudo html da pagina baixada? Por
> > exemplo:
> >
> > A página baixada com wget o código fonte vem assim:
> > Data da última atualização:
> >
> > Se for salvo direto do navegador o código fonte vem assim:
> > Data da última atualização:
> > Caso não, existe outro comando?
> >
> > A única forma que achei foi pegando uma tabela com "Entidades de
> > Caracteres
> > Nomeadas", onde consta o símbolo e o nome. Achava os existentes no
> arquivo
> > html, pegava o caracter corespondente na tabela e fazia a alteração...
> Mas
> > acho que deva existir uma alternativa mais simples!!
> >
> > [As partes desta mensagem que não continham texto foram removidas]
> >
> >
> >
>
> --
> Tiago B Peczenyj
> Linux User #405772
>
> # cd /pub
> # more beer
>
> [As partes desta mensagem que não continham texto foram removidas]
>
>
>
[As partes desta mensagem que não continham texto foram removidas]