shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Re: copiar página da web via script - questão de form


From: Helton Moraes
Subject: Re: [shell-script] Re: copiar página da web via script - questão de formatação
Date: Tue, 3 Aug 2010 10:39:41 -0300

Caros Colegas

Agradeço muito pelas respostas, e agora é que me dei conta das diferenças
entre as dicas apresentadas: wget para pegar o código fonte, e lynx e cia
para a página formatada.

Acabei usando o lynx -dump -crawl http://www.site.com | grep, sed, etc, pois
a opção crawl remove os números antes dos links.

Recomendo muito a todos aqueles que vivem pescando coisas da internet fazer
esses scripts de parsing da página formatada ou do código fonte (conforme a
conveniência), já que poupa bastante trabalho e faz a gente se sentir
poderoso, ainda mais naqueles sites que dificultam as coisas, hehe. Além
disso, é um ótimo exercício de regex no sed ou no grep.

Até mais

Helton


Em 2 de agosto de 2010 20:08, Cristiano <address@hidden> escreveu:

> --- Em address@hidden, Elder Marco <eldermarco@...>
> escreveu
> >
> > O lynx com a opção -dump não poderia te ajudar nisso?
>
> Quase todo browser em modo texto possui a opção -dump, citada pelo Elder.
>
> Além do lynx, você também o links e o w3m.
>
> Cada um deles renderiza a página em texto de maneira diferente do outro,
> principalmente se a página utilizar frames e/ou tabelas.
>
> Teste com todos para ver o que lhe devolve o formato mais amigável
>
>
>
>
> ------------------------------------
>
> ---------------------------------------------------------------------
> Esta lista não admite a abordagem de outras liguagens de programação, como
> perl, C etc. Quem insistir em não seguir esta regra será moderado sem prévio
> aviso.
> ---------------------------------------------------------------------
> Sair da lista: address@hidden
> ---------------------------------------------------------------------
> Esta lista é moderada de acordo com o previsto em
> http://www.listas-discussao.cjb.net
> ---------------------------------------------------------------------
> Servidor Newsgroup da lista: news.gmane.org
> Grupo: gmane.org.user-groups.programming.shell.brazil
>
> Links do Yahoo! Grupos
>
>
>
<http://www.google.com/search?q=baixando>


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]