shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Ajuda crítica


From: Thobias Salazar Trevisan
Subject: Re: [shell-script] Ajuda crítica
Date: Wed, 15 Oct 2003 15:13:19 -0200 (BRST)

ae alexander,

On Tue, 14 Oct 2003, Alexander wrote:

> Faço parte da equipe do Open Office do Brasil e estou encarregado de fazer as
> estatísticas de download dos pacotes do Open Office.

massa!

[...]
> Para não ficar no vácuo, segue o link de uma página que contém as estatísticas
> do webalizer:
>
> http://linorg.usp.br/webalizer-openoffice.br/usage_200209.html
>
> Nessa página há uma tabela com o nome "Top 30 de 47 URLs". Nela há uma coluna
> KBytes e outra coluna com o nome do pacote.
>
> Sei que é um trabalho furioso de seds e greps, mas não estou conseguindo
> separar a tabela que quero e muitos menos as linhas que quero. Só preciso da
> coluna com o nome do pacote e a coluna com os KBytes de download.

para imprimir apenas um trecho do arquivo podes usar o sed:

sed -n '/string inicial/,/string final/p'

depois basta alguns sed pra deixar a saída como você quer.

se você for trabalhar com o fonte da página:

$ lynx -source $URL > arquivo.html
$ cat arquivo.html |
sed -n '/Top 30 de 47 URLs/,/Top 10 de 47 URLs By KBytes/{
s/<[^>]*>//g;/^\([^0-9/]\|$\)/d;p;}' | sed -n 'n;n;n;h;n;n;H;g;s/\n/ /;p'

Você também pode usar um arquivo com o 'dump' da página, e assim,
sem o código fonte:

$ lynx -width=300 -dump -nolist $URL > arquivo.txt
$ cat arquivo.html |
 sed -n '/Top 30 de 47 URLs/,/Top 10 de 47 URLs By KBytes/{
s///;s/  */ /g;s/^ //;/^\($\|#\)/d;p;}' | cut -d" " -f4,6

blz ?

thobias
-------
echo 133449562074222244746332132269002206986P | dc
-------
http://thobias.org

____________________________
|
| Against - HTML Mail
| Against - MS ATTACHMENTS
|
----------------------------


reply via email to

[Prev in Thread] Current Thread [Next in Thread]