[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] Grep
From: |
Julio Neves |
Subject: |
Re: [shell-script] Grep |
Date: |
Wed, 10 Oct 2001 13:49:25 -0300 |
Olá Laudelino,
já pedi, por telefone, para fazerem os testes para mim e em ambos os casos
funcionou. Em diversos benchmarks, constatei que o uso de expressões
regulares e awk, no tratamento de arquivos, são + rápidos do que uma
estrutura while...done e por issso mesmo te aconselhei este livro. Os
dados já havia colocado de forma resumida na msg anterior, mas vou
repeti-los:
Título: "Expressões Regulares - Guia de Consulta Rápida"
Autor: Aurélio Marinho Jargas <address@hidden>
Editora: Novatec <www.novateceditora.com.br>
ISBN: 85-7522-011-X
[ ]s,
Julio Cezar Neves
Favor responder a address@hidden
Para: <address@hidden>
cc:
Assunto: Re: [shell-script] Grep
Ok, vou tentar. Mas passa os dados desse livro do nosso amigo !!!
----- Original Message -----
From: Julio Neves
To: address@hidden
Sent: Wednesday, October 10, 2001 11:21 AM
Subject: Re: [shell-script] Grep
Olá Laudelino,
não sou um especialista em expressões regulares e estou sem máquina para
testar as respostas, mas como estou lendo "Expressões Regulares - Guia
de
Consulta Rápida" do Aurélio Marinho Jargas ( nosso colega da lista), que
estou achando IMPERDÍVEL, vou arriscar uma resposta. Tente:
egrep -v '^[1-9A-Za-z_]{0,5}$' Nome_Do_Arquivo > arqsaida
Se não funcionar tente:
sed '/^[1-9A-Za-z_]\{0,5\}$/' Nome_Do_Arquivo > arqsaida
Obs:
1 - Vc falou em 4 caracteres e colocou um com 5 (sex01) no seu exemplo.
Usei 5;
2 - Se houverem linhas vazias, elas tb serão removidas (para não fazê-lo
use {1,5});
3 - Colquei dentro dos colchetes os caracteres que achei que poderiam
aparecer. Caso existam outros, incluá-os (p. ex. [1-9A-Za-z_@].
Mestre Aurélio, espero não tê-lo decepcionado! :^)
[ ]s,
Julio
Favor responder a address@hidden
Para: <address@hidden>
cc:
Assunto: [shell-script] Grep
Tenho uma lista com 60.000 sites inúteis que vou usar no meu squid.
1 por linha.
Só Que.
tem alguns sites com nomes muito curtos tipo 4 caracteres que se
confundem
com sites válidos
Tipo
0069
sex0
sex01
só que tem sites em que a url aparece essas letras
www.odia.com.br/materias/maio/diasemana-sex01/topicos.htm
www.odia.com.br/materias/maio/diasemana-sex02/topicos.htm
quero tirar do arquivo todas as linhas que tenham menos que 5 caracteres
!
[As partes desta mensagem que não continham texto foram removidas]
Sair da lista: address@hidden
Banco Dados: http://www.egroups.com/group/shell-script
Seu uso do Yahoo! Grupos é sujeito às regras descritas em:
http://br.yahoo.com/info/utos.html
Yahoo! Groups Sponsor
Sair da lista: address@hidden
Banco Dados: http://www.egroups.com/group/shell-script
Seu uso do Yahoo! Grupos é sujeito aos Termos do Serviço Yahoo!.
[As partes desta mensagem que não continham texto foram removidas]
Sair da lista: address@hidden
Banco Dados: http://www.egroups.com/group/shell-script
Seu uso do Yahoo! Grupos é sujeito às regras descritas em:
http://br.yahoo.com/info/utos.html