[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] Re: Retirar tags html
From: |
Tiago Barcellos Peczenyj |
Subject: |
Re: [shell-script] Re: Retirar tags html |
Date: |
Thu, 31 Jan 2008 08:38:17 -0200 |
2008/1/30 Cristiano Ferrari <address@hidden>:
> > sed -r 's/<[^>]+>//g' file
> Por favor, me tire uma dúvida sobre a lógica desta ER, por mera
> curiosidade: a lista negada com o sinal de maior é para evitar que,
> existindo mais de uma tag na linha, ele pegue todo o conteúdo entre a
> abertura da primeira tag e o fechamento da última, é isso?
Exatamente
uma tag html ou xml tipicamente é:
<um monte de coisas>
ou seja
<(um ou mais caracteres)>
Pensando na ER
<[caracteres]+>
como são muitos os caracteres permitidos (a-zA-Z0-9 espaço, tab,
aspas, aspas duplas) eu substitui por
<[qq coisa q não seja>]+> que equivale a <[^>]+>
[]´s T
--
Tiago B Peczenyj
Linux User #405772
http://peczenyj.blogspot.com/
"what does not kill us makes us stronger"