[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Dados parcialmente duplicados
From: |
César A . K . Grossmann |
Subject: |
Re: Dados parcialmente duplicados |
Date: |
Thu, 25 Jun 2009 19:44:57 -0000 |
User-agent: |
eGroups-EW/0.82 |
--- Em address@hidden, Eri Ramos Bastos <bastos.eri@...> escreveu
>
> O que eu quero saber é quais dados estão sendo repetidos na primeira,
> segunda e última coluna, mas são únicos na terceira coluna. Preciso
> contar esses dados baseado na segunda coluna, de forma que no arquivo
> exemplo o resultado do script seria:
>
> $ ./script raw-file.txt
> 6361 34662277560 46606975 2
> 6361 36612632553 46606975 2
> 6361 36620505642 46606975 2
Está estranho este teu exemplo, ele não é parecido com as linhas que você
deixou no pastebin. Veja só as primeiras linhas do pastebin:
6361 37881605748 C-770860 46606975
6361 34662424681 C-770859 46606975
6361 37669659348 C-770844 46606975
6361 37881454475 C-770848 46606975
Se você usar o comando abaixo, ele vai colocar em ordem crescente do segundo
campo:
tr -s " " < raw-data.txt | sort -b -u -k 2,2
Não sei se é o que você queria, mas no texto de exemplo, rodei o comando acima
e ele retornou apenas 24 linhas, sem repetições no campo 2 (a segunda coluna de
dados).
Outro comando que parece fazer a mesma coisa:
sort raw-data.txt | tr -s " " | uniq --skip-fields=1 --check-chars=11
[]s