Criptografia Numaboa

Home Criptografia Criptoanálise Frequência de ocorrência de letras no Português

Na Aldeia

Há 158 visitantes e 1 usuário registrado online

3296 registros
0 hoje
1 nesta semana
33 neste mês

Boas vindas: chufu

Estatística

Artigos: 1063
Leituras: 6022987
Arquivados: 21
Downloads: 533
Baixados: 171952
Glossário: 1208
Bibliografia: 25
Links: 90

Visitas de onde

Top 5:
Brasil flag 73%Brasil (42236)
Portugal flag 5%Portugal (2633)
EUA flag 3%EUA (1988)
Rússia flag 0%Rússia (243)
Holanda flag 0%Holanda (237)
57943 visitas de 98 países

Hoje:610
Ontem:1791
No mês:32128
Mês passado:25815
Total:57943
Recorde:3037
No dia:04.03.10
Leituras hoje:16627
Leituras Total:255139
Bots hoje:189
Dados desde:16.02.2010

Login



Kanji da hora




Faça contato






Frequência de ocorrência de letras no Português PDF Imprimir Indique esta página
(14 votos, média 4.7 de 5)
Escrito por vovó Vicki   
Dom, 28.08.2005 00:56
Índice do Artigo
Frequência de ocorrência de letras no Português
Distribuição
Palavras curtas
Todas as páginas

Para variar, por mais que eu procurasse, não encontrei referências na web sobre a frequência de ocorrência de letras no Português do Brasil. Encontra-se análises de frequência para o Inglês, o Alemão, o Francês, o Espanhol e até para o Latim. Mas para o Português... triste

Se não tem (ou não acho), então mãos à obra: fiz um pequeno programa em Delphi (estava com preguiça e com pressa...) que faz a análise de textos em ASCII puro. O programa usa a tecnologia de streaming de memória, o que permite a leitura e a análise de textos muito longos (acima da limitação de 32 Kb do memo do Delphi). Este programa, chamado Frequência NumaBoa, está disponível para download na Seção de Downloads - categoria Criptologia - Criptoanálise.

Os resultados que obtive utilizando a "tecnologia de ponta" da Aldeia são apresentados a seguir.

Ensaio de Frequências

Como ensaio estatístico, usei 6 textos de autores conhecidos e de épocas diferentes. Todos os textos são de domínio público (sem © copyright) e podem ser encontrados com facilidade na Internet para download.

Os textos foram analisados transformado-se vogais acentuadas (á, ã, ô,...) em vogais normais e o C cedilha em C.

  1. A Profissão de Jacques Pedreira, de João do Rio, com 49.958 palavras e 232.882 letras.
  2. Memórias Póstumas de Brás Cubas (50 primeiros capítulos), de Machado de Assis, com 26.326 palavras e 115.580 letras.
  3. Contos Gauchescos, de João Simões Lopes Neto, com 33.013 palavras e 143.520 letras.
  4. Obras Selecionadas de Rui Barbosa, com os textos "A Emancipação Progride" e "Pelos Escravos! Às Senhoras Baianas", com 4.781 palavras e 23.121 letras.
  5. Os Bruzundangas, de Lima Barreto, com 41.633 palavras e 200.581 letras.
  6. Texto lido na cerimônia de encerramento do Fórum Social Mundial 2002, de Saramago, com 2.053 palavras e 9.827 letras. Este, o único autor português, para por um pouco de tempero na análise.

No total, foram analisadas 157.764 palavras com 725.511 letras - uma amostra significante para dar consistência aos resultados.

Frequência das letras

Ordem alfabética
Histograma por
/> Ordem Alfabética
Letra Freq.% Letra Freq.%
A 14.63 N 5.05
B 1.04 O 10.73
C 3.88 P 2.52
D 4.99 Q 1.20
E 12.57 R 6.53
F 1.02 S 7.81
G 1.30 T 4.34
H 1.28 U 4.63
I 6.18 V 1.67
J 0.40 W 0.01
K 0.02 X 0.21
L 2.78 Y 0.01
M 4.74 Z 0.47
Ordem de frequência
Histograma por
/> Ordem de
Frequência

Características do Português do Brasil

  • O comprimento médio das palavras em Português do Brasil é de 4.53 letras.
  • Quando as letras são ordenadas pela frequência, formam grupos bem definidos:
    1. A, E, O
    2. S, R, I
    3. N, D, M, U, T, C
    4. L, P, V, G, H, Q, B, F
    5. Z, J, X, K, W, Y
Letras Freq.
6 vogais: A, E, I, O, U, (Y) 48.75 %
20 consoantes
   5 de frequência alta: S, R, N, D, M 49.12 %
   10 de frequência média: T, C, L, P, V, G, H, Q, B, F 21.03 %
   6 de frequência baixa: Z, J, X, K, W 1.10 %
100.00 %
  • As vogais A, E, I, O, U e as consoantes S, R, N, D, M formam mais de 3/4 dos textos em Português.
  • A média de vogais a cada 10 letras é de 4.88


Atualização Seg, 13.04.2009 13:21