|
A determinação da frequência de letras, digramas e trigramas de um determinado idioma é essencial para a análise de textos cifrados. Este processo é conhecido desde a Antiguidade e deve-se, ao que tudo indica, a al-Kindi. Neste artigo você encontra os dados relativos ao Espanhol.
Frequência das Letras
 Histograma por Ordem Alfabética |
| Letra |
Freq.% |
Letra |
Freq.% |
| A |
12.30 |
N |
7.41 |
| B |
1.03 |
O |
8.68 |
| C |
4.49 |
P |
2.63 |
| D |
5.04 |
Q |
1.02 |
| E |
13.69 |
R |
6.44 |
| F |
0.77 |
S |
6.97 |
| G |
1.04 |
T |
4.82 |
| H |
0.65 |
U |
3.99 |
| I |
7.78 |
V |
1.04 |
| J |
0.28 |
W |
0.02 |
| K |
0.02 |
X |
0.16 |
| L |
5.84 |
Y |
0.66 |
| M |
2.84 |
Z |
0.34 |
|
 Histograma por Ordem de Frequência |
Análise
- O comprimento médio das palavras no Espanhol é de 4.96 letras.
- Quando as letras são ordenadas pela frequência, formam grupos bem definidos:
- E, A
- O, S
- R, N, I, D
- L, C, T, U
- M, P
- B, G, Y, V, Q, H, F, Z, J, X
- K, W
- Se o artigo "el" é omitido, L cai para o 5o. grupo e A se torna a letra mais frequente.
- Em Espanhol, textos com menos de 500 palavras são inadequados para a determinação de frequências. Mesmo em amostras com este comprimento, a letra A pode mostrar uma frequência maior que E e C, D e P (as quais exibem as variações mais acentuadas das frequências da tabela acima) geralmente aparecem logo após a frequência de E.
- Peculiaridades mais importantes em relação ao Inglês:
- Frequência alta de Q.
- Frequência alta de A.
- Frequência baixa de T.
- Peculiaridades mais importantes em relação ao Francês:
- Frequência alta de O.
- Frequência baixa de T.
- Ferquência baixa de U.
Digramas e Trigramas mais frequentes
| EN |
2731 |
| DE |
2285 |
| ES |
2232 |
| EL |
1876 |
| LA |
1866 |
| AL |
1698 |
| NT |
1649 |
| RE |
1536 |
| ER |
1526 |
| ON |
1523 |
| OS |
1523 |
| AD |
1435 |
| AR |
1426 |
| UE |
1352 |
| RA |
1325 |
| CI |
1323 |
| AS |
1315 |
| TE |
1261 |
| SE |
1174 |
| CO |
1147 |
|
| ENT |
959 |
| QUE |
902 |
| NTE |
768 |
| DEL |
695 |
| ELA |
588 |
| ION |
556 |
| DAD |
553 |
| CIO |
517 |
| CON |
515 |
| EST |
513 |
| ADE |
512 |
| ALI |
502 |
| IDA |
481 |
| NCI |
434 |
| EAL |
418 |
| ODE |
403 |
| ACI |
394 |
| CIA |
393 |
| ESE |
389 |
| IEN |
386 |
|
20 Digramas mais frequentes |
20 Trigramas mais frequentes |
Observações e Referências
Todas as tabelas desta página foram construídas contando-se as frequências num texto espanhol de 100.000 letras composto por textos sobre o princípio da essência (29.198), sobre a Argentina (14.748), sobre Che Guevara (35.084) e sobre a teoria da relatividade (20.970). Estes textos forma obtidos através da European Literature - Electronic Texts.
Fui buscar referências no site de Didier Müller - Cours de Cryptologie, onde você encontra outras análises de frequência (francês, alemão, inglês e russo).
Informações adicionais foram obtidas da Santa Cruz Public Libraries, na página Frequency of Occurrence of Letters in Spanish, informando que as tabelas e o texto são de Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255. |