Fréquence d'apparition des lettres

Modèle:Homon La fréquence d'apparition des lettres est une donnée statistique utilisée en linguistique, en typographie et en cryptographie liée au fait que les utilisateurs de la langue écrite n'utilisent pas les lettres disponibles au hasard, mais selon l'ordonnancement de la langue, du langage et de la parole.

Bien que l'alphabet ne soit pas hiérarchisé, les lettres écrites ne sont pas utilisées à la même fréquence, en français comme dans les autres langues. Ainsi, si l'on prend un texte en français composé de 100 lettres, on n'aura pas 100 lettres différentes mais environ 12 fois la lettre E, 7 fois la lettre A, 7 fois la lettre I, 7 fois la lettre S, etc., selon une loi de distribution qui n'est pas facile à déterminer.

Modèle:Sommaire

Base statistique de calcul : le corpus

Le calcul de la fréquence d'apparition des lettres en français se fait après avoir constitué un corpus de textes (ensemble cohérent et systématique de documents textuels). Le choix des documents est crucial.

Le dictionnaire est parfois utilisé comme corpus. Or la fréquence des lettres dans la liste des mots d’un dictionnaire diffère de celle dans un texte usuel. En effet, très peu de mots apparaissent au pluriel dans un dictionnaire, ce qui conduit la lettre s à y être moins fréquente. De plus, les lettres accentuées à et ù apparaissent dans un nombre très limité de mots, mais dont certains sont d'usage fréquent (à, où), ce qui contribue à modifier la fréquence relative de ces lettres.

La fréquence d'apparition des lettres en français est souvent calculé sur un corpus de textes littéraires disponible sur le Net, par exemple sur le site de l’Association des bibliophiles universels (ABU). On peut alors faire des analyses de fréquence de lettres chez un auteur en particulier.

De même, on peut calculer la fréquence d'apparition des lettres en français sur le corpus de Wikipédia en français. En 2008, le laboratoire CLLE-ERSS de l'Université de Toulouse en a tiré une table de fréquence<ref>Modèle:Lien web</ref>.

Fréquence des caractères<ref>Modèle:Lien web</ref> sur le corpus de Wikipédia en français
Rang	Caractère	Nombre d'occurrences	Pourcentage
1	e	115 024 205	Modèle:Bartable
2	a	67 563 628	Modèle:Bartable
3	i	62 672 992	Modèle:Bartable
4	s	61 882 785	Modèle:Bartable
5	n	60 728 196	Modèle:Bartable
6	r	57 656 209	Modèle:Bartable
7	t	56 267 109	Modèle:Bartable
8	o	47 724 400	Modèle:Bartable
9	l	47 171 247	Modèle:Bartable
10	u	42 698 875	Modèle:Bartable
11	d	34 914 685	Modèle:Bartable
12	c	30 219 574	Modèle:Bartable
13	m	24 894 034	Modèle:Bartable
14	p	23 647 179	Modèle:Bartable
15	é	18 451 937	Modèle:Bartable
16	g	11 684 140	Modèle:Bartable
17	b	10 817 171	Modèle:Bartable
18	v	10 590 858	Modèle:Bartable
19	h	10 583 562	Modèle:Bartable
20	f	10 579 192	Modèle:Bartable
21	q	6 140 307	Modèle:Bartable
22	y	4 351 953	Modèle:Bartable
23	x	3 588 990	Modèle:Bartable
24	j	3 276 064	Modèle:Bartable
25	è	2 969 466	Modèle:Bartable
26	à	2 966 029	Modèle:Bartable
27	k	2 747 547	Modèle:Bartable
28	w	1 653 435	Modèle:Bartable
29	z	1 433 913	Modèle:Bartable
30	ê	802 211	Modèle:Bartable
31	ç	544 509	Modèle:Bartable
32	ô	357 197	Modèle:Bartable
33	â	320 837	Modèle:Bartable
34	î	280 201	Modèle:Bartable
35	û	164 516	Modèle:Bartable
36	ù	151 236	Modèle:Bartable
37	ï	138 221	Modèle:Bartable
38	á	73 751	Modèle:Bartable
39	ü	55 172	Modèle:Bartable
40	ë	53 862	Modèle:Bartable
41	ö	51 020	Modèle:Bartable
42	í	48 391	Modèle:Bartable

Modèle:Légende/Début Modèle:Légende Modèle:Légende/Fin

Dans d'autres langues

Modèle:Refnec

Lettre	Anglais	Français<ref>Modèle:Lien brisé</ref>	Allemand<ref>Modèle:Ouvrage</ref>	Espagnol<ref>Modèle:Ouvrage</ref>	Portugais<ref>Modèle:Lien web</ref>	Espéranto<ref>Modèle:Lien web</ref>	Italien<ref>Modèle:Ouvrage</ref>	Turc<ref>Modèle:Lien conférence</ref>	Suédois<ref>Modèle:Lien web</ref>	Polonais<ref>https://sjp.pwn.pl/poradnia/haslo/frekwencja-liter-w-polskich-tekstach;7072.html</ref>	Néerlandais<ref name=OnzeTaal>Modèle:Lien web</ref>	Danois<ref>Modèle:Lien web</ref>	Islandais<ref>Modèle:Lien web</ref>	Finnois<ref>Modèle:Lien web</ref>	Tchèque	Lituanien<ref>Modèle:Article</ref>
a	8.167%	7.636%	6.516%	12.525%	14.634%	12.117%	11.745%	11.920%	9.383%	8.910%	7.486%	6.025%	10.110%	12.217%	8.167%	11,1912
b	1.492%	0.901%	1.886%	1.415%	1.043%	0.980%	0.927%	2.844%	1.535%	1.470%	1.584%	2.000%	1.043%	0.281%	0.822%	1,4842
c	2.782%	3.260%	3.062%	4.679%	3.882%	0.776%	4.501%	0.963%	1.486%	3.960%	1.242%	0.565%	0	0.281%	0.740%	0,6019
d	4.253%	3.669%	5.076%	5.810%	4.992%	3.044%	3.736%	4.706%	4.702%	3.250%	5.933%	5.858%	1.575%	1.043%	3.475%	2,5802
e	12.702%	14.715%	17.396%	13.681%	12.570%	8.995%	11.792%	8.912%	10.149%	7.660%	18.91%	15.453%	6.418%	7.968%	7.562%	5,6205
f	2.228%	1.066%	1.656%	0.692%	1.023%	1.037%	1.153%	0.461%	2.027%	0.300%	0.805%	2.406%	3.013%	0.194%	0.084%	0,3468
g	2.015%	0.866%	3.009%	1.008%	1.303%	1.171%	1.644%	1.253%	2.862%	1.420%	3.403%	4.077%	4.241%	0.392%	0.092%	1,7946
h	6.094%	0.737%	4.577%	0.703%	0.781%	0.384%	0.636%	1.212%	2.090%	1.080%	2.380%	1.621%	1.871%	1.851%	1.356%	0,2760
i	6.966%	7.529%	7.550%	6.247%	6.186%	10.012%	10.143%	8.600%*	5.817%	8.210%	6.499%	6.000%	7.578%	10.817%	6.073%	12,9593
j	0.153%	0.613%	0.268%	0.493%	0.397%	3.501%	0.011%	0.034%	0.614%	2.280%	1.46%	0.730%	1.144%	2.042%	1.433%	2,3380
k	0.772%	0.074%	1.217%	0.011%	0.015%	4.163%	0.009%	4.683%	3.140%	3.510%	2.248%	3.395%	3.314%	4.973%	2.894%	4,1708
l	4.025%	5.456%	3.437%	4.967%	2.779%	6.104%	6.510%	5.922%	5.275%	2.100%	3.568%	5.229%	4.532%	5.761%	3.802%	3,5019
m	2.406%	2.968%	2.534%	3.157%	4.738%	2.994%	2.512%	3.752%	3.471%	2.800%	2.213%	3.237%	4.041%	3.202%	2.446%	3,5790
n	6.749%	7.095%	9.776%	6.712%	4.446%	7.955%	6.883%	7.487%	8.542%	5.520%	10.032%	7.240%	7.711%	8.826%	6.468%	5,1441
o	7.507%	5.796%	2.514%	8.683%	9.735%	8.779%	9.832%	2.476%	4.482%	7.750%	6.063%	4.636%	2.166%	5.614%	6.695%	6,7429
p	1.929%	2.521%	0.790%	2.510%	2.523%	2.755%	3.056%	0.886%	1.839%	3.130%	1.57%	1.756%	0.789%	1.842%	1.906%	2,7344
q	0.095%	1.362%	0.018%	0.877%	1.204%	0	0.505%	0	0.020%	0.140%	0.009%	0.007%	0	0.013%	0.001%	0,0054
r	5.987%	6.693%	7.003%	6.871%	6.530%	5.914%	6.367%	6.722%	8.431%	4.690%	6.411%	8.956%	8.581%	2.872%	4.799%	5,6689
s	6.327%	7.948%	7.270%	7.977%	6.805%	6.092%	4.981%	3.014%	6.590%	4.320%	3.73%	5.805%	5.630%	7.862%	5.212%	7,8811
t	9.056%	7.244%	6.154%	4.632%	4.336%	5.276%	5.623%	3.314%	7.691%	3.980%	6.79%	6.862%	4.953%	8.750%	5.727%	5,3323
u	2.758%	6.311%	4.346%	2.927%	3.639%	3.183%	3.011%	3.235%	1.919%	2.500%	1.99%	1.979%	4.562%	5.008%	2.160%	4,5860
v	0.978%	1.838%	0.846%	0.898%	1.575%	1.904%	2.097%	0.959%	2.415%	0.040%	2.85%	2.332%	2.437%	2.250%	5.344%	2,6557
w	2.360%	0.049%	1.891%	0.017%	0.037%	0	0.033%	0	0.142%	4.650%	1.52%	0.069%	0	0.094%	0.016%	0,0368
x	0.150%	0.427%	0.034%	0.215%	0.253%	0	0.003%	0	0.159%	0.020%	0.036%	0.028%	0.046%	0.031%	0.027%	0,0733
y	1.974%	0.128%	0.039%	0.898%	0.006%	0	0.020%	3.336%	0.708%	3.760%	0.035%	0.698%	0.900%	1.745%	1.043%	1,4325
z	0.074%	0.326%	1.134%	0.467%	0.470%	0.494%	1.181%	1.500%	0.070%	5.640%	1.39%	0.034%	0	0.051%	1.599%	0,3454
à	~0%	0.486%	0	0	0.072%	0	0.635%	0	0	0	0	0	0	0	0
â	~0%	0.051%	0	0	0.562%	0	~0%	~0%	0	0	0	0	0	0	0
á	0	0	0	0.502%	0.118%	0	0	0	0	0	0	0	1.799%	0	0.867%	0,0024
å	~0%	0	0	0	0	0	0	0	1.338%	0	0	1.190%	0	0.003%	0
ä	0	0	0.578%	0	0	0	0	0	1.797%	0	0	0	0	3.577%	0
ã	0	0	0	0	0.733%	0	0	0	0	0	0	0	0	0	0
ą	0	0	0	0	0	0	0	0	0	0.990%	0	0	0	0	0	0,5418
æ	~0%	0	0	0	0	0	0	0	0	0	0	0.872%	0.867%	0	0
œ	~0%	0.018%	0	0	0	0	0	0	0	0	0	0	0	0	0
ç	~0%	0.085%	0	0	0.530%	0	0	1.156%	0	0	0	0	0	0	0
ĉ	0	0	0	0	0	0.657%	0	0	0	0	0	0	0	0	0
ć	0	0	0	0	0	0	0	0	0	0.400%	0	0	0	0	0
č	~0%	0	0	0	0	0	0	0	0	0	0	0	0	0	0.462%	0,4303
ď	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0.015%
ð	0	0	0	0	0	0	0	0	0	0	0	0	4.393%	0	0
è	~0%	0.271%	0	0	0	0	0.263%	0	0	0	0	0	0	0	0
é	~0%	1.504%	0	0.433%	0.337%	0	0	0	0	0	0	0	0.647%	0	0.633%	0,0038
ê	0	0.218%	0	0	0.450%	0	~0%	0	0	0	0	0	0	0	0
ë	~0%	0.008%	0	0	0	0	0	0	0	0	0	0	0	0	0
ė																1,6643
ę	0	0	0	0	0	0	0	0	0	1.110%	0	0	0	0	0	0,1721
ě	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1.222%
ĝ	0	0	0	0	0	0.691%	0	0	0	0	0	0	0	0	0
ğ	0	0	0	0	0	0	0	1.125%	0	0	0	0	0	0	0
ĥ	0	0	0	0	0	0.022%	0	0	0	0	0	0	0	0	0
î	0	0.045%	0	0	0	0	~0%	~0%	0	0	0	0	0	0	0
ì	0	0	0	0	0	0	(0.030%)	0	0	0	0	0	0	0	0
í	0	0	0	0.725%	0.132%	0	0.030%	0	0	0	0	0	1.570%	0	1.643%	0,0015
ï	~0%	0.005%	0	0	0	0	0	0	0	0	0	0	0	0	0
ı	0	0	0	0	0	0	0	5.114%	0	0	0	0	0	0	0
į																0,4848
ĵ	0	0	0	0	0	0.055%	0	0	0	0	0	0	0	0	0
ł	0	0	0	0	0	0	0	0	0	1.820%	0	0	0	0	0
ñ	~0%	0	0	0.311%	0	0	0	0	0	0	0	0	0	0	0
ń	0	0	0	0	0	0	0	0	0	0.200%	0	0	0	0	0
ň	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0.007%
ò	0	0	0	0	0	0	0.002%	0	0	0	0	0	0	0	0
ö	~0%	0	0.443%	0	0	0	0	0.777%	1.305%	0	0	0	0.777%	0.444%	0	0,0014
ô	~0%	0.023%	0	0	0.635%	0	~0%	0	0	0	0	0	0	0	0
ó	0	0	0	0.827%	0.296%	0	~0%	0	0	0.850%	0	0	0.994%	0	0.024%	0,0018
õ	0	0	0	0	0.040%	0	0	0	0	0	0	0	0	0	0
ø	~0%	0	0	0	0	0	0	0	0	0	0	0.939%	0	0	0
ř	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0.380%
ŝ	0	0	0	0	0	0.385%	0	0	0	0	0	0	0	0	0
ş	0	0	0	0	0	0	0	1.780%	0	0	0	0	0	0	0
ś	0	0	0	0	0	0	0	0	0	0.660%	0	0	0	0	0
š	0	0	0	0	0	0	0	0	0	0	0	0	0	~0%	0.688%	1,1339
ß	0	0	0.307%	0	0	0	0	0	0	0	0	0	0	0	0
ť	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0.006%
þ	0	0	0	0	0	0	0	0	0	0	0	0	1.455%	0	0
ù	0	0.058%	0	0	0	0	(0.166%)	0	0	0	0	0	0	0	0
ú	0	0	0	0.168%	0.207%	0	0.166%	0	0	0	0	0	0.613%	0	0.045%
û	~0%	0.060%	0	0	0	0	~0%	~0%	0	0	0	0	0	0	0
ŭ	0	0	0	0	0	0.520%	0	0	0	0	0	0	0	0	0
ü	~0%	0	0.995%	0.012%	0.026%	0	0	1.854%	0	0	0	0	0	0	0	0,0013
ů	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0.204%
ų																1,2602
ū																0,4079
ý	0	0	0	~0%	0	0	0	0	0	0	0	0	0.228%	0	0.995%
ź	0	0	0	0	0	0	0	0	0	0.060%	0	0	0	0	0
ż	0	0	0	0	0	0	0	0	0	0.830%	0	0	0	0	0
ž	0	0	0	0	0	0	0	0	0	0	0	0	0	~0%	0.721%	0,7965

*See Dotted and dotless I.

Diagramme comparatif de la fréquence des lettres dans 11 langues. Modèle:Fréquence d'apparition des lettres en 11 langues

Biais dans le calcul de la fréquence d'apparition

Le calcul de la fréquence des lettres dans une langue est difficile et soumis à interprétation. On compte la fréquence des lettres d’un texte arbitrairement long, mais un certain nombre de paramètres influencent les résultats :

Le style narratif : s’il y a beaucoup de verbes à la Modèle:2e du pluriel (le vouvoiement, présent dans beaucoup de dialogues), il y aura significativement plus de « Z ».
Le vocabulaire spécifique du document : si l’on parle de chemins de fer, il y aura beaucoup plus de « W » (wagon) ; si l’un des protagonistes se dénomme Loïc, le nombre d'« Ï » s’en ressentira.
Le type de document : des petites annonces en France présenteront souvent le symbole Euro (€), qui est absent de la plupart des autres documents.
La langue d'origine du texte : les noms propres restant généralement les mêmes entre leur version originale et leur version traduite, certaines variations de fréquences de lettres rares en français peuvent se faire ressentir. Dans un texte d'un auteur anglais par exemple, les noms propres auront tendance à faire augmenter les fréquences de lettres relativement communes dans cette langue, telles que le H, le W ou le Y.
L'époque à laquelle le texte a été rédigé : un texte français du dix-huitième siècle ne contiendra pas ou peu de W, car cette lettre était à cette époque beaucoup moins utilisée qu'aujourd'hui.
Les paramètres techniques : on peut facilement calculer des statistiques sur des textes informatisés, mais souvent ceux-ci ne comportent pas de majuscules accentuées (car difficiles à entrer sur certains ordinateurs) et il arrive aux auteurs d'oublier des accents. La graphie de l’e-dans-l’o (œ) est impossible à représenter dans le codage latin-1 qui est souvent utilisé pour les textes en français. C'est un problème parce que « œ » n'est pas une ligature esthétique (optionnelle) mais une ligature linguistique (obligatoire), elle se prononce différemment de la suite de voyelles « oe » . Par exemple, « œ » va se prononcer Modèle:MSAPI dans œsophage alors que « oe » va se prononcer Modèle:MSAPI dans coexistence.
La présence de caractères non alphabétiques (symboles de ponctuation, chiffres, parenthèses et accolades, symboles mathématiques courants…) peut ou non être prise en compte ; la virgule, le point ou l’apostrophe sont par exemple plus fréquents que plus de la moitié des lettresModèle:Refsou.

Si ces paramètres ont un impact spectaculaire sur les symboles les moins fréquents (la fréquence du œ varie entre 0,002 % et 0,09 % pour trois textes pris au hasard)Modèle:Référence nécessaire, elle est également sensible même pour les lettres les plus fréquentes (l’ordre de fréquence des lettres A, S, I, T et N, qui sont les plus fréquentes à part E, fluctue d’un texte à l’autre).

Histoire et usage

Le calcul de la fréquence d'apparition des lettres remonte au mathématicien arabe Al-Kindi (vers 801-873 de notre ère), qui l'utilise dans le but de casser des codes secrets, bien qu'on ait parlé du code César utilisé par Jules César au Modèle:Lien siècle Modèle:Vérification siècle avant notre èreModèle:Refsou. L'analyse de la fréquence des lettres prend de l'importance en Europe avec le développement des caractères mobiles en 1450 de notre ère, parce qu'il est nécessaire d'anticiper la quantité de caractères nécessaires pour imprimer les textes. Depuis le Modèle:Lien siècle Modèle:Vérification siècle, les linguistes utilisent également la fréquence des lettres une première identification des langues perdues : elle est particulièrement efficace pour indiquer si un système d'écriture inconnu est alphabétique, syllabique ou idéographique.

La fréquence d'apparition des lettres joue un rôle fondamental dans les cryptogrammes et dans plusieurs jeux liés à la manipulation des lettres, tels que le pendu, le Scrabble, le Wordle et le jeu télévisé La roue de la fortune. En littérature, Edgar Allan Poe, dans Le Scarabée d'or (1843), se sert de la connaissance de la fréquence des lettres anglaises pour lire un cryptogramme qui contient l'emplacement du trésor caché du capitaine Kidd.

En 1840, quand Alfred Vail crée le code américain pour le télégraphe électrique de Morse, il se fonde sur la base des fréquences des lettres en langue anglaise (selon l'ordre Modèle:Citation), et code les lettres les plus fréquentes avec les symboles les plus courts. Le passage au code Morse international a émoussé l'efficacité du procédé.

Notes et références

Modèle:Références

Annexes

Articles connexes

Analyse fréquentielle

Liens externes

Modèle:Portail

Anonyme

Rechercher

Fréquence d'apparition des lettres

Espaces de noms

Plus

Actions de la page

Sommaire

Base statistique de calcul : le corpus

Dans d'autres langues

Biais dans le calcul de la fréquence d'apparition

Histoire et usage

Notes et références

Annexes

Articles connexes

Liens externes

Navigation

Navigation

Contribuer

Outils wiki

Outils wiki

Anonyme

Rechercher

Fréquence d'apparition des lettres

Base statistique de calcul : le corpus

Dans d'autres langues

Biais dans le calcul de la fréquence d'apparition

Histoire et usage

Notes et références

Annexes

Articles connexes

Liens externes

Navigation

Outils wiki

Outils de la page

Liste des catégories