ANALYSE STATISTIQUE DE DEUX TABLEAUX NUMÉRIQUES PUBLIÉS PAR LE GEIPAN.
Yves Lignon
Département de Mathématiques - Université de Toulouse-Le Mirail.
Yves Lignon
Département de Mathématiques - Université de Toulouse-Le Mirail.
I - INTRODUCTION.
Le grand public se méprend souvent sur le sens du mot statistique. Scientifiquement la "statistique" est une branche des mathématiques qui fournit des outils permettant d'analyser l'information fournie par les activités humaines ou par des activités se produisant dans l'environnement humain.
On distingue :
a) la "statistique descriptive". Construction de tableaux (auxquels on peut éventuellement associer des représentations graphiques pour de simples questions de clarté) et calcul de divers indices "résumant" les tableaux.
Exemple : dans une classe de lycée à propos d'une composition de français construire un tableau à deux colonnes : notes attribuées – nombre de fois où chaque note a été attribuée puis calcul de l'indice : note moyenne.
b) la "statistique inductive" qui cherche à aller au delà des apparences, à découvrir la face cachée de l'iceberg et consiste souvent à se demander mathématiquement si certaines hypothèses sont compatibles avec le matériel fourni par la "statistique descriptive".
Dans l'exemple ci-dessus : à partir de la note moyenne peut on admettre l'hypothèse selon laquelle l'ensemble des élèves a progressé depuis la composition précédente ou doit-on se contenter de l'hypothèse selon laquelle le hasard suffit pour expliquer la différence entre les moyennes des deux compositions ?
C'est évidemment quand on se contente de la "statistique descriptive" que la "statistique" acquiert une mauvaise réputation (on connaît ce mot : "Il y a dans l'ordre les menteurs, les sacrés menteurs et, pire que tout, les statisticiens") puisqu'on peut commenter subjectivement un tableau de nombres et qu'un commentaire subjectif n'a pas de valeur scientifique (on le vérifie souvent dans les débats politiques où les représentants de partis opposés commentent le même tableau).
De plus IL EST TRIVIAL que la qualité des résultats de l'analyse statistique dépend fortement de la qualité des données à traiter (autre mot : "Si vous demandez à une calculette combien font 14 + 15 elle répondra 29 même s'il s'agit de 14 kilos de carottes et de 15 joueurs de rugby"). Le statisticien peut donc être conduit à écarter certaines données susceptibles d'introduire un biais. Ce choix (écarter des données) relève alors d'un travail d'artisan qui doit être effectué avec le plus grand respect de l'éthique (ne pas écarter des données qui dérangent).
2 - ANALYSE DU TABLEAU "RÉPARTITION DES OBSERVATIONS DE PAN PAR ANNÉE".
Le GEIPAN fournit un tableau donnant le nombre d'observations de PAN pour les années 1963, 64, 70, 73, 74, 77 et 1979 à 2008.
Ont été écartées les années antérieures à 1979 (nombre d'observations beaucoup trop faible) et 2008 (non encore terminée à la date de publication du tableau). Les années 1979 et 1980 ont été mises en réserve en vue d'une utilisation ultérieure. Les nombres correspondant à ces deux années sont en effet qualifiés en statistique de "valeurs extrêmes" c'est à dire à la fois peu nombreuses et notablement différentes de l'ensemble des autres valeurs numériques à analyser. La théorie mathématique apprend que des valeurs extrêmes sont susceptibles d'introduire un biais dans les calculs (si on calcule la taille moyenne d'un groupe de personnes "ordinaires" au milieu desquelles s'est glissé un basketteur on ne tiendra pas compte de la présence de ce sportif).
Enfin, dans le but d'éliminer certains facteurs aléatoires en concentrant l'information on a regroupé les années en "classes" de trois (première "classe" : 1981, 82, 83 … dernière "classe" 2005, 06, 07).
L'analyse statistique porte donc sur un tableau donnant pour chaque classe le nombre cumulé d'observations de PAN (pour la classe 1981, 82, 83 ce nombre est 60 + 33 + 35 = 128).
L'emploi des méthodes de "statistique descriptive" permet de calculer une moyenne par "classes" (78,667 observations) et surtout un indice dit de dispersion dont la valeur (27,260) est élevée ce qui permet de dire qu'il y a une grande dispersion des nombres d'observations par classe autour de leur moyenne.
On est alors amené ("statistique inductive") à tester l'hypothèse selon laquelle cette fluctuation s'explique par le hasard. L'emploi d'une méthode classique (dite du test d'ajustement) conduit à prendre la décision de rejeter cette hypothèse. Le risque d'erreur associé à cette décision est inférieur à 1 / 1000 donc très faible (pour mettre un médicament sur le marché on utilise souvent un risque de 1 / 100).
On conclut que le hasard ne semble pas une hypothèse raisonnable pour rendre compte de la fluctuation du nombre d'observations de PAN durant la période 1981 – 2007.
De même l'emploi d' une autre méthode classique (dite test de Student) conduit à rejeter l'hypothèse selon laquelle le hasard suffit à expliquer la différence entre le nombre moyen d'observations pour la période 1981 – 2007 et les nombres particulièrement élevés observés en 1979 et 1980. Le risque d'erreur est compris entre 1 / 100 et 2 / 100. Il reste suffisamment faible pour qu'on puisse ici aussi rejeter l'hypothèse selon laquelle le hasard suffirait à expliquer la différence entre le nombre moyen d'observations pour la période 1981 – 2007 et le nombre d'observations des années 1979 et 1980.
3 - ANALYSE DU TABLEAU "RÉPARTITION DES OBSERVATIONS DE PAN PAR RÉGIONS FRANCAISES".
Le GEIPAN fournit un tableau donnant le nombre d'observations par région. La période durant laquelle ces observations ont été effectuées n'est pas indiquée. On note quelques curiosités :
- les mentions "Autre" et "National" sans doute relatives à des observations dont la région d'origine est inconnue et à des observations communes à plusieurs régions.
- "Nord Pas de Calais" mentionné à deux reprises, sans doute parce que cette région est constituée des deux départements du Nord et du Pas de Calais et que les deux nombres correspondants n'ont pas été additionnés.
Ont été exclues pour le traitement statistique : "Autre", "Ile de France "(région entièrement urbaine donc sociologiquement différente du reste du territoire métropolitain), "Outre Mer" (sociologiquement et géographiquement différente de l'ensemble du territoire métropolitain).
Pour concentrer l'information les régions conservées ont été réparties en quatre zones géographiques en utilisant les droites Dunkerque – Perpignan et La Roche sur Yon – Châlon sur Saône.
N-E : Alsace, Bourgogne, Champagne-Ardennes, Franche-Comté, Lorraine, Nord-Pas de Calais, Picardie.
N-W : Basse-Normandie, Bretagne, Centre, Haute-Normandie, Pays de Loire.
S-E : Auvergne, Corse, Languedoc-Roussillon, Provence – Alpes – Côte d'Azur, Rhône – Alpes.
S-W : Aquitaine, Limousin, Midi-Pyrénées, Poitou – Charentes.
Il a paru essentiel de tenir compte de la densité de la population dans chaque région (si des escadres d'OVNIS survolaient le Sahara il y aurait peu de témoins pour le rapporter). Par conséquent à chaque région a été associé l'indice A = 100 ( N / d) où N est le nombre d'observations figurant sur le tableau du GEIPAN et d la densité de la population correspondante (source : Quid 2000).
L'analyse statistique a eu ici pour but de tester l'hypothèse selon laquelle quand on passe d'une zone géographique à une autre les différences entre les valeurs de A sont attribuables au hasard. La technique utilisée (test de Kruskal – Wallis) amène à conclure que cette hypothèse ne peut pas être rejetée.
4 - RÉSUMÉ DES CONCLUSIONS.
A ) Les hypothèses expliquant par le hasard
- les fluctuations entre nombre d'observations par années pour la période 1981- 2007
- la différence entre le nombre moyen d'observations pour la période 1981- 2007 et les nombres d'observations pour 1980 et 1981 peuvent être rejetées
B) L'hypothèse expliquant par le hasard la variation, entre zones géographiques, de l'indice rendant compte du nombre d'observations par région ne peut pas être rejetée.
5 - BREF COMMENTAIRE.
L'analyse statistique permet donc d'exclure le hasard comme explication du fait que le nombre d'observations varie selon les années. Elle ne fournit pas une hypothèse alternative parmi toutes les possibles et c'est à la recherche ufologique de recenser ces alternatives puis de faire un tri parmi elles. La plus grande rigueur s'impose dans cette perspective car il est immédiat que de nombreux artefacts sont susceptibles de rendre compte de ces changements d'une année à l'autre.
6 - PERSPECTIVES.
Les seuls cas d'observations présentant un véritable intérêt scientifique sont ceux rangés par le GEIPAN dans la catégorie "PAN D". La mise en évidence d'éventuelles caractéristiques communes à ces PAN D est le type même de travail qui pourrait être confié à de jeunes chercheurs en statistique.
Hier à 22:38 par Schattenjäger
» GILDAS BOURDAIS
Hier à 16:04 par Invité
» Une grotte mystérieuse...En réalité pas grand chose!
Jeu 14 Nov - 12:37 par Satanas
» La France en 2024
Mer 13 Nov - 22:16 par Satanas
» L'HISTOIRE QUI A TERRIFIÉ L'EST DE LA FRANCE
Lun 11 Nov - 19:29 par Schattenjäger
» Le cas Paul Bernardo
Lun 11 Nov - 18:09 par Satanas
» 11 Km de Profondeur Sous l’Océan : Ce Que Cachent les Abysses
Mer 6 Nov - 21:50 par Schattenjäger
» 5 THÉORIES SUR BOUDDHA
Mer 6 Nov - 15:11 par Satanas
» Lieux hantés d'Écosse : châteaux, légendes et malédictions.
Ven 1 Nov - 18:45 par Schattenjäger
» Roswell 75 ans /documentaire chaine W9
Jeu 31 Oct - 20:27 par Mulder26
» Les Incidents les plus Sombres de la TV (ft.@Feldup)
Jeu 31 Oct - 12:41 par Satanas
» L'étrange disparition de l'homme qui aurait construit une machine à voyager dans le temps
Mer 30 Oct - 22:16 par Schattenjäger
» SECRETS CACHÉS SOUS TERRE - "The Oldest View"
Mer 30 Oct - 20:56 par Schattenjäger
» L'Iceberg des Red Rooms : La plus grande enquête sur ce mystère d'internet
Mar 29 Oct - 23:14 par Schattenjäger
» 1/2 tonne: la quête mortelle des géants de la force
Jeu 24 Oct - 18:09 par Mulder26