Le Thu, 30 Dec 2004 16:25:15 +0100, Christian Palluy
Post by Christian PalluyPost by Emmanuel AubertPost by Christian Palluyhttp://www.archives.gov/research_room/genealogy/census/soundex.html
Et Soudex fonctionne-t-il bien avec les noms français ?
Sur de très grandes bases de données (au moins 100 000 lignes) çà aide.
Personnellement je n'en ai pas encore eu l'utilité.
Je sais que certains ont tenté une adaptation française, mais cela est
resté confidentiel, au moins à ma connaissance.
Ce qui est important c'est que tout soit indexé de la même manière.
Pour tenter d'apprécier si le soundex est bien adapté aux noms français,
il faut l'appliquer sur un échantillon représentatif de noms et
apprécier l'intérêt du résultat.
Quand j'avais fait mon logiciel, il y a 10 ans environ, j'avais
utilisé 2 algorithmes pour comparaison.
Dans un premier temps, le soundex pur. Donc, BEAUREGARD ou BOURGARD
ou BOREGAARDE ou BRASSEUR -> B626.
Dans un 2e temps, chaque paire de lettre consécutive du nom 1 et du
nom 2. Ainsi, BEAUREGARD et BEAUREGARE ont 1 différence, mais avec
BOURGARD, c'est beaucoup. Les variations mineures sont toutefois
calculées comme faibles.
Mais, ce n'était pas acceptable pour une recherche tout azimut dans
une grosse base (que je n'avais pas il y a 10 ans).
Aujourd'hui, je procède différemment: je classe les noms par ordre
alphabétique et je recherche les consécutifs avec 2 ou 3 éléments
similaires. C'est loin d'une recherche comme les gens voudraient
l'avoir, sans doute. Par contre, pour classer 100 000 ou 1 million
de mariages et rattacher les parents, c'est assez bon.
Par ailleurs, le PRDH, qui a une base d'environ 700 000 actes et
2,7 millions de personnes, utilise une autre approche assez
différente. Les noms semblables sont identifiés à la main (je suppose
qu'on trie les noms et qu'on décide que par exemple GAUTHIER c'est
GAULTIER). J'ai vu dans leur base qu'il y avait un certain nombre
de conversions imprévisibles que je n'ai pas en mémoire. Mais il
s'agit de correspondances connues. Par exemple, je sais que les
BEAUJARRET sont en réalité des BEAUREGARD dit JARRET (il y a 2
personnes de ce nom). Donc, je pourrais avoir la conversion
BEAUJARRET vers BEAUREGARD JARRET ou vers BEAUREGARD ou vers JARRET.
Un inconvénient de cette méthode, c'est quand un nom est à la limite
de 2 autres, ainsi que la concentration de noms différents vers le
même nom (tous les RIVIÈRE deviennent des LARIVIÈRE, les LEROY des
ROY etc.). Pour une recherche, ce n'est pas grave, mais parfois,
on veut distinguer les familles et cela devient impossible.
Si le PRDH en est venu à des conversions connues et non un
algorithme, c'est qu'on a déduit qu'un algorithme ne donnait pas
les bons résultats pour du classement automatique.
Denis
--
0 Denis Beauregard
/\/ www.francogene.com
|\ >>Adresse modifiée souvent/email changed frequently<<
/ | Société généalogique canadienne-française
oo oo Ses Mémoires 60 ans en 2004 ! - www.sgcf.com