Discussion:
code phonétique
(trop ancien pour répondre)
vanderschooten.jackie
2004-12-30 07:42:44 UTC
Permalink
Dans PAF (et peut-être dans d'autres logciels) un outil permet de calculer
le code phonétique d'un patronyme.
Peut-on m'expliquer (simplement si possible) de quoi il s'agit et quelle en
est l'utilité.
Merci d'avance
--
Jackie Vanderschooten
Christian Palluy
2004-12-30 08:13:11 UTC
Permalink
Post by vanderschooten.jackie
Dans PAF (et peut-être dans d'autres logciels) un outil permet de calculer
le code phonétique d'un patronyme.
Peut-on m'expliquer (simplement si possible) de quoi il s'agit et quelle en
est l'utilité.
Merci d'avance
Il s'agit de trouver un indice permettant de regrouper, dans de très
grandes bases de données, des noms d'orthographe et prononciation
voisines. Cela a été mis au point aux USA pour gérer les recherches dans
les bases de données des recensements.
Le principe:
On garde la première lettre.
Pour les lettres suivantes
On supprime toutes les voyelles
On supprime les consonnes doublées
Sur ce qui reste on calcule un numéro à 3 chiffres selon la
correspondance suivante:
Nombres Lettres
1 B, F, P, V
2 C, G, J, K, Q, S, X, Z
3 D, T
4 L
5 M, N
6 R
Par exemple avec ce système, les noms suivants:
- Palluy -- Pallui -- Pallua -- Pallu et les mêmes avec un seul "L"
donnent tous P-400
Autre exemple:
Gutierrez est codé G-362 (G, 3 pour T, 6 pour le premier R, le second R
est ignoré, 2 pour Z)
Pour ceux qui lisent l'anglais ce lien explique bien:
http://www.archives.gov/research_room/genealogy/census/soundex.html
--
Bien cordialement
Ch. PALLUY

Votre avis m'intéresse:
Visitez ma page: http://perso.wanadoo.fr/christian.palluy/
vanderschooten.jackie
2004-12-30 08:22:18 UTC
Permalink
Merci pour la rapidité et la clarté de votre réponse.
Cordialement
--
Jackie Vanderschooten
Emmanuel Aubert
2004-12-30 13:41:42 UTC
Permalink
Post by Christian Palluy
http://www.archives.gov/research_room/genealogy/census/soundex.html
Et Soudex fonctionne-t-il bien avec les noms français ?
--
Manu
Denis Beauregard
2004-12-30 14:12:40 UTC
Permalink
Le Thu, 30 Dec 2004 14:41:42 +0100, "Emmanuel Aubert"
Post by Emmanuel Aubert
Post by Christian Palluy
http://www.archives.gov/research_room/genealogy/census/soundex.html
Et Soudex fonctionne-t-il bien avec les noms français ?
Pas toujours. Beauregard a le même code que Berger, Burger,
Brassier, Brasseur, etc. Mais Nault et Naud n'ont pas le même
code.

Il est à remarquer qu'il y a d'autres codes comme le métaphone.
De plus, familysearch utilise d'autres techniques pour les
recherches dans ses bases de données en ligne (et ce site est
aussi celui des Mormons).


Denis
--
0 Denis Beauregard
/\/ www.francogene.com
|\ >>Adresse modifiée souvent/email changed frequently<<
/ | Société généalogique canadienne-française
oo oo Ses Mémoires 60 ans en 2004 ! - www.sgcf.com
Patrick Texier
2005-01-03 13:37:18 UTC
Permalink
Le Thu, 30 Dec 2004 09:12:40 -0500, Denis Beauregard
Post by Denis Beauregard
Post by Emmanuel Aubert
Et Soudex fonctionne-t-il bien avec les noms français ?
Pas toujours. Beauregard a le même code que Berger, Burger,
Brassier, Brasseur, etc. Mais Nault et Naud n'ont pas le même
code.
J'avais publié ma routine Perl qui fait le traitement
http://www.google.fr/groups?selm=cmr3tt.3vs7rvp.1%40genindre.org&output=gplain

Je l'utilise pour cousinsgenweb et
http://www.genindre.org/releves/annu1936.htm taper par exemple iverno et
bruno avec orthographe approchée.
--
Patrick Texier
Yermat
2004-12-30 14:16:59 UTC
Permalink
Post by Emmanuel Aubert
Post by Christian Palluy
http://www.archives.gov/research_room/genealogy/census/soundex.html
Et Soudex fonctionne-t-il bien avec les noms français ?
Oui et non !

En fait, il y a un algo de soundex par langues/pays.

Pour le français voir par exemple :
http://www.chez.com/algor/soundex/soundex.htm

<cite>L'implémentation de la fonction soundex a été décrite par Donald
Knuth dans "The Art Of Computer Programming, vol. 3: Sorting And
Searching", Addison-Wesley (1973), pp. 391-392.</cite>

Par contre il faudrait vraiment l'adapter à chaque région. Par exemple
en Savoie, Gelloz, Gellot, Gelot, Gelod se prononce pareil mais les
soundex sont différents... Bref soundex permet d'avoir une idée de la
différence de prononciation mais c'est tout.
--
Yermat
Christian Palluy
2004-12-30 16:03:56 UTC
Permalink
Post by Yermat
Post by Emmanuel Aubert
Post by Christian Palluy
http://www.archives.gov/research_room/genealogy/census/soundex.html
Et Soudex fonctionne-t-il bien avec les noms français ?
Oui et non !
En fait, il y a un algo de soundex par langues/pays.
http://www.chez.com/algor/soundex/soundex.htm
<cite>L'implémentation de la fonction soundex a été décrite par Donald
Knuth dans "The Art Of Computer Programming, vol. 3: Sorting And
Searching", Addison-Wesley (1973), pp. 391-392.</cite>
Par contre il faudrait vraiment l'adapter à chaque région. Par exemple
en Savoie, Gelloz, Gellot, Gelot, Gelod se prononce pareil mais les
soundex sont différents... Bref soundex permet d'avoir une idée de la
différence de prononciation mais c'est tout.
De fait le soundex américain privilégie les consonnes, ce qui est un peu
logique dans le contexte. Pour avoir un équivalent en français, il
faudrait privilégier les voyelles. Ce ne serait pas parfait car les noms
contenant "O" se rangeraient dans des codes différents selon la façon
d'écrire ce son (eau - au - o ).
Et il y a peut-être d'autres exemples.
Mais y a t-il une solution ?
--
Bien cordialement
Ch. PALLUY

Votre avis m'intéresse:
Visitez ma page: http://perso.wanadoo.fr/christian.palluy/
Christian Palluy
2004-12-30 15:25:15 UTC
Permalink
Post by Emmanuel Aubert
Post by Christian Palluy
http://www.archives.gov/research_room/genealogy/census/soundex.html
Et Soudex fonctionne-t-il bien avec les noms français ?
Sur de très grandes bases de données (au moins 100 000 lignes) çà aide.
Personnellement je n'en ai pas encore eu l'utilité.
Je sais que certains ont tenté une adaptation française, mais cela est
resté confidentiel, au moins à ma connaissance.
Ce qui est important c'est que tout soit indexé de la même manière.
Pour tenter d'apprécier si le soundex est bien adapté aux noms français,
il faut l'appliquer sur un échantillon représentatif de noms et
apprécier l'intérêt du résultat.
--
Bien cordialement
Ch. PALLUY

Votre avis m'intéresse:
Visitez ma page: http://perso.wanadoo.fr/christian.palluy/
Denis Beauregard
2004-12-30 16:41:11 UTC
Permalink
Le Thu, 30 Dec 2004 16:25:15 +0100, Christian Palluy
Post by Christian Palluy
Post by Emmanuel Aubert
Post by Christian Palluy
http://www.archives.gov/research_room/genealogy/census/soundex.html
Et Soudex fonctionne-t-il bien avec les noms français ?
Sur de très grandes bases de données (au moins 100 000 lignes) çà aide.
Personnellement je n'en ai pas encore eu l'utilité.
Je sais que certains ont tenté une adaptation française, mais cela est
resté confidentiel, au moins à ma connaissance.
Ce qui est important c'est que tout soit indexé de la même manière.
Pour tenter d'apprécier si le soundex est bien adapté aux noms français,
il faut l'appliquer sur un échantillon représentatif de noms et
apprécier l'intérêt du résultat.
Quand j'avais fait mon logiciel, il y a 10 ans environ, j'avais
utilisé 2 algorithmes pour comparaison.

Dans un premier temps, le soundex pur. Donc, BEAUREGARD ou BOURGARD
ou BOREGAARDE ou BRASSEUR -> B626.

Dans un 2e temps, chaque paire de lettre consécutive du nom 1 et du
nom 2. Ainsi, BEAUREGARD et BEAUREGARE ont 1 différence, mais avec
BOURGARD, c'est beaucoup. Les variations mineures sont toutefois
calculées comme faibles.

Mais, ce n'était pas acceptable pour une recherche tout azimut dans
une grosse base (que je n'avais pas il y a 10 ans).

Aujourd'hui, je procède différemment: je classe les noms par ordre
alphabétique et je recherche les consécutifs avec 2 ou 3 éléments
similaires. C'est loin d'une recherche comme les gens voudraient
l'avoir, sans doute. Par contre, pour classer 100 000 ou 1 million
de mariages et rattacher les parents, c'est assez bon.

Par ailleurs, le PRDH, qui a une base d'environ 700 000 actes et
2,7 millions de personnes, utilise une autre approche assez
différente. Les noms semblables sont identifiés à la main (je suppose
qu'on trie les noms et qu'on décide que par exemple GAUTHIER c'est
GAULTIER). J'ai vu dans leur base qu'il y avait un certain nombre
de conversions imprévisibles que je n'ai pas en mémoire. Mais il
s'agit de correspondances connues. Par exemple, je sais que les
BEAUJARRET sont en réalité des BEAUREGARD dit JARRET (il y a 2
personnes de ce nom). Donc, je pourrais avoir la conversion
BEAUJARRET vers BEAUREGARD JARRET ou vers BEAUREGARD ou vers JARRET.

Un inconvénient de cette méthode, c'est quand un nom est à la limite
de 2 autres, ainsi que la concentration de noms différents vers le
même nom (tous les RIVIÈRE deviennent des LARIVIÈRE, les LEROY des
ROY etc.). Pour une recherche, ce n'est pas grave, mais parfois,
on veut distinguer les familles et cela devient impossible.

Si le PRDH en est venu à des conversions connues et non un
algorithme, c'est qu'on a déduit qu'un algorithme ne donnait pas
les bons résultats pour du classement automatique.


Denis
--
0 Denis Beauregard
/\/ www.francogene.com
|\ >>Adresse modifiée souvent/email changed frequently<<
/ | Société généalogique canadienne-française
oo oo Ses Mémoires 60 ans en 2004 ! - www.sgcf.com
Boucher Jean
2004-12-30 09:09:28 UTC
Permalink
Post by vanderschooten.jackie
Dans PAF (et peut-être dans d'autres logciels) un outil permet de calculer
le code phonétique d'un patronyme.
Peut-on m'expliquer (simplement si possible) de quoi il s'agit et quelle
en est l'utilité.
Merci d'avance
--
Jackie Vanderschooten
Il s'agit du code Soundes, dont voici la définition :

Définition du code « Soundex »[1]









Le terme Soundex s'applique à un système permettant de conserver, dans un
même endroit, des noms de sonorité voisine débutant par la même lettre,
malgré les différences ou les erreurs d'écriture. Par exemple, le code
Soundex pour le patronyme « Cayron » est C560; ce code est identique pour
les variantes telles que « Cairon », « Chéron », etc... Le code Soundex
consiste à ajouter un chiffre aux consonnes de sonorité voisine.







Le code Soundex d'un patronyme se compose de son initiale et d'un ensemble
numérique basé sur les consonnes utilisées dans ce même patronyme. Toutes
les voyelles ainsi que les consonnes y (sic), w et h sont ignorées. Des
zéros sont ajoutés en fin de code pour compenser un nombre de trois chiffres
si le patronyme ne contient pas trois lettres pouvant être codifiées. S'il
contient plus de trois consonnes, seules les trois premières sont codifiées.







La valeur numérique des codes Soundex est:





1 = b, f, p, v

2 = c, g, j, k, q, s, x, z

3 = d, t

4 = l

5 = m, n

6 = r







Aucun code n'est affecté aux lettres a, e, i, o, u, y, w, ou h. Quand deux
lettres de même valeur numérique sont voisines, elles sont codifiées comme
une seule lettre.



--------------------------------------------------------------------------------

[1] Extrait du manuel « Roots ».
Patrick Texier
2005-01-06 08:40:37 UTC
Permalink
Le Thu, 30 Dec 2004 08:42:44 +0100, "vanderschooten.jackie"
Post by vanderschooten.jackie
Dans PAF (et peut-être dans d'autres logciels) un outil permet de calculer
le code phonétique d'un patronyme.
Pour obtenir les soundex de tous les patronymes d'une base LifeLines :

================ soundexlist.ll ==========
global(namelist)
global(nametable)
global(indiv)
global(count)
global(onename)
global(mysoundex)

proc main ()
{
table(nametable)
list(namelist)
forindi(indiv, count) {
set(onename, surname(indiv))
if(not(lookup(nametable, onename))) {
set(mysoundex, strsoundex(onename))
insert(nametable, onename, mysoundex)
push(namelist, onename)
}
}
forlist(namelist, onename, count) {
onename ";" lookup(nametable, onename) nl()
}
}
==========================================

Cela nous donne quand même :

A350 : Adam, Aden, Adhumeau, Audoin
A414 : Alablanche, Alaphilippe, Alaplantive
A425 : Alagounotte, Alexandre
--
Patrick Texier
Loading...