. 2.Approche cas-parents ..i.Association mesurée par un déséquilibre de transmission allélique ..aPremières approches Répondant à la difficulté de construire un groupe approprié de témoins, Falk et Rubinstein (1987) proposent d’utiliser les allèles des parents non transmis à l’enfant-cas comme échantillon de témoins. A partir des génotypes des parents et de l’enfant-cas, le principe de la méthode proposée est de reconstituer le « génotype non-transmis » et de comparer les fréquences de la présence de l’allèle d’intérêt entre les génotypes des cas (génotype constitué par les allèles transmis) et les génotypes des pseudo-témoins (constitué par les allèles non transmis). Tableau 12: Analyse non appariée des génotypes transmis et non transmis, pour la construction du test HRR de Falk et Rubinstein (1987 - Cas d’un gène candidat à 2 allèles a et A, où A est l’allèle d’intérêt)
| Cas
(enfant-cas)
| Témoin (génotype non transmis reconstruit)
|
| Porteur de A
| d
| g
|
| Non porteur de A
| n-d
| n-g
|
|
| n
| n
| 2n génotypes
|
L’association entre l’allèle d’intérêt et le statut cas est estimée de façon équivalente aux études cas-témoins traditionnelles par le calcul usuel du produit croisé des effectifs du tableau 2x2. Cet odds-ratio a été appelé initialement Haplotype Relative Risk (HRR) puis Genotype-based HRR (GHRR). GHRR (Statistique de test) = 2n (d-g)2 / (d+g)(2n-d-g) D’autres auteurs se sont inspirés de cette méthode et proposent des statistiques de test plus puissantes, qui différent entre elles dans les détails. Ces travaux s’appuient sur les hypothèses d’indépendance de transmission entre les allèles pour chaque parent et d’indépendance de transmission des allèles entre les parents. Ils comptabilisent les 4n allèles transmis et non transmis aux n enfants-cas, et construisent un tableau 2x2 croisant la présence ou l’absence de l’allèle d’intérêt avec le statut cas (allèle transmis) ou témoin (allèle non transmis parmi les allèles parentaux). Il s’agit des travaux de Terwilliger et Ott (1992, Haplotype-based HRR ou HHRR) ou de Thomson (1995, Affected Family-BAsed Controls ou AFBAC). HHRR (Statistique de test) = 4n (w-y)2 / (w+y)(4n-w-y)
Tableau 13: Analyse non appariée des allèles transmis et non transmis, pour la construction des tests étendus du HRR
| Cas
(allèle transmis)
| Témoin
(allèle non transmis)
|
| A
| w
| y
|
| a
| 2n-w
| 2n-y
|
|
| 2n
| 2n
| 4n allèles
|
Les statistiques GHRR et HHRR sont des statistiques usuelles de table de contingence 2x2 de Pearson, qui suivent approximativement une loi du Khi-deux à 1 degré de liberté. Ces premières approches utilisant un groupe interne de témoins, restent cependant sensibles au biais de stratification génétique de population, puisqu’une structure ou un mélange de populations crée une dépendance entre les allèles transmis et non transmis si le locus marqueur n’est pas le locus de la maladie (Ewens et Spielman, 1995).
..bLes tests de déséquilibre de transmission allélique L’idée du test du déséquilibre de transmission (Transmission Disequilibrium Test, TDT) développé par Spielman et al. (1993) est inspirée des tests précédents. Il offre une version appariée de l’analyse des allèles transmis et non transmis présentée dans le Tableau 13. Il s’agit d’évaluer la déviation possible aux lois mendéliennes de la transmission des allèles à partir des parents hétérozygotes à leur enfant-cas. Chaque paire d’allèles d’un parent hétérozygote est considérée comme une paire appariée constituée d’un allèle transmis et d’un allèle non transmis. Les deux allèles parentaux ont une chance égale d’être transmis s’il n’y a pas d’association (ou de déséquilibre de liaison entre le locus marqueur et le locus de la maladie), et inversement. Le test est ainsi insensible au biais de structure de population. Tableau 14: Analyse appariée des allèles transmis et non transmis, pour la construction du TDT
|
| Allèles Non Transmis
|
|
|
| A
| a
|
| Allèle Transmis
| A
| a
| b
| w = a+b
| a
| c
| d
| 2n-w = c+d
|
|
| y = a+c
| 2n-y = b+d
| 2n
|
Le TDT est une statistique de test de McNemar pour séries appariées, qui suit approximativement une loi du Khi-deux à 1 degré de liberté pour un nombre important de paires discordantes (b+c) (nombre total de parents hétérozygotes, d’après le Tableau 14). TDT (Statistique de test) = (b-c)² / (b+c) L’odds-ratio (de transmission de l’allèle d’intérêt A comparé à l’allèle a) est mesuré de façon équivalente aux études appariées traditionnelles par le rapport b/c, tandis que les effectifs a et d issus des parents homozygotes n’apportent aucune information de transmission. Si b>c ou l’allèle A est préférentiellement transmis dans le groupe d’enfants-cas, nous rapportons que l’allèle A est à risque pour la maladie étudiée. Inversement, si l’allèle a est transmis préférentiellement à A, l’allèle A est dit protecteur. L’idée initiale du développement du TDT est de localiser les gènes de la maladie par l’existence d’un déséquilibre de liaison entre le locus marqueur et le locus de la maladie. Ainsi, les auteurs présentent le TDT comme un test de liaison en présence d’une association (ou de déséquilibre de liaison) ou de façon équivalente comme un test d’association en présence de liaison. Ceci peut se comprendre de la façon suivante. Soient deux loci, le locus de la maladie défini par deux allèles M/s et le locus marqueur A/a. L’allèle à risque de maladie M peut être associé à l’un ou l’autre des allèles du locus-marqueur et ainsi former deux haplotypes: M-A/s-a ou M-a/s-A. Un enfant est dit non-recombinant par rapport à l’un de ses parents hétérozygotes s’il conserve la même forme haplotypique, et recombinant s’il a hérité d’un gamète recombiné. Il n’existe pas de liaison entre les deux loci si les gamètes recombinés ou non recombinés ont autant de chance de se produire. Il existe une liaison s’il a été transmis chez l’enfant plus fréquemment un type spécifique d’haplotype. En l’absence d’association, nous accordons autant de chances pour les parents hétérozygotes de porter l’une ou l’autre forme haplotypique des deux loci. Sans la visibilité de l’information haplotypique chez l’enfant (en pratique, le locus de la maladie est inconnu), nous sommes dans l’impossibilité de classer l’enfant « recombinant » ou « non-recombinant », c’est-à-dire de savoir si, par exemple chez les enfants, l’allèle M est plus souvent associé à l’allèle A du locus-marqueur, et donc de détecter une liaison. Les allèles-marqueurs des parents sont alors transmis de façon aléatoire aux enfants quelle que soit la proportion de gamètes recombinés, et le TDT ne détecte aucun signal. Inversement, considérons la situation sans liaison et en présence d’association dans la population : les fréquences des formes haplotypiques chez les parents hétérozygotes sont disproportionnées, chaque forme haplotypique a autant de chance de transmettre un gamète recombiné et un gamète non recombiné, ce qui implique ainsi une transmission aléatoire des allèles-marqueurs des parents à l’enfant, et finalement aucun signal du TDT. Le test détecte un signal lorsque l’apparente transmission des allèles des parents hétérozygotes dévie des proportions mendéliennes (1:1).
..cExtensions du TDT Le test de déséquilibre de transmission a été proposé initialement pour un cas simple d’un gène possédant deux allèles. De nombreux auteurs ont étendu ce test aux situations de locus marqueur avec plus de deux allèles. Il s’agit des travaux de Bickeboller et Clerget-Darpoux (1995), Sham et Curtis (1995), Schaid (1996), Spielman et Ewans (1996), Lazzeroni et Lange (1998), qui calculent tous une statistique du Khi-deux pour un test global de déséquilibre de transmission allélique. Des méthodes basées sur des modélisations logistiques ont été proposées pour tester un déséquilibre de transmission allélique. Les travaux de Sham et Curtis (1995) considèrent pour chaque parent hétérozygote la probabilité de transmettre l’allèle k sachant que l’allèle j n’est pas transmis, notée pkj. Le modèle logistique s’écrit sous la forme : pkj = exp (bk-bj) / [1 + exp( bk-bj)]
où (bk-bj) représente le log de l’odds-ratio de transmission de l’allèle k sachant le génotype parental ‘kj’. Si (bk-bj)>0 alors l’allèle k est transmis de façon préférentielle à l’allèle j, correspondant au TDT. Pour K allèles, nous fixons arbitrairement bK=0. D’autres auteurs proposent d’utiliser la forme conditionnelle de la régression logistique en modélisant la probabilité de transmission allélique expliquée par la présence ou l’absence de l’allèle d’intérêt, conditionnellement à chaque parent hétérozygote (Maestri et al. 1997). La modélisation logistique possède l’avantage d’évaluer et de tester simplement une hétérogénéité de la transmission allélique, par l’introduction supplémentaire dans le modèle d’un terme d’interaction (Maestri et al. 1997, Waldman 1999, Eaves et Sullivan 2001). Par exemple, Maestri et al. présentent une application de cet avantage en testant les interactions entre des marqueurs proches de loci de gènes Transforming Growth Factor et l’ethnicité, l’histoire familiale, la consommation maternelle de tabac ou le type de phénotypes, chez les enfants atteints de fentes orales. Le modèle utilisé s’écrit : logit (p) = α0 + αs + βk Ak + γk AksE
avec k=1,…,(K-1) et βK =0, γK=0,
où
p mesure la probabilité de transmission (le « cas » est défini par l’allèle transmis et le « témoin » par l’allèle non transmis),
αs est le risque de base de chaque parent hétérozygote s (strate) de la régression logistique conditionnelle (α0 est la constante globale du modèle),
Ak code 1 pour la transmission de l’allèle k et 0 pour les autres, et E est la variable indicatrice du facteur environnemental (ou facteur d’hétérogénéité à laquelle l’étude s’intéresse).
L’exponentielle de βk correspond à l’odds-ratio de transmission de l’allèle k chez les non exposés au facteur E ; l’exponentielle de (βk + γk) est l’odds-ratio de transmission de l’allèle k chez les exposés au facteur E (ou γk est le coefficient d’interaction qui peut être testé par un test du rapport de vraisemblance). D’autres sources potentielles d’hétérogénéité de transmission allélique peuvent être évaluées : effets d’origine parentale de l’allèle d’intérêt (Eaves et Sullivan 2001, section suivante .E, l’hétérogénéité ethnique… Enfin, plus récemment quelques auteurs ont proposé des extensions au TDT évaluant l’association entre un trait quantitatif et un déséquilibre de transmission (Allison 1997, Waldman 1999, Rabinowitz 1997). Des approches alternatives utilisent les génotypes des frères et sœurs non atteints des enfants-cas (Boehnke et Langefeld 1998, Schaid et Rowland 1998 qui offrent une très bonne revue de cette littérature, Spielman et Ewens 1998 qui présentent le S-TDT).
..dHypothèses et Limites du TDT La principale limite du TDT et de ses extensions est l’unité allélique de la transmission étudiée. Elle impose ainsi l’hypothèse d’effets multiplicatifs des allèles : si r est l’odds-ratio pour une copie de l’allèle, alors l’odds-ratio pour l’homozygotie pour l’allèle d’intérêt est calculé par r2. Cette approche est puissante lorsque cette hypothèse est vérifiée. En revanche, elle peut aboutir à des biais sévères dans les autres situations (Schaid 1999a). Le test utilise comme groupe d’allèles de référence, les allèles non transmis des parents. Il suppose implicitement que ce groupe joue un rôle négligeable dans la survenue de la maladie chez l’enfant. Basé sur des taux de transmission, le calcul du TDT admet que les transmissions des parents hétérozygotes sont des évènements indépendants, même si en général elles ne le sont pas (Umbach et Weinberg 2000). Par exemple, pour une famille de parents hétérozygotes, la probabilité que la mère transmette l’allèle d’intérêt à son enfant quand le père ne le transmet pas est différente de la probabilité que la mère transmette l’allèle d’intérêt à son enfant quand le père le transmet aussi (qui dépend du risque de porter deux copies), si l’allèle d’intérêt est lié à la survenue de la maladie. Lorsque nous nous intéressons à évaluer une hétérogénéité de transmission, l’effet principal du facteur étudié, spécifique à l’enfant, ne peut pas être estimé par ce test ou ses extensions, puisque les « cas » et « témoins » sont identiques à chaque paire d’allèles parentaux et sont ainsi parfaitement appariés (excepté sur l’allèle d’intérêt).
..ii.Approche génotypique ..aApproche des pseudo-sibs Certaines limites de l’étude de la transmission allélique peuvent être dépassées en considérant les génotypes des deux parents simultanément. Les pseudo-sibs Notons gc, gm et gp les génotypes respectifs de l’enfant-cas, de sa mère et de son père. Selon les règles de Bayes, la probabilité du génotype de l’enfant conditionnellement au statut cas et aux génotypes des parents, peut s’exprimer de la façon suivante :

où G est l’ensemble des quatre génotypes possibles créées par les combinaisons potentielles des deux allèles de chaque parent : l’un est celui de l’enfant-cas, les trois autres sont fictifs, ce sont les pseudo-sibs. g* est l’un de ces quatre génotypes. En supposant que la probabilité d’être un enfant-cas sachant son génotype, ne dépend pas des génotypes des parents, l’équation se simplifie et s’écrit sous la forme :

où r est le risque d’être un enfant-cas pour le génotype gc. En considérant la forme générale log-linéaire du risque pour le génotype g, log(r(g)) = X’β, la contribution d’un enfant-cas et de ses parents à la vraisemblance de l’échantillon constitué uniquement d’enfants-cas conditionellement aux génotypes des parents, s’écrit :

où : i est l’indice de la famille i
Xi est le vecteur codant le génotype observé du cas i
X* est le vecteur codant le génotype g*
Gi est l’ensemble des quatre génotypes possibles construits à partir des allèles parentaux de la famille i.
La vraisemblance de l’échantillon pour N familles est : . Elle correspond à la vraisemblance d’une régression logistique conditionnelle pour laquelle chaque cas est apparié aux trois témoins fictifs pseudo-sibs. L’approche des pseudo-sibs a été introduite dans la littérature épidémiologique par Self et al. (1991). Dans le cas simplifié de deux allèles a et A au locus marqueur, résultant en trois génotypes possibles aa, aA et AA, l’approche estime deux paramètres correspondant aux logarithmes des risques des deux génotypes (par exemple aA et AA), relatifs au génotype de référence (aa). Les effets des génotypes peuvent être évalués par des tests basés sur la vraisemblance (test du score proposé par Schaid et Sommers (1993), test du rapport de vraisemblance). L’estimation des paramètres peut être réalisée par la méthode du maximum de vraisemblance. D’autres méthodes alternatives, plus simples mais moins efficaces, ont été proposées pour estimer les odds-ratios des génotypes. Il s’agit des travaux de Flanders et Khoury (1996), Sun et al. (1998) et Flanders et al. (2001). Les mating-types ou profils parentaux Le test de Score développé par Schaid et Sommers (1993) et décrit à nouveau par Schaid (1999a) aborde l’approche génotypique d’une manière différente de celle de Self et al. (1991). Il met ainsi en valeur l’intérêt des mating-types parentaux dans la conceptualisation de la modélisation. Les auteurs définissent un mating-type par le profil des deux génotypes du couple parental (presque équivalent au nombre de copies d’allèle d’intérêt portées par le couple parental). Nous parlerons par la suite de « profil parental ». Pour un gène à deux allèles a et A, six possibilités de profils parentaux peuvent se produire, aboutissant à dix catégories de génotypes de l’enfant-cas sachant le profil parental. Profil parental Génotype de l’enfant
1 AA x AA AA
2 AA x aA aA, AA
3 AA x aa aA
4 aA x aA aa, aA, AA
5 aA x aa aa, aA
6 aa x aa aa L’idée des auteurs est d’utiliser en tant qu’unité statistique, la famille décrite par le génotype de l’enfant sachant le profil parental. Ils construisent ainsi la vraisemblance conditionnelle suivante :

Pj/i(r1,r2) est la probabilité conditionnelle de la jème possibilité pour le génotype de l’enfant sachant le ième profil parental,
nij correspond au nombre d’enfants de la jème possibilité de génotype de l’enfant pour le ième profil parental,
r1 et r2 sont les risques de maladie pour l’enfant qui porte une ou deux copies de l’allèle d’intérêt, relativement à aucune copie. Les profils parentaux 1, 3 et 6 n’apportent aucune information de transmission, seuls les profils parentaux 2, 4 et 5 (c’est-à-dire avec au moins un parent hétérozygote) sont utiles à la modélisation. Le conditionnement du modèle sur le profil génétique des couples parentaux permet d’attribuer à chaque famille un risque de base. Il assure ainsi une robustesse face à une éventuelle stratification de population, ou face à la possibilité de profils parentaux préférentiels dans la population générale, ces deux phénomènes engendrant des dépendances dans les transmissions maternelles et paternelles des allèles. D’autres méthodes similairement conditionnées sur les génotypes parentaux ont été proposées. Il s’agit des méthodes FBAT (Family-Based-Association Tests) non paramétriques développées par Laird et al. (2000), Rabinowitz et Laird (2000), Lange et Laird (2002) (programme disponible sur: http://www.biostat.harvard.edu/~fbat/default.html).
..bMéthodologie log-linéaire (Weinberg et al. 1998) L’ensemble des méthodologies « cas-parents » décrites jusqu’ici, présente une limite inhérente aux études des maladies issues de la vie fœtale. La mère peut jouer un rôle crucial dans la survenue par exemple d’une malformation congénitale chez son enfant. L’allèle maternel peut modifier l’environnement intra-utérin du fœtus et indirectement provoquer une anomalie sur le fœtus qu’il ait hérité ou non cet allèle. La méthode log-linéaire développée par Weinberg et al. (1998) est la première à intégrer ce rôle potentiel du génotype de la mère sur la survenue de la maladie chez son enfant. Cette méthode a été décrite aussi par Wilcox et al. (1998). Le modèle proposé est adapté aux gènes bi-alléliques (deux allèles : a et A). Notons M, P et C le nombre de copies de l’allèle d’intérêt, de 0 à 2, porté par respectivement la mère, le père et l’enfant-cas. Les auteurs s’inspirent du raisonnement de Schaid et Sommers (1993), et à partir des six profils de couples parentaux, ils distinguent 15 possibilités de combinaisons de triades (M,P,C) : Type1 : (2,2,2)
Type2 : (2,1,2) (2,1,1) (1,2,1) (1,2,2)
Type3 : (2,0,1) (0,2,1)
Type4 : (1,1,2) (1,1,1)* (1,1,0)
* cette combinaison est ambiguë, car elle peut se produire de deux façons différentes : l’allèle de l’enfant provient de la mère ou l’allèle de l’enfant provient du père.
Type5 : (1,0,1) (1,0,0) (0,1,1) (0,1,0)
Type6 : (0,0,0) Scénario A Différents modèles sont construits selon l’effet génétique testé. Lorsque le génotype hérité est responsable de l’effet, le modèle s’écrit de la façon suivante : ln (E [n M,P,C]) = γj + ln (2) I[M=P=C=1] + β1 I[C=1] + β2 I[C=2] (A)
j est l’indice de la strate du profil parental. Le terme ln (2) I[M=P=C=1] correspond au multiplicateur de 2 pour la combinaison (1,1,1) et est donc déclaré en tant que variable offset avec un coefficient contraint de 1. De façon identique à l’approche des pseudo-sibs, ce modèle permet d’estimer les risques propres à chaque génotype. Plus exactement, le risque relatif d’un enfant portant une copie de l’allèle d’intérêt, par rapport à aucune copie, se calcule par l’exponentielle du coefficient β1; le risque relatif d’un enfant avec deux copies de l’allèle d’intérêt se calcule par l’exponentielle du coefficient β2. Les intervalles de confiance à 95% sont calculés à partir de la procédure usuelle de Wald (cf Annexe 1). L’effet du génotype de l’enfant est évalué par le test usuel du rapport de vraisemblance, avec l’hypothèse nulle suivante, H0 : β1=0 et β2=0 : 2 {logV(modèle complet) - logV(modèle contraint sans I[C=1] et I[C=2])} ~ χ² ddl=2 L’écriture du modèle peut être modifiée selon le mode de transmission de l’allèle d’intérêt. Si le mode est dominant, les deux variables indicatrices, I[C=1] et I[C=2], sont sommées, ce qui revient à poser β1=β2. Dans le cas d’un mode récessif, nous éliminons la variable indicatrice définissant la présence d’une seule copie du variant chez l’enfant, ce qui signifie que nous posons β1=0. De façon équivalente au test du score de Schaid et Sommers (1993), seuls les profils 2, 4 et 5 sont informatifs ; les profils non informatifs jouent un rôle passif et n’ont pas d’influence sur les estimations, les écarts-types ainsi que sur les tests de significativité. Scénario B Cette approche log-linéaire peut être complétée en intégrant les informations maternelles génotypiques. ln (E [n M,P,C]) = γj+ ln (2) I[M=P=C=1] + β1 I[C=1] + β2 I[C=2]
+ α1I[M=1] + α2 I[M=2] (B) Les coefficients liés au génotype de l’enfant s’interprètent de la même façon que dans le scénario A. De plus, le risque relatif de l’effet maternel associé à une seule copie de l’allèle d’intérêt est égal à l’exponentielle du coefficient α1, tandis que celui associé à deux copies de l’allèle d’intérêt est égal à l’exponentielle de α2. Un test peut être réalisé par la méthode du rapport de vraisemblance pour tester les effets du génotype de l’enfant ou du génotype de la mère, de la même façon que pour le scénario A. Les tests associés au génotype de l’enfant en présence ou non du génotype de la mère sont équivalents car leurs estimations sont orthogonales. La stratification du modèle par les profils parentaux permet d’estimer un risque de base pour chaque strate, ne nécessitant pas ainsi de poser l’hypothèse de l’équilibre d’Hardy-Weinberg pour l’utilisation du modèle.
..cHypothèses, principe de fonctionnement et limites Les trois méthodes décrites ci-dessus pour évaluer le rôle du génotype de l’enfant sont équivalentes, et traduisent des modes de pensée et de raisonnement différents. Le test de rapport de vraisemblance pour le génotype de l’enfant proposé par Weinberg et al. (1998) est asymptotiquement équivalent au test du score développé par Schaid et Sommers (1993). Sur de petits échantillons, les résultats sont proches (Weinberg et al. 1998). Les estimations des coefficients et de leurs écarts-types dans les trois types d’analyse sont identiques (Self et al. 1991, Schaid et Sommers 1993, Weinberg et al. 1998). Même en présence de deux degrés de liberté pour le test dans l’approche génotypique, les tests du score et du rapport de vraisemblance offrent une puissance statistique équivalente ou supérieure à celle du TDT et tests assimilés dans la majorité des situations. Les simulations de Weinberg et al. (1998) montrent une performance du TDT statistiquement optimale et supérieure à celle des tests basés sur la vraisemblance uniquement dans le cas d’effets multiplicatifs des allèles. Pour d’autres modes de transmission (allèle dominant ou récessif), les simulations rapportent une puissance toujours inférieure voir faible du TDT. Certains auteurs considèrent le TDT comme un cas particulier de l’approche génotypique. Les simulations de Weinberg et al. (1998) ont rapporté que 100 triades offrent une puissance de 80% de détecter un risque relatif d’un génotype de 2.5, avec un biais négligeable dans les estimations. L’estimation du rôle du génotype de l’enfant se base sur l’évaluation d’une distorsion de la transmission observée par rapport aux lois mendéliennes. Dans le cadre du modèle log-linéaire, cette déviation est évaluée, pour chaque strate de profil parental, en comparant l’effectif observé des triades à l’effectif attendu selon ces lois. Par exemple : pour le profil de type 2, où l’un des parents est homozygote pour l’allèle d’intérêt AA et l’autre est hétérozygote aA, les lois mendéliennes définissent autant de familles avec un enfant aA que de familles avec un enfant AA. Un nombre observé de familles avec un enfant AA supérieur au nombre observé de familles avec un enfant aA, indique que le génotype AA pourrait être à risque de maladie. L’héritage de type mendélien peut cependant être perturbé par d’autres facteurs qu’il est impératif d’apprécier afin de s’assurer de la validité des modèles. Ces facteurs comme la fertilité des parents et la viabilité du fœtus doivent être indépendants du génotype. Par exemple, si le génotype AA est associé à une mort fœtale, il est possible d’observer un effet apparent protecteur du génotype AA pour la maladie étudiée lié au fait que nous comptabilisons moins d’enfants-cas porteur du génotype AA. La distorsion mendélienne alors observée serait expliquée uniquement par la relation entre le génotype AA et une mort fœtale. L’atout supplémentaire du modèle log-linéaire est d’estimer de façon indépendante les effets du génotype de l’enfant et ceux du génotype de la mère. L’estimation des effets du génotype de la mère se base sur une asymétrie des fréquences parmi les différentes combinaisons des génotypes des couples parentaux à l’intérieur de chaque strate de profil parental. La validité des estimations de ces effets nécessite de poser l’hypothèse supplémentaire avançant que, dans la population en générale, les couples parentaux se constituent de façon indépendante de leur génotype. Plus précisément, nous supposons à l’intérieur de chaque profil parental une symétrie du nombre d’allèles pour les mères et les pères. Par exemple, pour le type 2, nous devons observer, dans la population générale, que la probabilité que la mère soit AA et le père aA est égale à la probabilité que le père soit AA et la mère aA. Même si elle est difficilement vérifiable, cette hypothèse supplémentaire mérite de porter une attention particulière dans l’interprétation d’effets maternels apparents. Par exemple, si la survie d’un parent est influencée par le génotype et le sexe, cette situation pourrait provoquer une asymétrie artificielle des génotypes parentaux à l’intérieur des strates de profil parental. En présence du conditionnement par les profils parentaux, le nombre de copies héritées (portées par l’enfant) et le nombre de copies portées par la mère sont statistiquement indépendants sous l’hypothèse d’un héritage mendélien. Ainsi, les tests et estimations proposés par le modèle log-linéaire sont orthogonaux et permettent au modèle de distinguer les effets du génotype de l’enfant des effets du génotype de la mère. Finalement, une analyse stratifiée sur les profils génétiques des couples parentaux, qui ne considère pas les effets potentiels du génotype de la mère, ne produit pas d’estimations biaisées des effets du génotype de l’enfant. Enfin, ces modèles ne nécessitent pas de vérifier l’équilibre d’Hardy-Weinberg (HWE). Le conditionnement sur les génotypes parentaux permet d’ajuster et de contrôler une structure potentielle dans l’échantillon d’étude. Dans une situation d’une population bien mélangée et homogène, c’est-à-dire en supposant l’existence de l’HWE, l’écriture du modèle log-linéaire peut être simplifiée et inclut alors deux paramètres au lieu des six paramètres de strates. Il offre alors des tests plus puissants (Weinberg et al. 1998).
..dExtensions lorsque les génotypes des parents sont manquants La principale limite des méthodes « cas-parents » par rapport à l’approche « cas-témoins » se situe dans la difficulté de recueil et la disponibilité des informations des deux génotypes parentaux simultanément. En pratique, les parents peuvent être disparus, ils peuvent refuser de participer, ou le père peut être exclu a posteriori après avoir été identifié incorrectement comme le père biologique de l’enfant. Ces problèmes pratiques résultent en des triades incomplètes : des diades lorsque qu’un génotype parental est manquant, ou des « monades » (traduit littéralement de monads) lorsque les deux génotypes parentaux sont indisponibles. Dans certaines situations, une diade apporte une information sur la transmission. Par exemple, si l’enfant est homozygote AA et le parent disponible hétérozygote aA, nous pouvons conclure que le parent manquant a transmis un allèle A et est donc aA ou AA. Exclure ces diades conduit alors à une perte substantielle d’informations et de puissance statistique. D’autres diades ne fournissent que des informations ambiguës. Par exemple, lorsque l’enfant et le parent disponible sont hétérozygotes, nous ne pouvons pas distinguer la source parentale de l’allèle A hérité. De nombreux travaux ont été développés pour prendre en compte les données manquantes de génotype parental. Quelques auteurs proposent de reconstruire les génotypes parentaux manquants à partir des diades « informatives » (non ambiguës). Mais, cette idée est contreversée et Sham et Curtis (1995) estiment qu’une analyse qui exclut les diades ambiguës mais inclut les diades informatives, est incorrecte. Knapp (1999) propose un test corrigé de l’inflation artificielle apportée par la reconstruction des génotypes, le RC-TDT (Reconstruction-Combined -TDT). D’autres travaux utilisent, à travers des méthodes non paramétriques, des informations mixtes des parents et d’autres membres de la famille génotypés et non atteints pour compenser l’absence d’information chez certains parents. Il s’agit des méthodes FBAT avec les travaux de Rabinowitz et Laird (2000) et Rabinowitz (2001). Enfin, certains auteurs énumèrent l’ensemble des génotypes possibles pour les parents manquants, avec leur probabilité de se produire calculée à partir des informations observées des familles, puis les paramètres et les tests sont estimés sous l’hypothèse d’une population homogène et de panmixie. Certains travaux choisissent des procédures itératives de traitement de données manquantes affaiblisant la nécessité d’une hypothèse d’homogénéité de la population (Weinberg 1999a, Van den Oord 2000). Ces travaux utilisent l’algorithme EM, « Expectation-Maximisation », pour lequel la convergence est assurée par la théorie statistique entre 20 et 50 itérations (Dempster 1977). Dans le cadre du modèle log-linéaire, la procédure itérative de l’algorithme EM consiste en :
un fractionnement et une répartition de l’effectif des triades incomplètes selon les probabilités théoriques des profils parentaux sur la base (des valeurs initiales des paramètres du modèle pour la 1ère itération) des estimations courantes des paramètres du modèle (étape E)
une répétition de la procédure de maximisation de la vraisemblance du modèle sur la base du nouveau jeu de triades intégrant les données pseudo-complètes (étape M).
Par exemple, dans le cas de deux allèles a et A, six profils parentaux doivent être considérés (AA x AA, AA x aA, AA x aa, aA x aA, aA x aa, aa x aa), soit pi la probabilité du ième profil parental. Si la mère et l’enfant ont tous les deux le génotype AA, le père manquant peut présenter le génotype aA ou AA, impliquant possiblement deux mating-types : AA x AA, ou AA x aA. Le nombre observé de diades nd avec la mère AA et l’enfant AA est fractionné en deux effectifs théoriques, selon les probabilités associées aux deux possibilités de profil parental : nd * [p1/(p1+p2)] et nd * [p2/(p1+p2)]. Le modèle est ensuite réalisé sur le jeu de données des triades complétées ou pseudo-complètes intégrant les effectifs attendus des diades. Weinberg (1999a) montre que le test du rapport de vraisemblance combiné à l’algorithme EM pour le génotype de l’enfant, offre une puissance statistique supérieure au test réalisé sur les triades complètes seules. Le gain de puissance du test se maintient même dans des cas extrêmes de données manquantes (50% des génotypes parentaux sont manquants). Le gain de puissance du test combiné est plus modéré pour les effets du génotype maternel. Weinberg (1999a) ajoute la possibilité de réaliser ces estimations et tests en présence de monades. Cependant, nous devons reconnaître que, sans les génotypes parentaux, davantage d’hypothèses doivent être vérifiées dans la population d’étude pour obtenir des estimations valides. De façon générale, la validité de l’ensemble des modèles proposant un traitement de données manquantes repose sur l’hypothèse qu’il n’existe pas d’association entre l’absence ou l’indisponibilité de l’information du génotype parental et le génotype lui-même.
|