Santé Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Santé de l'environnement et du milieu de travail

Étude de la relation qui existe entre l'eau potable et la gastro-entérite à Edmonton: 1993-1998

3 : Méthodes d'étude

3.1 Analyses descriptives

Des analyses descriptives ont d'abord été effectuées pour identifier les tendances générales et les liens pour les données sur les atteintes et sur l'exposition. Les tendances temporelles des données sur les atteintes ont été étudiées et un profil de chacune des sources de données a été créé afin de déterminer la proportion des cas appartenant à chaque groupe d'âge et pour chacune des régions de service d'eau. Les distributions des codes primaires CIM-9 saisis dans la définition des cas ont aussi été déterminées. Les statistiques provisoires ont été déterminées pour les paramètres de qualité de l'eau et les paramètres environnementaux. Des comparaisons ont été faites entre les deux stations de traitement d'eau afin de déterminer s'il existait des différences générales de qualité de l'eau.

3.2 Analyse multivariée de régression logistique

3.2 a) Aperçu de la méthodologie

Le premier objectif de cette partie de l'analyse était de comparer le risque de gastro-entérite chez les résidents de chacune des régions de service d'eau à Edmonton. Les résultats des analyses descriptives ont démontré qu'il existait certaines différences de qualité de l'eau entre les deux stations de traitement d'eau. Tous les individus ayant un code postal valide d'Edmonton qui ont pu être liés aux régions de service d'eau Rossdale ou E.L. Smith, ainsi que les individus résidant dans la zone de transition, ont été inclus dans cette partie de l'analyse. Les bébés (âgés < 2 ans) ont été exclus de cette étude parce que l'on a émis l'hypothèse que leur ingestion d'eau du robinet à la maison était vraisemblablement minimisée en raison des pratiques d'alimentation néonatales et qu'elle était donc non compatible avec celle de la population restante de l'étude en ce qui concerne les profils d'exposition.

Une conception d'étude cas-témoin a été employée dans la présente analyse. La réponse binomiale modélisée était la nature du cas : un cas de gastro-entérite ou un témoin respiratoire. Les témoins respiratoires ont été utilisés pour aider à contrôler les influences potentielles des facteurs environnementaux sur les atteintes. L'effet des variables modélisées sur l'atteinte a été présenté sous forme de rapports de cotes. Chaque ensemble de données sur les atteintes dans la partie de l'analyse multivariée de régression logistique contenait des atteintes binaires et chaque ensemble de données a été modélisé de façon indépendante. Les composants de ces analyses sont résumés au Tableau 4.

Tableau 4 : Composants des approches analytiques utilisées dans les analyses multivariées de régression logistique
Analyse Approche de modélisation Atteinte modélisée Population étudiée Groupes de données sur les atteintes séparés par
Source de données
Régression logistique multivariée Modèle linéaire généralisé (MLG) Binomiale :cas de gastro-entérite ou témoin respiratoire Cas et témoins définis d'Edmonton,dans les régions de service d'eau Rossdale, E.L.Smith ou de la zone de transition ICIS (admissions à l'hôpital)
EMRG (consultations-salle d'urgence)
PHYS (consultations-bureaux de médecins) (1 cas : 3 temoins)
LTC (consultations-centres de soins prolongés)
Modèle additif spatial généralisé (MAG) Binomiale :cas de gastro-entérite ou témoin respiratoire Cas et témoins définis d'Edmonton,dans les régions de service d'eau Rossdale, E.L.Smith ou de la zone de transition ICIS (admissions à l'hôpital)
EMRG (consultations-salle d'urgence)
PHYS (consultations-bureaux de médecins)(1 cas : 1 temoins)
LTC (consultations-centres de soins prolongés)

Modèles linéaires généralisés (MLG)

Un modèle linéaire généralisé (MLG) ayant une distribution binomiale et un lien logit a été le modèle statistique fondamental utilisé pour analyser ces données (McCullagh et Nelder, 1983). Le processus de modélisation logistique multivarié résultant a été mené en utilisant la procédure GENMOD de SAS, version 8.0. Des modèles séparés ont été évalués pour chacune des quatre sources de données sur les atteintes.

En raison de la grande masse des données provenant de la source de données sur la facturation dans les bureaux de médecins, un sous-ensemble aléatoire des données a été adopté pour faciliter l'analyse. Un rapport de 1 cas : 3 témoins a été formé en sélectionnant au hasard 20% des cas d'origine. Ce processus de sélection aléatoire a été effectué en utilisant une fonction de nombre aléatoire (RANUNI) de SAS, version 8.0.

Modèles additifs spatiaux généralisés (MAG)

Des modèles de régression spatiale ont par la suite été exécutés afin de fournir une représentation visuelle des différences géographiques du risque de gastro-entérite dans la ville d'Edmonton. Un mod&egrav e;le additif binomial généralisé (MAG) a été employé pour analyser les mêmes données sur les atteintes (Hastie et Tibshirani, 1990). Les modèles MAG sont une extension des modèles MLG, en ce qu'une relation non linéaire additive flexible peut être modélisée entre le prédicteur indépendant (facteur de risque) et la réponse. La réponse est modélisée comme la somme des fonctions continues des prédicteurs, et ces fonctions sont estimées à l'aide de lisseurs (une courbe est ajustée localement aux points des données de façon à ce qu'en tout point, la courbe ne dépende que des observations en ce point et de certains points avoisinants spécifiés - cette estimation de la réponse est qualifiée de lisse (ou adoucie) et les procédures employées pour produire de tels ajustements s'appellent des lisseurs (ou adoucisseurs)). L'ajustement du modèle est amélioré grâce au paramétrage flexible des variables dans les modèles MAG et les estimations de paramètres peuvent être dérivées avec une plus grande exactitude.

Les modèles MAG sont employés pour ce composant spatial de l'analyse dans le but de concilier l'inclusion des coordonnées géographiques dans le procédé de modélisation. L'emplacement des cas et des témoins a été déterminé en employant leurs codes postaux résidentiels correspondants à 6 caractères alphanumériques. Les coordonnées de longitude et de latitude assignées au point centroïde de chacune des zones de code postal ont été intégrées à la fonction de lissage loess du modèle MAG (Cleveland et Devlin, 1988). Cette méthode d'ajustement de l'effet d'emplacement directement dans le modèle statistique en tant que paramètre non linéaire a aussi été appliquée dans d'autres études dont l'objectif était de détecter des grappes spatiales (Preisler et al, 1997; Brillinger, 1994; Chambers et Hastie, 1992; Cook et Pocock, 1983). La fonction MAG de S-PLUS 2000, version 2 (MathSoft, Inc.) a été utilisée pour exécuter ce composant spatial de l'analyse multivariée de régression logistique, parce que les fonctions de lissage sont faciles à adapter dans ce progiciel d'analyse.

Comme pour l'analyse MLG, un sous-ensemble aléatoire composé de 20% des cas d'origine saisis dans la source de données sur les bureaux de médecins a été créé. En raison de l'intensité de calcul informatique rattaché à l'ajustement d'un lisseur loess aux coordonnées géographiques, des témoins ont été choisis pour satisfaire à un rapport de 1 cas : 1 témoin en employant la même procédure que celle décrite à la section précédente.

3.2 b) Variables analysées

Une liste des variables étudiées dans les deux procédés de régression logistique multivariée est fournie au Tableau 5.

Tableau 5 : Variables indépendantes analysées dans les analyses multivariées de régression logistique
Analyse Approche de modélisation Nom de la variable Description
Régression logistique multivariée Modèle linéaire généralisé (MLG)

SOURCE

Terme nominal indiquant la source d'eau primaire

SPLINES1...37

Paramètre saisonnier utilisant des splines pour représenter chaque intervalle de 2 mois

INCOME

Revenu moyen de ménage en 1995 par code postal

AGEGROUP

Variable nominale : 2 à 18 ans, > 18 à 65 ans, > 65 ans
Modèle additif spatial généralisé (MAG)

LONGITUDE, LATITUDE

Terme spatial utilisant la longitude et la latitude, terme lissé

DEC10, 97

Terme nominal signifiant avant ou après le 10 décembre 1997

SEASON

Paramètre saisonnier utilisant un cycle de 220 jours, terme lissé

INCOME

Revenu moyen de ménage en 1995 par code postal

AGEGROUP

Variable nominale : 2 à 18 ans, 18 à 65 ans,> 65 ans

Modèles linéaires généralisés (MLG)

Afin d'estimer le risque de gastro-entérite des résidents de chacune des régions de service d'eau, une variable nominale a été crée pour refléter la source d'eau primaire dans la modélisation linéaire généralisée. Les niveaux de cette variable, SOURCE, étaient :

  • Zone de transition, avant le 10 décembre 1997
  • Zone de transition, après le 10 décembre 1997
  • Région de service d'eau Rossdale, avant le 10 décembre 1997
  • Région de service d'eau Rossdale, après le 10 décembre 1997
  • Région de service d'eau E.L. Smith, avant le 10 décembre 1997
  • Région de service d'eau E.L. Smith, après le 10 décembre 1997

Les risques associés à chacune des régions de service d'eau ont été distingués lorsque la conduite d'amenée de Rossdale a été déplacée, ce qui a coïncidé avec l'introduction des compteurs de particules dans cette station (10 décembre 1997). Cette distinction a été faite parce que la qualité de l'eau non traitée de la station Rossdale a changé suite à ces événements. Des comparaisons statistiques des risques entre les niveaux de SOURCE ont été effectués à l'aide de ces écarts. Étant donné que l'emplacement résidentiel reflète la qualité de l'eau reçue à la maison, aucun des paramètres de qualité de l'eau ou des paramètres environnementaux associés à l'analyse des séries chronologiques n'a été inclus dans ces analyses.

Étant donné que SAS ne se prête pas bien aux fonctions de lissage loess dans les modèles de régression, une spline séparée a été crée pour chacune des périodes de 2 mois, de sorte que des pentes différentes (estimati ons des risques) puissent être déterminées pour chacun des intervalles de temps et ainsi contrôler les tendances saisonnières de la gastro-entérite virale. Cette technique est utilisée lorsque l'on peut s'attendre à ce que les effets varient entre différents niveaux d'une variable. Les comparaisons entre les modèles utilisant des splines dans SAS et la fonction de lissage loess dans S-PLUS pour ajuster en fonction des tendances saisonnières ont produit des résultats similaires (données non fournies).

Le revenu de ménage a été utilisé comme indicateur du statut socio-économique, que l'on supposait influencer le risque de maladie. Le revenu moyenne de ménage déclaré en 1995 pour chaque secteur de dénombrement (Statistique Canada, 1996) a été lié à chaque code postal et par la suite à chaque cas et témoin. Cette variable a été incluse dans tous les modèles.

L'âge a été ajusté en tant que variable nominale dans ces modèles afin d'ajuster les différences potentielles de risque entre les groupes d'âge. Ainsi, une estimation moyennée du risque pour les résidents des différentes régions de service d'eau a été obtenue. Les catégories d'âge étaient identiques aux niveaux de stratification employés dans l'analyse des séries chronologiques : 2 à 18 ans, plus de 18 ans à 65 ans, et plus de 65 ans.

Modèles additifs spatiaux généralisés (MAG)

Un lisseur loess a été ajusté aux coordonnées de longitude et de latitude des points centroïdes de chacun des codes postaux. Cette variable indépendante (facteur de risque) a été utilisée pour dériver des estimations du risque de gastro-entérite en divers emplacements d'Edmonton. Un terme nominal, DEC1097, a aussi été modélisé pour représenter le risque avant et après le déplacement de la conduite d'amenée de Rossdale. L'inclusion de ces variables dans le modèle spatial a remplacé le terme nominal SOURCE utilisé dans le procédé de modélisation MLG.

Étant donné que S -PLUS adapte facilement les fonctions de lissage, les fluctuations saisonnières de gastro-entérite ont aussi été modélisées à l'aide de la fonction de lissage loess. Le revenu moyen de ménage et l'âge ont aussi été inclus dans ces modèles spatiaux.

3.2 c) Critères de choix du modèle

En ce qui concerne les modèles MLG, une sélection de modèle par étapes fondée sur les variables dont la liste figure au Tableau 5 a été faite pour chacun des ensembles de données sur les atteintes. L'effet de chacune des variables a été évalué à l'aide du test du rapport des vraisemblances (Fahrmeir et Tutz, 1994). Les critères d'inclusion dans le modèle définitif ont été fixés au seuil de signification statistique de 5%. L'ajustement du modèle a été xaminé en utilisant le critère d'information de Akaikes (Sakamoto et al, 1986). Les variables du modèle spatial (MAG) ont été choisies de façon à refléter les variables identifiées dans le modèle multivarié de régression logistique définitif.

3.3 Analyse des séries chronologiques

3.3 a) Aperçu de la méthodologie

Comme pour l'étude de Vancouver, des modèles additifs généralisés (MAG) ont été employés pour étudier les relations temporelles entre la qualité de l'eau et la gastro-entérite. Cette approche a aussi été appliquée dans d'autres études de séries chronologiques (Morris et al, 1998; Schwartz et al, 1997). L'application de cette méthodologie des études de séries chronologiques a été décrite en détails dans l'étude de Vancouver (Aramini et al, 2000). La version 2 de S-PLUS 2000 (MathSoft, Inc.) a été utilisée pour exécuter cette partie de l'analyse.

Une fonction de lissage loess (Cleveland et Devlin, 1988) a été employée pour décrire la relation potentiellement non linéaire entre le risque de gastro-entérite et la turbidité, ainsi que d'autres paramètres de qualité de l'eau et paramètres environnementaux décrits aux sections 2.1 et 2.2. De plus, la fonction de lissage a aussi été appliquée pour ajuster un paramètre saisonnier (long terme) afin d'essayer de contrôler les tendances saisonnières de la gastro-entérite. Un cycle de 220 jours, employé et décrit dans l'étude de Vancouver, a été utilisé pour représenter cette tendance saisonnière.

Afin de déterminer l'influence de la qualité de l'eau de chacune des stations sur la population desservie correspondante, des individus de chacune des quatre sources de données ont été inclus et analysés séparément, en fonction de la source d'eau primaire. Les individus dont la source d'eau primaire ne pouvait pas être identifiée de façon unique (zone de transition - zone en gris de la Figure 2) ont été exclus de cette analyse. En appariant la date d'événement de l'atteinte à la date du paramètre consigné de qualité de l'eau, des valeurs quotidiennes de qualité de l'eau observées pour chacune des stations ont ensuite été liées aux individus visés.

Tel qu'expliqué dans l'étude de Vancouver, des modèles MAG binomiaux (cas-témoin) et de Poisson (Hastie et Tibshirani, 1990) ont été ajustés aux données. Dans les modèles binomiaux, l'atteinte modélisée était la nature du cas : cas de gastro-entérite ou témoin respiratoire. L'atteinte dans les modèles de Poisson était le compte quotidien de cas de gastro-entérite. L'effet des variables modélisées sur la gastro-entérite a été rendu par des rapports de cotes ( odds ratio) et des risques relatifs pour les modèles binomiaux et de Poisson, respectivement.

Étant donné que la sensibilité à la maladie varie entre les divers groupes d'âge, des analyses séparées ont été effectuées pour chacun des groupes d'âge suivants : 2 à 18 ans, plus de 18 ans à 65 ans, et plus de 65 ans. Ces groupes d'âge sont identiques à ceux employés dans l'étude de Vancouver, sauf que les bébés (< 2 ans) ont été exclus de la présente étude. Par conséquent, chaque ensemble de données sur les atteintes utilisé dans la présente analyse était spécifique à chaque groupe d'âge, région de service d'eau et source de données (consulter le Tableau 6).

Dans l'analyse binomiale, un sous-ensemble aléatoire de cas et de témoins a été sélectionné à partir des données sur les bureaux de médecins, en employant un rapport de 1 cas : 3 témoins. Il s'agit du même sous-ensemble décrit dans l'approche de modélis ation MLG. Les données sur les bureaux de médecins n'ont pas été réduites pour l'analyse de Poisson puisque les atteintes gastro-intestinales ont été compressées en comptes quotidiens et que l'ensemble de données plus petit qui en a découlé était par conséquent facile à traiter par l'application logicielle.

Tableau 6 : Composants des approches analytiques utilisées dans les analyses des séries chronologiques
Analyse Approche de modélisation Atteintemodélisée Population étudiée Ensembles de données sur les atteintes séparés par
Source de donn- ées Gro-upe d'âge Stat-ion
Analyse des séries chrono- logiques Modèle additif généralisé (MAG) Binomial: cas de gastro-entérite ou témoin respiratoire Cas et témoins définis à Edmonton, dans les régions de service d'eau Rossdale ou E.L. Smith seulement

cihi

2 à 18

Ross-
dale

emrg

> 18 à 65

phys (1:3)

> 65

E.L. Smith

ltc

 

Poisson : comptes quotidiens des cas de gastro-entérite Cas définis à Edmonton, dans les régions de service d'eau Rossdale ou E.L. Smith seulement

cihi

2 à 18

Ross-
dale

emrg

> 18 à 65

phys

> 65

E.L. Smith

ltc

 

3.3 b) Variables analysées

Une liste des variables indépendantes (facteur de risque) évaluées dans l'analyse des séries chronologiques figure au Tableau 7. Les variables des séries chronologiques qui ont été décalées comportent l'indice « i ». Une description de quelques-unes des variables clés est fournie plus loin.

Tableau 7 : Variables indépendantes analysées dans l'analyse des séries chronologiques
Analyse Approche de modélisation Nom de la variable Description
Analyse des séries chrono-logiques Modèle additif généralisé (MAG)

TBi

Turbidité quotidienne moyenne de l'eau prête au débit, terme lissé

PCi

Numération quotidienne moyenne des particules de l'eau prête au débit, terme lissé

RAWFCi

Numération quotidienne des coliformes fécauxde l'eau non traitée, terme lissé

RAWTCi

Numération quotidienne des coliformes totaux de l'eau non traitée, terme lissé

RAWTBi

Turbidité quotidienne moyenne de l'eau non traitée, terme lissé

RAWTEMPi

Température quotidienne de l'eau non traitée, terme lissé

RAWPHi

pH quotidien de l'eau non traitée, terme lissé

RAWCOLi

Index colorimétrique quotidien moyen de l'eau non traitée, terme lissé

TMAXi

Température atmosphérique quotidienne moyenne maximale, terme lissé

TMINi

Température atmosphérique quotidienne moyenne minimale, terme lissé

PRECIPi

Précipitations quotidiennes moyennes, terme lissé

SEASON

Paramètre saisonnier utilisant un cycle de 220 jours, terme lissé

DOW

Jour de la semaine (1-7)

HOLIDAY

Congé férié et jours adjacents

Des analyses séparées ont été faites pour chacun des ensembles de données des séries chronologiques sur les atteintes. En ce qui concerne les paramètres de qualité de l'eau et les paramètres environnementaux, des valeurs de 0 à 40 jours précédant le jour d'événement de l'atteinte ont été modélisés. Cet éventail de valeurs décalées a été sélectionné pour refléter des multiples des périodes d'incubation couramment signalées pour les agents pathogènes d'origine hydrique répandus.

Par conséquent, pour chacun des ensembles de données des séries chronologiques sur les atteintes et combinaison de variables analysées, 41 modèles ont été évalués (un pour chaque jour décalé).

La turbidité de l'eau prête au débit (TBi) était la principale variable d'intérêt dans cette analyse. Toutefois, les effets d'autres paramètres de qualité de l'eau ont aussi été évalués. Des lectures aux cinq minutes qui ont été fournies pour certains paramètres de qualité de l'eau ont été résumées en tant que valeurs quotidiennes observées, incluant la moyenne, la médiane et la lecture maximale pour cette journée. Des comparaisons statistiques entre les modèles comprenant divers paramétrages de ces données ont indiqué que la moyenne quotidienne produisant l'ajustement optimal aux données. Par conséquent, toutes les lectures aux cinq minutes ont été résumées en tant que moyennes quotidiennes. De rares valeurs manquantes, qui résultaient occasionnellement de filtres hors ligne, ont été remplacées par la moyenne des valeurs observées adjacentes.

Les paramètres environnementaux ont aussi été examinés. En plus de l'effet de la météo sur la turbidité de l'eau non traitée, on a posé l'hypothèse selon laquelle les précipitations influencent le niveau d'exposition à la maison. L'hypothèse selon laquelle les gens sont plus susceptibles de rester à l'intérieur en raison d'une météo défavorable, facilitant ainsi la propagation de gastro-entérite infectieuse d'une personne à l'autre, a été posée. Par conséquent, les précipitations et la température décalées jusqu'à 40 jours précédant le jour d'événement de l'atteinte ont été examinées d'une manière similaire.

Des variables confusionnelles temporelles ont été inclues dans les modèles afin de faire un ajustement en fonction des variations temporelles, notamment le paramètre saisonnier. Les effets liés au jour de la semaine étaient importants dans l'étude de Vancouver et ont aussi été inclus dans la présente étude. Les jours fériés ont aussi été examinés afin de déterminer si des changements d'accessibilité aux services médicaux, ainsi que les comportements en période de congé, avaient un impact sur la gastro-entérite. À cette fin, des catégories séparées ont été créées pour les jours feriés et les fins de semaines des jours fériés suivants : Noël et le Nouvel an, Pâques, Fête de la reine, Fête du Canada, longue fin de semaine du mois d'août, Fête du Travail, Jour d'Action de grâce et Jour du Souvenir. De plus, la semaine suivant chaque congé a aussi été évaluée (à l'exception du Jour du Souvenir).

Pour terminer, un terme autorégressif a été inclus dans tous les modèles afin de faire un ajustement en fonction de la corrélation issue des observations quotidiennes faites pour chacun des événements d'atteinte. Tel que discuté dans l'étude de Vancouver, même en l'absence d'une relation avec la qualité de l'eau, on peut s'attendre à ce que le nombre d'admissions à l'hôpital, de consultations auprès de médecins, de consultations en salle d'urgence et de traitements fournis dans les établissements de soins prolongés un jour donné soit relié au nombre de jours précédents. Plusieurs raisons possibles expliquant cela comprennent les personnes qui partagent une source commune d'aliment ou d'eau et les temps d'incubation variables des agents pathogènes. Le terme autorégressif a été exprimé comme le rapport du nombre de cas sur le nombre de témoins, et a été ajusté en tant que terme linéaire dans le modèle.

3.3 c) Critères de choix du modèle

Selon les résultats des analyses descriptives et de la régression logistique multivariée, une analyse quantitative des séries chronologiques a été effectuée pour la région de service d'eau qui représentait le risque potentiel le plus élevé de gastro-entérite endémique d'origine hydrique (Rossdale, avant le 10 décembre 1997). Comme pour la régression logistique multivariée, l'effet de chacune des variables figurant au Tableau 7 a été déterminé en effectuant des comparaisons de la somme des carrés des écarts (deviance) avec le test du rapport des vraisemblances et en comparant les valeurs du critère d'information de Akaike et les estimations de paramètres. Des décalages temporels significatifs ont été identifiés en comparant le changement de la somme des carrés des écarts dans les modèles avec et sans la variable décalée, évaluant ainsi l'effet global de cette variable décalée. Toutefois, les comparaisons statistiques multiples augment la probabilité de détecter faussement une association statistiquement significative, souvent appelée erreur de Type I (Steel et al, 1997). Par conséquent, lors de l'évaluation de l'effet des paramètres jusqu'à 40 jours précédant l'événement d'atteinte, seuls les décalages qui étaient significatifs pendant deux ou trois jours consécutifs ont fait l'objet d'une évaluation plus approfondie de la constance entre les différents groupes d'âge et les sources de donnée sur les atteintes.