Evaluation d`un test diagnostique - Concordance
Transcription
Evaluation d`un test diagnostique - Concordance
. . Evaluation d’un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected] Plan 1. Introduction 2. Evaluation d’un test diagnostique 3. Concordance Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 1 / 35 Plan 1. Introduction 2. Evaluation d’un test diagnostique 3. Concordance Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 1 / 35 Plan 1. Introduction 2. Evaluation d’un test diagnostique 3. Concordance Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 1 / 35 Introduction Point étudié 1. Introduction 2. Evaluation d’un test diagnostique 3. Concordance Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 2 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Introduction Motivations . Evaluation d’un nouveau test : 1 Référence (Gold Standard) binaire → Malade (M) / Non malade (M̄) Nouveau test → M / M̄ ⇒ Quantifier le pouvoir diagnostic du nouveau test . Variable numérique (ex : dosage biologique) 2 On désire utiliser cette variable pour séparer les M des M̄ ⇒ Déterminer un seuil optimal ⇒ Quantifier le pouvoir discriminant de X . 2 tests destinés à classer les patients (M et M̄) 3 ⇒ Evaluation de la concordance = similitude entre les 2 tests. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 3 / 35 Evaluation d’un test diagnostique Point étudié 1. 2. 3. Introduction Evaluation d’un test diagnostique Définitions Analyse ROC Concordance Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 4 / 35 Evaluation d’un test diagnostique Définitions Point étudié 1. 2. 3. Introduction Evaluation d’un test diagnostique Définitions Analyse ROC Concordance Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 5 / 35 Evaluation d’un test diagnostique Définitions Définitions . On cherche à séparer les malades (M) des non-malades (M̄) 2. On dispose d’une référence qui permet de les classer de manière certaine (Gold Standard) 1 Considérons un test : T + : test positif en faveur de M T − : test négatif en faveur de M̄ T+ T Considérons N patients NM : nombre de malades (référence) NM̄ : nombre de non-malades (référence) NT + : nombre de tests positifs NT − : nombre de tests négatifs Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance − M M̄ vp fp NT + fn vn NT − NM NM̄ N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Version - 18 avril 2014 6 / 35 Evaluation d’un test diagnostique Définitions Définitions . On cherche à séparer les malades (M) des non-malades (M̄) 2. On dispose d’une référence qui permet de les classer de manière certaine (Gold Standard) 1 Considérons un test : T + : test positif en faveur de M T − : test négatif en faveur de M̄ T+ T Considérons N patients NM : nombre de malades (référence) NM̄ : nombre de non-malades (référence) NT + : nombre de tests positifs NT − : nombre de tests négatifs Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance − M M̄ vp fp NT + fn vn NT − NM NM̄ N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Version - 18 avril 2014 6 / 35 Evaluation d’un test diagnostique Définitions Définitions . On cherche à séparer les malades (M) des non-malades (M̄) 2. On dispose d’une référence qui permet de les classer de manière certaine (Gold Standard) 1 Considérons un test : T + : test positif en faveur de M T − : test négatif en faveur de M̄ T+ T Considérons N patients NM : nombre de malades (référence) NM̄ : nombre de non-malades (référence) NT + : nombre de tests positifs NT − : nombre de tests négatifs Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance − M M̄ vp fp NT + fn vn NT − NM NM̄ N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Version - 18 avril 2014 6 / 35 Evaluation d’un test diagnostique Définitions Définitions . On cherche à séparer les malades (M) des non-malades (M̄) 2. On dispose d’une référence qui permet de les classer de manière certaine (Gold Standard) 1 Considérons un test : T + : test positif en faveur de M T − : test négatif en faveur de M̄ T+ T Considérons N patients NM : nombre de malades (référence) NM̄ : nombre de non-malades (référence) NT + : nombre de tests positifs NT − : nombre de tests négatifs Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance − M M̄ vp fp NT + fn vn NT − NM NM̄ N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Version - 18 avril 2014 6 / 35 Evaluation d’un test diagnostique Définitions Définitions . On cherche à séparer les malades (M) des non-malades (M̄) 2. On dispose d’une référence qui permet de les classer de manière certaine (Gold Standard) 1 Considérons un test : T + : test positif en faveur de M T − : test négatif en faveur de M̄ T+ T Considérons N patients NM : nombre de malades (référence) NM̄ : nombre de non-malades (référence) NT + : nombre de tests positifs NT − : nombre de tests négatifs Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance − M M̄ vp fp NT + fn vn NT − NM NM̄ N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Version - 18 avril 2014 6 / 35 Evaluation d’un test diagnostique Définitions Définitions . On cherche à séparer les malades (M) des non-malades (M̄) 2. On dispose d’une référence qui permet de les classer de manière certaine (Gold Standard) 1 Considérons un test : T + : test positif en faveur de M T − : test négatif en faveur de M̄ T+ T Considérons N patients NM : nombre de malades (référence) NM̄ : nombre de non-malades (référence) NT + : nombre de tests positifs NT − : nombre de tests négatifs Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance − M M̄ vp fp NT + fn vn NT − NM NM̄ N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Version - 18 avril 2014 6 / 35 Evaluation d’un test diagnostique Définitions Définitions . On cherche à séparer les malades (M) des non-malades (M̄) 2. On dispose d’une référence qui permet de les classer de manière certaine (Gold Standard) 1 Considérons un test : T + : test positif en faveur de M T − : test négatif en faveur de M̄ T+ T Considérons N patients NM : nombre de malades (référence) NM̄ : nombre de non-malades (référence) NT + : nombre de tests positifs NT − : nombre de tests négatifs Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance − M M̄ vp fp NT + fn vn NT − NM NM̄ N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Version - 18 avril 2014 6 / 35 Evaluation d’un test diagnostique Définitions Définitions . On cherche à séparer les malades (M) des non-malades (M̄) 2. On dispose d’une référence qui permet de les classer de manière certaine (Gold Standard) 1 Considérons un test : T + : test positif en faveur de M T − : test négatif en faveur de M̄ T+ T Considérons N patients NM : nombre de malades (référence) NM̄ : nombre de non-malades (référence) NT + : nombre de tests positifs NT − : nombre de tests négatifs Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance − M M̄ vp fp NT + fn vn NT − NM NM̄ N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Version - 18 avril 2014 6 / 35 Evaluation d’un test diagnostique Définitions Définitions . On cherche à séparer les malades (M) des non-malades (M̄) 2. On dispose d’une référence qui permet de les classer de manière certaine (Gold Standard) 1 Considérons un test : T + : test positif en faveur de M T − : test négatif en faveur de M̄ T+ T Considérons N patients NM : nombre de malades (référence) NM̄ : nombre de non-malades (référence) NT + : nombre de tests positifs NT − : nombre de tests négatifs Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance − M M̄ vp fp NT + fn vn NT − NM NM̄ N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Version - 18 avril 2014 6 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité intrinsèque du test (Probabilités pré-test) Le pourcentage de ”bien classés” défini par vp+vn ne reflète pas les 2 types N d’erreurs qui peuvent avoir des conséquence très ̸= 1. Dire que le patient est non-malade à tort (fn) 2. Dire que le patient est malade à tort (fp) Ces 2 types d’erreur sont quantifiés par . Sensibilité (Se) . Pourcentage de vrai-positifs (vp) chez les malades : vp = P(T + /M) NM . . Spécificité (Sp) . Pourcentage de vrai-négatifs (vn) chez les non-malades : vn = P(T − /M̄) NM̄ . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 7 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité intrinsèque du test (Probabilités pré-test) Le pourcentage de ”bien classés” défini par vp+vn ne reflète pas les 2 types N d’erreurs qui peuvent avoir des conséquence très ̸= 1. Dire que le patient est non-malade à tort (fn) 2. Dire que le patient est malade à tort (fp) Ces 2 types d’erreur sont quantifiés par . Sensibilité (Se) . Pourcentage de vrai-positifs (vp) chez les malades : vp = P(T + /M) NM . . Spécificité (Sp) . Pourcentage de vrai-négatifs (vn) chez les non-malades : vn = P(T − /M̄) NM̄ . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 7 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité intrinsèque du test (Probabilités pré-test) Le pourcentage de ”bien classés” défini par vp+vn ne reflète pas les 2 types N d’erreurs qui peuvent avoir des conséquence très ̸= 1. Dire que le patient est non-malade à tort (fn) 2. Dire que le patient est malade à tort (fp) Ces 2 types d’erreur sont quantifiés par . Sensibilité (Se) . Pourcentage de vrai-positifs (vp) chez les malades : vp = P(T + /M) NM . . Spécificité (Sp) . Pourcentage de vrai-négatifs (vn) chez les non-malades : vn = P(T − /M̄) NM̄ . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 7 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité intrinsèque du test (Probabilités pré-test) Le pourcentage de ”bien classés” défini par vp+vn ne reflète pas les 2 types N d’erreurs qui peuvent avoir des conséquence très ̸= 1. Dire que le patient est non-malade à tort (fn) 2. Dire que le patient est malade à tort (fp) Ces 2 types d’erreur sont quantifiés par . Sensibilité (Se) . Pourcentage de vrai-positifs (vp) chez les malades : vp = P(T + /M) NM . . Spécificité (Sp) . Pourcentage de vrai-négatifs (vn) chez les non-malades : vn = P(T − /M̄) NM̄ . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 7 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité intrinsèque du test (Probabilités pré-test) Le pourcentage de ”bien classés” défini par vp+vn ne reflète pas les 2 types N d’erreurs qui peuvent avoir des conséquence très ̸= 1. Dire que le patient est non-malade à tort (fn) 2. Dire que le patient est malade à tort (fp) Ces 2 types d’erreur sont quantifiés par . Sensibilité (Se) . Pourcentage de vrai-positifs (vp) chez les malades : vp = P(T + /M) NM . . Spécificité (Sp) . Pourcentage de vrai-négatifs (vn) chez les non-malades : vn = P(T − /M̄) NM̄ . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 7 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité intrinsèque du test (Probabilités pré-test) Le pourcentage de ”bien classés” défini par vp+vn ne reflète pas les 2 types N d’erreurs qui peuvent avoir des conséquence très ̸= 1. Dire que le patient est non-malade à tort (fn) 2. Dire que le patient est malade à tort (fp) Ces 2 types d’erreur sont quantifiés par . Sensibilité (Se) . Pourcentage de vrai-positifs (vp) chez les malades : vp = P(T + /M) NM . . Spécificité (Sp) . Pourcentage de vrai-négatifs (vn) chez les non-malades : vn = P(T − /M̄) NM̄ . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 7 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Un test est caractérisé par ces deux paramètres (Se,Sp). Remarque 1 Les tests très sensibles sont utiles pour s’assurer que la maladie n’est pas présente (peu de faux négatifs) → La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s’assurer que la maladie est bien présente (peu de faux positifs) → Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie → pas besoin de respecter la prévalence de la population (échantillon représentatif) → En général, on trouve 100 M et 100 M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 8 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité extrinsèque du test (Probabilités post-test) . Valeur Prédictive Positive (VPP) . Probabilité qu’un individu soit réellement malade sachant que le test est positif : P(M/T + ) = . vp NT + . Valeur Prédictive Négative (VPN) . Probabilité qu’un individu soit réellement non-malade sachant que le test est négatif : vn P(M̄/T − ) = NT − . Très important en situation clinique car on ignore très souvent le diagnostic de référence. Ces formules sont utilisables lorsque l’échantillon est représentatif de la population !! Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 9 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité extrinsèque du test (Probabilités post-test) . Valeur Prédictive Positive (VPP) . Probabilité qu’un individu soit réellement malade sachant que le test est positif : P(M/T + ) = . vp NT + . Valeur Prédictive Négative (VPN) . Probabilité qu’un individu soit réellement non-malade sachant que le test est négatif : vn P(M̄/T − ) = NT − . Très important en situation clinique car on ignore très souvent le diagnostic de référence. Ces formules sont utilisables lorsque l’échantillon est représentatif de la population !! Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 9 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité extrinsèque du test (Probabilités post-test) . Valeur Prédictive Positive (VPP) . Probabilité qu’un individu soit réellement malade sachant que le test est positif : P(M/T + ) = . vp NT + . Valeur Prédictive Négative (VPN) . Probabilité qu’un individu soit réellement non-malade sachant que le test est négatif : vn P(M̄/T − ) = NT − . Très important en situation clinique car on ignore très souvent le diagnostic de référence. Ces formules sont utilisables lorsque l’échantillon est représentatif de la population !! Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 9 / 35 Evaluation d’un test diagnostique Définitions Définitions - Validité extrinsèque du test (Probabilités post-test) . Valeur Prédictive Positive (VPP) . Probabilité qu’un individu soit réellement malade sachant que le test est positif : P(M/T + ) = . vp NT + . Valeur Prédictive Négative (VPN) . Probabilité qu’un individu soit réellement non-malade sachant que le test est négatif : vn P(M̄/T − ) = NT − . Très important en situation clinique car on ignore très souvent le diagnostic de référence. Ces formules sont utilisables lorsque l’échantillon est représentatif de la population !! Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 9 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Remarque 1 Une VPP faible → examens supplémentaires lourds chez des non-malades Une VPN faible → rassurer des patients à tort → Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l’échantillon étudié (prévalence de la maladie). Donc si l’échantillon n’est pas représentatif (prévalence) : → Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes). → Un prévalence importante va améliorer la VPP mais diminuer la VPN → Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 10 / 35 Evaluation d’un test diagnostique Définitions Exemple : Se = 0.8 et Sp = 0.9 Echantillon 1 Echantillon 2 M M̄ M M̄ T+ 80 10 90 T+ 160 10 170 T− 20 90 110 T− 40 90 130 100 100 200 200 100 300 80 ≈ 0.89 90 90 VPN = ≈ 0.82 110 VPP = Michaël Genin (Université de Lille 2) 160 ≈ 0.94 170 90 VPN = ≈ 0.69 130 VPP = Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 11 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + /M)P(M) = P(T + ) P(T + /M)P(M) + P(T + /M̄)P(M̄) . VPP = . VPN = P(M̄/T − ) = P(T − /M̄)P(M̄) P(T − /M̄)P(M̄) = P(T − ) P(T − /M̄)P(M̄) + P(T − /M)P(M) . VPN = . Michaël Genin (Université de Lille 2) Se.p Se.p + (1 − Sp)(1 − p) Sp(1 − p) Sp(1 − p) + (1 − Se)p Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 12 / 35 Evaluation d’un test diagnostique Analyse ROC Point étudié 1. 2. 3. Introduction Evaluation d’un test diagnostique Définitions Analyse ROC Concordance Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 13 / 35 Evaluation d’un test diagnostique Analyse ROC Problématique On dispose d’une variable quantitative X (ex : dosage biologique). On souhaite : Déterminer le seuil optimal (pour séparer les M des M̄) Quantifier le pouvoir diagnostic de X Le seuil optimal est celui qui sépare au mieux les M des M̄ en respectant les deux types de risques (fp,fn). ⇒ max(Se, Sp) Problème : les deux paramètres varient en sens contraire !! Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 14 / 35 Evaluation d’un test diagnostique Analyse ROC Problématique On dispose d’une variable quantitative X (ex : dosage biologique). On souhaite : Déterminer le seuil optimal (pour séparer les M des M̄) Quantifier le pouvoir diagnostic de X Le seuil optimal est celui qui sépare au mieux les M des M̄ en respectant les deux types de risques (fp,fn). ⇒ max(Se, Sp) Problème : les deux paramètres varient en sens contraire !! Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 14 / 35 Evaluation d’un test diagnostique Analyse ROC Problématique On dispose d’une variable quantitative X (ex : dosage biologique). On souhaite : Déterminer le seuil optimal (pour séparer les M des M̄) Quantifier le pouvoir diagnostic de X Le seuil optimal est celui qui sépare au mieux les M des M̄ en respectant les deux types de risques (fp,fn). ⇒ max(Se, Sp) Problème : les deux paramètres varient en sens contraire !! Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 14 / 35 Evaluation d’un test diagnostique Analyse ROC Problématique On dispose d’une variable quantitative X (ex : dosage biologique). On souhaite : Déterminer le seuil optimal (pour séparer les M des M̄) Quantifier le pouvoir diagnostic de X Le seuil optimal est celui qui sépare au mieux les M des M̄ en respectant les deux types de risques (fp,fn). ⇒ max(Se, Sp) Problème : les deux paramètres varient en sens contraire !! Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 14 / 35 Evaluation d’un test diagnostique Analyse ROC Problématique On dispose d’une variable quantitative X (ex : dosage biologique). On souhaite : Déterminer le seuil optimal (pour séparer les M des M̄) Quantifier le pouvoir diagnostic de X Le seuil optimal est celui qui sépare au mieux les M des M̄ en respectant les deux types de risques (fp,fn). ⇒ max(Se, Sp) Problème : les deux paramètres varient en sens contraire !! Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 14 / 35 Evaluation d’un test diagnostique Analyse ROC Exemple - 2 cas extrêmes vp pour s1 M M̄ vn pour s1 X s1 fp pour s1 Seuil s1 : Si X < s1 alors M̄ (pas de fn) Si X ≥ s1 alors M et M̄ (bcp de fp) ⇒ Se = 1 mais Sp mauvaise Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance M M̄ T + (X ≥ s1 ) vp fp T − (X < s1 ) 0 vn Version - 18 avril 2014 15 / 35 Evaluation d’un test diagnostique Analyse ROC Exemple - 2 cas extrêmes vp pour s1 M M̄ vn pour s1 X s1 fp pour s1 Seuil s1 : Si X < s1 alors M̄ (pas de fn) Si X ≥ s1 alors M et M̄ (bcp de fp) ⇒ Se = 1 mais Sp mauvaise Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance M M̄ T + (X ≥ s1 ) vp fp T − (X < s1 ) 0 vn Version - 18 avril 2014 15 / 35 Evaluation d’un test diagnostique Analyse ROC Exemple - 2 cas extrêmes fn pour s2 M M̄ vp pour s2 X vn pour s2 Seuil s2 : s2 Si X < s2 alors M et M̄ (bcp de fn) Mais si X ≥ s2 alors M (pas de fp) ⇒ Sp = 1 mais Se mauvaise T + (X ≥ s2 ) T − (X < s2 ) M M̄ vp 0 fn vn → Nécessité de trouver un compromis !! ← Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 16 / 35 Evaluation d’un test diagnostique Analyse ROC Exemple - 2 cas extrêmes fn pour s2 M M̄ vp pour s2 X vn pour s2 Seuil s2 : Si X < s2 alors M et M̄ (bcp de fn) Mais si X ≥ s2 alors M (pas de fp) s2 ⇒ Sp = 1 mais Se mauvaise T + (X ≥ s2 ) T − (X < s2 ) M M̄ vp 0 fn vn → Nécessité de trouver un compromis !! ← Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 16 / 35 Evaluation d’un test diagnostique Analyse ROC Exemple - 2 cas extrêmes fn pour s2 M M̄ vp pour s2 X vn pour s2 Seuil s2 : Si X < s2 alors M et M̄ (bcp de fn) Mais si X ≥ s2 alors M (pas de fp) s2 ⇒ Sp = 1 mais Se mauvaise T + (X ≥ s2 ) T − (X < s2 ) M M̄ vp 0 fn vn → Nécessité de trouver un compromis !! ← Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 16 / 35 Evaluation d’un test diagnostique Analyse ROC 1.0 Courbe ROC (Receiver Operating Characteristic) ● Point idéal (0,1) ● 0.2 0.4 Se 0.6 0.8 s1 s2 0.0 ● 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp Objectif : déterminer le seuil s qui sépare au mieux les M des M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 17 / 35 Evaluation d’un test diagnostique Analyse ROC 1.0 Courbe ROC (Receiver Operating Characteristic) ● Point idéal (0,1) ● 0.2 0.4 Se 0.6 0.8 s1 s2 0.0 ● 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp Objectif : déterminer le seuil s qui sépare au mieux les M des M̄ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 17 / 35 Evaluation d’un test diagnostique Analyse ROC 1.0 Courbe ROC (Receiver Operating Characteristic) ● Point idéal (0,1) ● s1 ● 0.2 0.4 Se 0.6 0.8 Seuil s optimal s2 0.0 ● 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp Solution : déterminer le seuil s qui minimise la distance euclidienne du point (0, 1) √ d((0, 1), s) = (0 − xs )2 + (1 − ys )2 Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 18 / 35 Evaluation d’un test diagnostique Analyse ROC 1.0 Courbe ROC (Receiver Operating Characteristic) ● Point idéal (0,1) ● s1 ● 0.2 0.4 Se 0.6 0.8 Seuil s optimal s2 0.0 ● 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp Solution : déterminer le seuil s qui minimise la distance euclidienne du point (0, 1) √ d((0, 1), s) = (0 − xs )2 + (1 − ys )2 Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 18 / 35 Evaluation d’un test diagnostique Analyse ROC Courbe ROC (Receiver Operating Characteristic) La courbe ROC présente 2 intérêts : Choix du meilleur seuil Permet de visualiser puis quantifier le pouvoir discriminant de X → Calcul de l’aire sous la courbe ROC (AUC) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 19 / 35 Evaluation d’un test diagnostique Analyse ROC Courbe ROC (Receiver Operating Characteristic) La courbe ROC présente 2 intérêts : Choix du meilleur seuil Permet de visualiser puis quantifier le pouvoir discriminant de X → Calcul de l’aire sous la courbe ROC (AUC) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 19 / 35 Evaluation d’un test diagnostique Analyse ROC Courbe ROC (Receiver Operating Characteristic) La courbe ROC présente 2 intérêts : Choix du meilleur seuil Permet de visualiser puis quantifier le pouvoir discriminant de X → Calcul de l’aire sous la courbe ROC (AUC) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 19 / 35 Evaluation d’un test diagnostique Analyse ROC Courbe ROC (Receiver Operating Characteristic) La courbe ROC présente 2 intérêts : Choix du meilleur seuil Permet de visualiser puis quantifier le pouvoir discriminant de X → Calcul de l’aire sous la courbe ROC (AUC) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 19 / 35 Evaluation d’un test diagnostique Analyse ROC Courbe ROC (Receiver Operating Characteristic) 0.0 0.2 0.4 Se 0.6 0.8 1.0 La courbe ROC présente 2 intérêts : Choix du meilleur seuil Permet de visualiser puis quantifier le pouvoir discriminant de X → Calcul de l’aire sous la courbe ROC (AUC) 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 19 / 35 Evaluation d’un test diagnostique Analyse ROC 0.0 0.2 0.4 0.6 0.8 1−Sp Discrimination → 0.5 ≤ AUC ≤ 1 1.0 1.0 0.0 0.2 0.4 Se 0.6 0.8 1.0 0.8 0.6 Se 0.4 0.2 0.0 0.0 0.2 0.4 Se 0.6 0.8 1.0 Courbe ROC (Receiver Operating Characteristic) 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp Discrim. parfaite → Se = 1, Sp = 1 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp ∅ Discrimination → AUC = 0.5 → AUC = 1 Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 20 / 35 Evaluation d’un test diagnostique Analyse ROC 0.0 0.2 0.4 0.6 0.8 1−Sp Discrimination → 0.5 ≤ AUC ≤ 1 1.0 1.0 0.0 0.2 0.4 Se 0.6 0.8 1.0 0.8 0.6 Se 0.4 0.2 0.0 0.0 0.2 0.4 Se 0.6 0.8 1.0 Courbe ROC (Receiver Operating Characteristic) 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp Discrim. parfaite → Se = 1, Sp = 1 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp ∅ Discrimination → AUC = 0.5 → AUC = 1 Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 20 / 35 Evaluation d’un test diagnostique Analyse ROC 0.0 0.2 0.4 0.6 0.8 1−Sp Discrimination → 0.5 ≤ AUC ≤ 1 Michaël Genin (Université de Lille 2) 1.0 1.0 0.0 0.2 0.4 Se 0.6 0.8 1.0 0.8 0.6 Se 0.4 0.2 0.0 0.0 0.2 0.4 Se 0.6 0.8 1.0 Courbe ROC (Receiver Operating Characteristic) 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp Discrim. parfaite → Se = 1, Sp = 1 → AUC = 1 Evaluation d’un test diagnostique - Concordance 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp ∅ Discrimination → AUC = 0.5 Version - 18 avril 2014 20 / 35 Evaluation d’un test diagnostique Analyse ROC 0.0 0.2 0.4 0.6 0.8 1−Sp Discrimination → 0.5 ≤ AUC ≤ 1 Michaël Genin (Université de Lille 2) 1.0 1.0 0.0 0.2 0.4 Se 0.6 0.8 1.0 0.8 0.6 Se 0.4 0.2 0.0 0.0 0.2 0.4 Se 0.6 0.8 1.0 Courbe ROC (Receiver Operating Characteristic) 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp Discrim. parfaite → Se = 1, Sp = 1 → AUC = 1 Evaluation d’un test diagnostique - Concordance 0.0 0.2 0.4 0.6 0.8 1.0 1−Sp ∅ Discrimination → AUC = 0.5 Version - 18 avril 2014 20 / 35 Evaluation d’un test diagnostique Analyse ROC Courbe ROC (Receiver Operating Characteristic) AUC Discrimination 0.5 0.7 - 0.8 0.8 - 0.9 > 0.9 Nulle Acceptable Excellente Exceptionnelle Remarques : Si AUC = 0.5 alors on classe de manière complètement aléatoire les observations Si AUC > 0.9 le classement est très bon, voire trop bon, il faut évaluer s’il y a overfitting Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 21 / 35 Evaluation d’un test diagnostique Analyse ROC Courbe ROC (Receiver Operating Characteristic) AUC Discrimination 0.5 0.7 - 0.8 0.8 - 0.9 > 0.9 Nulle Acceptable Excellente Exceptionnelle Remarques : Si AUC = 0.5 alors on classe de manière complètement aléatoire les observations Si AUC > 0.9 le classement est très bon, voire trop bon, il faut évaluer s’il y a overfitting Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 21 / 35 Evaluation d’un test diagnostique Analyse ROC Courbe ROC (Receiver Operating Characteristic) AUC Discrimination 0.5 0.7 - 0.8 0.8 - 0.9 > 0.9 Nulle Acceptable Excellente Exceptionnelle Remarques : Si AUC = 0.5 alors on classe de manière complètement aléatoire les observations Si AUC > 0.9 le classement est très bon, voire trop bon, il faut évaluer s’il y a overfitting Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 21 / 35 Concordance Point étudié 1. Introduction 2. Evaluation d’un test diagnostique 3. Concordance Introduction Coefficient kappa Test de significativité du coefficient Intervalle de confiance du coefficient Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 22 / 35 Concordance Introduction Point étudié 1. Introduction 2. Evaluation d’un test diagnostique 3. Concordance Introduction Coefficient kappa Test de significativité du coefficient Intervalle de confiance du coefficient Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 23 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Objectif Evaluer la concordance (accord, similitude,. . . ) entre 2 techniques 2 jugements 2 tests ... par rapport à un critère quantitatif → Mesure biologique faite avec 2 appareils différents qualitatif → Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil → validation de l’appareil) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 24 / 35 Concordance Introduction Différence entre concordance et liaison Exemple : Accord entre 2 radiologues R1 et R2 sur une même série de radiographies R1 \R2 Malade Non-Malade Malade 95 5 Non-Malade 8 92 Pour évaluer la concordance entre R1 et R2 un test du χ2 n’est pas suffisant car : L’existence d’une liaison entre R1 et R2 n’implique pas forcément la concordance entre eux R1 \R2 Malade Non-Malade Malade 10 105 Non-Malade 95 20 En revanche, une concordance importante → un liaison significative. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 25 / 35 Concordance Introduction Différence entre concordance et liaison Exemple : Accord entre 2 radiologues R1 et R2 sur une même série de radiographies R1 \R2 Malade Non-Malade Malade 95 5 Non-Malade 8 92 Pour évaluer la concordance entre R1 et R2 un test du χ2 n’est pas suffisant car : L’existence d’une liaison entre R1 et R2 n’implique pas forcément la concordance entre eux R1 \R2 Malade Non-Malade Malade 10 105 Non-Malade 95 20 En revanche, une concordance importante → un liaison significative. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 25 / 35 Concordance Introduction Différence entre concordance et liaison Exemple : Accord entre 2 radiologues R1 et R2 sur une même série de radiographies R1 \R2 Malade Non-Malade Malade 95 5 Non-Malade 8 92 Pour évaluer la concordance entre R1 et R2 un test du χ2 n’est pas suffisant car : L’existence d’une liaison entre R1 et R2 n’implique pas forcément la concordance entre eux R1 \R2 Malade Non-Malade Malade 10 105 Non-Malade 95 20 En revanche, une concordance importante → un liaison significative. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 25 / 35 Concordance Introduction Différence entre concordance et liaison Exemple : Accord entre 2 radiologues R1 et R2 sur une même série de radiographies R1 \R2 Malade Non-Malade Malade 95 5 Non-Malade 8 92 Pour évaluer la concordance entre R1 et R2 un test du χ2 n’est pas suffisant car : L’existence d’une liaison entre R1 et R2 n’implique pas forcément la concordance entre eux R1 \R2 Malade Non-Malade Malade 10 105 Non-Malade 95 20 En revanche, une concordance importante → un liaison significative. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 25 / 35 Concordance Coefficient kappa Point étudié 1. Introduction 2. Evaluation d’un test diagnostique 3. Concordance Introduction Coefficient kappa Test de significativité du coefficient Intervalle de confiance du coefficient Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 26 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Considérons 2 tests A et B effectués un échantillon de N individus. A\B T+ T− T+ a c nB + T− b d nB − nA+ nA− N Idée : La concordance entre A et B peut être décomposée en 1. Une concordance aléatoire (liée au hasard) 2. Une concordance réelle La concordance observée est définie par . po = . Michaël Genin (Université de Lille 2) a+d N Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 27 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Considérons 2 tests A et B effectués un échantillon de N individus. A\B T+ T− T+ a c nB + T− b d nB − nA+ nA− N Idée : La concordance entre A et B peut être décomposée en 1. Une concordance aléatoire (liée au hasard) 2. Une concordance réelle La concordance observée est définie par . po = . Michaël Genin (Université de Lille 2) a+d N Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 27 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Considérons 2 tests A et B effectués un échantillon de N individus. A\B T+ T− T+ a c nB + T− b d nB − nA+ nA− N Idée : La concordance entre A et B peut être décomposée en 1. Une concordance aléatoire (liée au hasard) 2. Une concordance réelle La concordance observée est définie par . po = . Michaël Genin (Université de Lille 2) a+d N Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 27 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Considérons 2 tests A et B effectués un échantillon de N individus. A\B T+ T− T+ a c nB + T− b d nB − nA+ nA− N Idée : La concordance entre A et B peut être décomposée en 1. Une concordance aléatoire (liée au hasard) 2. Une concordance réelle La concordance observée est définie par . po = . Michaël Genin (Université de Lille 2) a+d N Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 27 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Considérons 2 tests A et B effectués un échantillon de N individus. A\B T+ T− T+ a c nB + T− b d nB − nA+ nA− N Idée : La concordance entre A et B peut être décomposée en 1. Une concordance aléatoire (liée au hasard) 2. Une concordance réelle La concordance observée est définie par . po = . Michaël Genin (Université de Lille 2) a+d N Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 27 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Considérons 2 tests A et B effectués un échantillon de N individus. A\B T+ T− T+ a c nB + T− b d nB − nA+ nA− N Idée : La concordance entre A et B peut être décomposée en 1. Une concordance aléatoire (liée au hasard) 2. Une concordance réelle La concordance observée est définie par . po = . Michaël Genin (Université de Lille 2) a+d N Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 27 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Sous l’hypothèse d’indépendance des tests, on peut reconstituer le tableau des effectifs théoriques : A\B T+ T − T+ T− nA + nB + N nA − nB + N nA + nB − N nA − nB − N nA− nB + nB − N nA+ Et ainsi en déduire la concordance due au hasard : . n n n A+ n B + + A−N B − pc = N N . Il faut corriger la concordance observée (po ) en tenant compte de celle qui serait due au hasard (pc ) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 28 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Sous l’hypothèse d’indépendance des tests, on peut reconstituer le tableau des effectifs théoriques : A\B T+ T − T+ T− nA + nB + N nA − nB + N nA + nB − N nA − nB − N nA− nB + nB − N nA+ Et ainsi en déduire la concordance due au hasard : . n n n A+ n B + + A−N B − pc = N N . Il faut corriger la concordance observée (po ) en tenant compte de celle qui serait due au hasard (pc ) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 28 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Sous l’hypothèse d’indépendance des tests, on peut reconstituer le tableau des effectifs théoriques : A\B T+ T − T+ T− nA + nB + N nA − nB + N nA + nB − N nA − nB − N nA− nB + nB − N nA+ Et ainsi en déduire la concordance due au hasard : . n n n A+ n B + + A−N B − pc = N N . Il faut corriger la concordance observée (po ) en tenant compte de celle qui serait due au hasard (pc ) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 28 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Sous l’hypothèse d’indépendance des tests, on peut reconstituer le tableau des effectifs théoriques : A\B T+ T − T+ T− nA + nB + N nA − nB + N nA + nB − N nA − nB − N nA− nB + nB − N nA+ Et ainsi en déduire la concordance due au hasard : . n n n A+ n B + + A−N B − pc = N N . Il faut corriger la concordance observée (po ) en tenant compte de celle qui serait due au hasard (pc ) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 28 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Sous l’hypothèse d’indépendance des tests, on peut reconstituer le tableau des effectifs théoriques : A\B T+ T − T+ T− nA + nB + N nA − nB + N nA + nB − N nA − nB − N nA− nB + nB − N nA+ Et ainsi en déduire la concordance due au hasard : . n n n A+ n B + + A−N B − pc = N N . Il faut corriger la concordance observée (po ) en tenant compte de celle qui serait due au hasard (pc ) Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 28 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa On définit ainsi le coefficient kappa k : . k= . po − pc 1 − pc Interprétation en termes de concordance : k ≤ 0.2 → Négligeable 0.2 < k ≤ 0.4 → Faible 0.4 < k ≤ 0.6 → Moyenne 0.6 < k ≤ 0.8 → Bonne 0.8 < k ≤ 1 → Excellente On montre que . E[K ] = κ V[K ] = . Michaël Genin (Université de Lille 2) po (1 − po ) N(1 − pc )2 Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 29 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa On définit ainsi le coefficient kappa k : . k= . po − pc 1 − pc Interprétation en termes de concordance : k ≤ 0.2 → Négligeable 0.2 < k ≤ 0.4 → Faible 0.4 < k ≤ 0.6 → Moyenne 0.6 < k ≤ 0.8 → Bonne 0.8 < k ≤ 1 → Excellente On montre que . E[K ] = κ V[K ] = . Michaël Genin (Université de Lille 2) po (1 − po ) N(1 − pc )2 Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 29 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa On définit ainsi le coefficient kappa k : . k= . po − pc 1 − pc Interprétation en termes de concordance : k ≤ 0.2 → Négligeable 0.2 < k ≤ 0.4 → Faible 0.4 < k ≤ 0.6 → Moyenne 0.6 < k ≤ 0.8 → Bonne 0.8 < k ≤ 1 → Excellente On montre que . E[K ] = κ V[K ] = . Michaël Genin (Université de Lille 2) po (1 − po ) N(1 − pc )2 Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 29 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa On définit ainsi le coefficient kappa k : . k= . po − pc 1 − pc Interprétation en termes de concordance : k ≤ 0.2 → Négligeable 0.2 < k ≤ 0.4 → Faible 0.4 < k ≤ 0.6 → Moyenne 0.6 < k ≤ 0.8 → Bonne 0.8 < k ≤ 1 → Excellente On montre que . E[K ] = κ V[K ] = . Michaël Genin (Université de Lille 2) po (1 − po ) N(1 − pc )2 Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 29 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Exemple Effectifs observés A\B T+ T− po = T+ 45 5 50 T− 15 35 50 Effectifs théoriques 60 40 100 45 + 35 = 0.8 100 k= Michaël Genin (Université de Lille 2) A\B T+ T− T+ 30 20 50 pc = T− 30 20 50 60 40 100 30 + 20 = 0.5 100 0.8 − 0.5 po − pc = = 0.6 1 − pc 0.5 Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 30 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Exemple Effectifs observés A\B T+ T− po = T+ 45 5 50 T− 15 35 50 Effectifs théoriques 60 40 100 45 + 35 = 0.8 100 k= Michaël Genin (Université de Lille 2) A\B T+ T− T+ 30 20 50 pc = T− 30 20 50 60 40 100 30 + 20 = 0.5 100 0.8 − 0.5 po − pc = = 0.6 1 − pc 0.5 Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 30 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Exemple Effectifs observés A\B T+ T− po = T+ 45 5 50 T− 15 35 50 Effectifs théoriques 60 40 100 45 + 35 = 0.8 100 k= Michaël Genin (Université de Lille 2) A\B T+ T− T+ 30 20 50 pc = T− 30 20 50 60 40 100 30 + 20 = 0.5 100 po − pc 0.8 − 0.5 = = 0.6 1 − pc 0.5 Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 30 / 35 Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Exemple Effectifs observés A\B T+ T− po = T+ 45 5 50 T− 15 35 50 Effectifs théoriques 60 40 100 45 + 35 = 0.8 100 k= Michaël Genin (Université de Lille 2) A\B T+ T− T+ 30 20 50 pc = T− 30 20 50 60 40 100 30 + 20 = 0.5 100 po − pc 0.8 − 0.5 = = 0.6 1 − pc 0.5 Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 30 / 35 Concordance Test de significativité du coefficient Point étudié 1. Introduction 2. Evaluation d’un test diagnostique 3. Concordance Introduction Coefficient kappa Test de significativité du coefficient Intervalle de confiance du coefficient Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 31 / 35 Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Condition d’application : N ≥ 30 Les hypothèses de test sont les suivantes : . { H0 : κ = 0 Concordance aléatoire po = pc H1 : κ > 0 Concordance non aléatoire po > pc . Sous H0 , E[K ] = 0 et po = pc donc V[K ] = po (1 − po ) pc (1 − pc ) pc = = N(1 − pc )2 N(1 − pc )2 N(1 − pc ) . Sous H0 , pour N ≥ 30, la statistique de test est . K − E[K ] K Z= √ =√ ∼ N (0, 1) V[K ] V[K ] . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 32 / 35 Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Condition d’application : N ≥ 30 Les hypothèses de test sont les suivantes : . { H0 : κ = 0 Concordance aléatoire po = pc H1 : κ > 0 Concordance non aléatoire po > pc . Sous H0 , E[K ] = 0 et po = pc donc V[K ] = po (1 − po ) pc (1 − pc ) pc = = N(1 − pc )2 N(1 − pc )2 N(1 − pc ) . Sous H0 , pour N ≥ 30, la statistique de test est . K − E[K ] K Z= √ =√ ∼ N (0, 1) V[K ] V[K ] . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 32 / 35 Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Condition d’application : N ≥ 30 Les hypothèses de test sont les suivantes : . { H0 : κ = 0 Concordance aléatoire po = pc H1 : κ > 0 Concordance non aléatoire po > pc . Sous H0 , E[K ] = 0 et po = pc donc V[K ] = po (1 − po ) pc (1 − pc ) pc = = N(1 − pc )2 N(1 − pc )2 N(1 − pc ) . Sous H0 , pour N ≥ 30, la statistique de test est . K − E[K ] K Z= √ =√ ∼ N (0, 1) V[K ] V[K ] . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 32 / 35 Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Condition d’application : N ≥ 30 Les hypothèses de test sont les suivantes : . { H0 : κ = 0 Concordance aléatoire po = pc H1 : κ > 0 Concordance non aléatoire po > pc . Sous H0 , E[K ] = 0 et po = pc donc V[K ] = po (1 − po ) pc (1 − pc ) pc = = N(1 − pc )2 N(1 − pc )2 N(1 − pc ) . Sous H0 , pour N ≥ 30, la statistique de test est . K − E[K ] K Z= √ =√ ∼ N (0, 1) V[K ] V[K ] . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 32 / 35 Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Condition d’application : N ≥ 30 Les hypothèses de test sont les suivantes : . { H0 : κ = 0 Concordance aléatoire po = pc H1 : κ > 0 Concordance non aléatoire po > pc . Sous H0 , E[K ] = 0 et po = pc donc V[K ] = po (1 − po ) pc (1 − pc ) pc = = N(1 − pc )2 N(1 − pc )2 N(1 − pc ) . Sous H0 , pour N ≥ 30, la statistique de test est . K − E[K ] K Z= √ =√ ∼ N (0, 1) V[K ] V[K ] . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 32 / 35 Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Condition d’application : N ≥ 30 Les hypothèses de test sont les suivantes : . { H0 : κ = 0 Concordance aléatoire po = pc H1 : κ > 0 Concordance non aléatoire po > pc . Sous H0 , E[K ] = 0 et po = pc donc V[K ] = po (1 − po ) pc (1 − pc ) pc = = N(1 − pc )2 N(1 − pc )2 N(1 − pc ) . Sous H0 , pour N ≥ 30, la statistique de test est . K − E[K ] K Z= √ =√ ∼ N (0, 1) V[K ] V[K ] . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 32 / 35 Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Condition d’application : N ≥ 30 Les hypothèses de test sont les suivantes : . { H0 : κ = 0 Concordance aléatoire po = pc H1 : κ > 0 Concordance non aléatoire po > pc . Sous H0 , E[K ] = 0 et po = pc donc V[K ] = po (1 − po ) pc (1 − pc ) pc = = N(1 − pc )2 N(1 − pc )2 N(1 − pc ) . Sous H0 , pour N ≥ 30, la statistique de test est . K − E[K ] K Z= √ =√ ∼ N (0, 1) V[K ] V[K ] . Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 32 / 35 Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Retour à l’exemple : pc = 0.5 √ √ 2 sk = z= 0.5 = 0.1 100 × 0.5 k 0.6 = =6 sk 0.1 Donc rejet de H0 → concordance statistiquement significative. Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 33 / 35 Concordance Intervalle de confiance du coefficient Point étudié 1. Introduction 2. Evaluation d’un test diagnostique 3. Concordance Introduction Coefficient kappa Test de significativité du coefficient Intervalle de confiance du coefficient Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 34 / 35 Concordance Intervalle de confiance du coefficient Intervalle de confiance du coefficient kappa Si test est NS → STOP. Sinon nous devons donner une estimation de la vraie valeur κ → IC. L’intervalle de confiance de κ au niveau de confiance 1 − α est donné par : . √ [ ] po (1 − po ) 1−α ICκ = k ± z1−α/2 N(1 − pc )2 . Retour à l’exemple : po = 0.8, pc = 0.5, N = 100, k = 0.6 √ ] [ 0.8 × 0.2 95% ICκ = 0.6 ± 1.96 100 × (1 − 0.5)2 IC95% = [0.4432; 0.7568] κ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 35 / 35 Concordance Intervalle de confiance du coefficient Intervalle de confiance du coefficient kappa Si test est NS → STOP. Sinon nous devons donner une estimation de la vraie valeur κ → IC. L’intervalle de confiance de κ au niveau de confiance 1 − α est donné par : . √ [ ] po (1 − po ) 1−α ICκ = k ± z1−α/2 N(1 − pc )2 . Retour à l’exemple : po = 0.8, pc = 0.5, N = 100, k = 0.6 √ ] [ 0.8 × 0.2 95% ICκ = 0.6 ± 1.96 100 × (1 − 0.5)2 IC95% = [0.4432; 0.7568] κ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 35 / 35 Concordance Intervalle de confiance du coefficient Intervalle de confiance du coefficient kappa Si test est NS → STOP. Sinon nous devons donner une estimation de la vraie valeur κ → IC. L’intervalle de confiance de κ au niveau de confiance 1 − α est donné par : . √ [ ] po (1 − po ) 1−α ICκ = k ± z1−α/2 N(1 − pc )2 . Retour à l’exemple : po = 0.8, pc = 0.5, N = 100, k = 0.6 √ ] [ 0.8 × 0.2 95% ICκ = 0.6 ± 1.96 100 × (1 − 0.5)2 IC95% = [0.4432; 0.7568] κ Michaël Genin (Université de Lille 2) Evaluation d’un test diagnostique - Concordance Version - 18 avril 2014 35 / 35