mardi 27 mars 2007

Evaluation des politiques publiques (3/7) : les techniques


Pour clarifier les enjeux, il faut clairement distinguer les objectifs et les moyens de l’action publique. Les objectifs sont de l’ordre des choix politiques des citoyens dans le cadre de la démocratie. Faut-il dépenser plus dans l’éducation ou dans l’armée, dans les retraites ou la recherche, pour l’aide au développement ou pour la santé ? A l’inverse une partie des choix des politiques publiques sont de l’ordre des moyens. Tout le monde s’accorde à vouloir un taux de chômage plus faible, mais la question est comment faire ? Faut-il faire des préretraites, les 35 heures, modifier le contrat de travail, modifier le système d’assurance chômage, mettre en place des baisses de charges sociales, modifier le salaire minimum, baisser les impôts, faire du déficit public… ?

Une première possibilité consiste à évaluer l’efficacité de ces différentes politiques en vue de l’objectif fixé et à juger si celles-ci ont des effets non désirés. Si par exemple améliorer la flexibilité du marché du travail permet de baisser le chômage en dégradant les conditions de vie des salariés, les citoyens sont en droit de refuser une telle politique en faveur d’une autre plus adéquate. Mais pour faire ce choix en connaissance de cause, il faut d’abord étudier quels sont les effets des différentes politiques proposées. Et ceci n’a rien d’évident.

La difficulté majeure de l’évaluation des politiques publiques vient du fait qu’il est techniquement difficile d’estimer « l’effet pur » des politiques publiques. On ne peut pas observer un même pays avec une politique x et sans cette politique. Toute la question de l’évaluation repose sur ce problème : il n’est pas possible d’observer le « contrefactuel » (ce qui ce serait passé si cette politique n’avait pas eu lieu).

Prenons l’exemple du CNE : on mesure qu’un an après l’introduction du nouveau contrat, 570 000 contrats ont été signés (de septembre 2005 à août 2006 selon l’Acoss). Qu’en conclure ?

  • Que le CNE a « permis de créer 570 000 nouveaux emplois » ? (ça serait le cas si l’on pouvait vérifier que, dans un monde sans CNE, le nombre d’emplois créés serait inférieur de 570 000) ;

  • Que le CNE a « a simplement conduit à une substitution de CNE à des CDI » ? (ça serait le cas si l’on pouvait vérifier que, dans un monde sans CNE, au bout d’un an 570 000 nouveau CDI auraient de toutes les façons été créés).


Le problème fondamental est qu’une « France sans CNE » n’existe pas en même temps qu’une « France avec CNE » : estimer la causalité de l’existence du CNE sur l’emploi n’a donc rien d’évident !

L’approche la plus basique consiste à comparer l’emploi après avec celui avant l’introduction de la politique publique (en l’occurrence le CNE) qui nous intéresse. Or imaginons qu’au moment où le CNE est mis en place le dollar monte, l’Allemagne sort de récession ou encore l’hiver dure moins longtemps : comment peut-on faire pour savoir quelle part de ce qu’on observe attribuer au CNE et quelle part aux autres facteurs favorables qui se sont manifestés de manière simultanée ?

Une autre méthode consiste à comparer deux groupes, les entreprises touchées par le CNE (moins de 20 salariés) et les entreprises non touchées par le CNE (plus de 20 salariés) : peut-on déduire de la comparaison de ces deux groupes que la différence d’embauche est liée au CNE ? Pas vraiment. Cette différence représenterait l’effet du CNE uniquement si les entreprises de moins de 20 salariés et celles de plus de 20 salariés sont en tout points identiques quant à l’embauche et au cycle économique. Pas besoin de longues études d’économie pour être d’accord sur le point que ces deux groupes ne sont pas tout à fait comparable : le biais de sélection est évident.

Les économistes ont alors cherché à utiliser des méthodes statistiques pour isoler l’effet de causalité et s’émanciper des biais de sélection. Pour établir des relations de causalité, la méthode la plus convaincante est de faire une expérience. On tirer au sort deux groupes, l’un « test » à qui la réforme est appliquée, l’autre « de contrôle », sert de groupe de comparaison. Le choix aléatoire des deux groupes les rend identiques et donc retire le biais de sélection. Si cette méthode a des atouts indéniables du point de vue scientifique, elle est coûteuse à mettre en place et fait souvent face à l’opposition de ceux qui considèrent l’expérimentation des politiques sociales comme non éthique.

Pour pallier le manque de telles expériences, les économistes ont recours à des expériences naturelles, c’est-à-dire l’étude de réformes ou de variations qui se rapprochent d’une expérience contrôlée (différents groupes touchés différemment). Une des méthodes les plus utilisées aujourd’hui (parmi d’autres méthodes), s’appelle « la double différence ». L’idée est de comparer la différence entre deux groupes (l’un touché par la réforme, l’autre pas) avant la réforme puis après la réforme. Si les deux groupes n’évoluent pas de façon différente (hormis à cause de la réforme), on va pouvoir identifier l’effet pur de celle-ci. Cette méthode a l’avantage d’être très transparente pour les évaluations et donc de pouvoir plus facilement convaincre des lecteurs non spécialistes. C’est un avantage considérable qui explique largement son succès. Toute la difficulté consiste à trouver des groupes tests et de contrôle convaincants, c’est-à-dire qui soient aussi similaires les uns des autres avant la réforme, comme s’ils avaient été tirés au sort.

Pour autant, la recherche économique qui s’est concentrée sur les évaluations de politiques publiques est beaucoup plus complexe et a développé bien d’autres méthodes, non pas pour maintenir le débat aux mains d’experts tout puissants, mais parce les questions en jeu sont d’une réelle complexité. Plusieurs exemples peuvent aider à préciser cette nécessité :

D’abord, l’effet à court terme peut être différent d’un effet à long terme. Par exemple, l’introduction du CNE peut conduire à court terme à la création de nouveaux emplois, mais qui vont progressivement se substituer aux CDI qui disparaissent. Ou, à l’inverse, la création d’un nouveau contrat de travail n’a que peu d’effet à court terme mais accroît à plus long terme l’embauche de tous les salariés.

Ensuite, une politique économique touche les individus de façon différente : certains peuvent réagir nettement d’autres pas du tout. Effectuer des simples comparaisons des effets moyens masque parfois la diversité des situations : il est possible que le CNE soit très efficace pour offrir des emplois à des jeunes sans qualification qui étaient exclus avant du marché du travail car les employeurs ne voulaient pas leur faire confiance pour un essai, mais que ce contrat soit destructeur de stabilité pour les plus qualifiés. Un effet moyen masque alors des situations très différentes, voire opposées (les économistes appellent ce problème l’hétérogénéité des réactions).

Enfin, le problème de l’équilibre général se pose de façon nette à tous les spécialistes de l’évaluation : une politique peut avoir un effet au niveau micro (en équilibre partiel) et avoir un effet net très différent une fois que son impact sur toutes les autres variables est pris en compte. Ainsi, si le CNE incite à la création d’emploi (hypothèse), les salaires vont réagir à l’augmentation de la demande de travail (ils risquent d’augmenter si l’offre de travail est contrainte), ce qui va faire baisser en retour la demande de travail (si la demande de travail est sensible à son coût) ou l’augmenter (selon un effet keynésien d’augmentation de la consommation). L’effet net d’une politique va dépendre au final d’un certain nombre de réactions de l’économie que les économistes cherchent à étudier séparément. Les méthodes des expériences naturelles ont l’avantage de mesurer un effet global à un moment donné, mais comme la décomposition des effets est difficile, elles se prêtent mal à des généralisations. Par exemple si l’introduction du CNE est évalué comme positif pour l’emploi (hypothèse), cela ne prouve pas que le CPE (qui vise un autre public) va être efficace.

Les méthodes d’évaluation des politiques publiques sont en amélioration permanente depuis une quinzaine d’année. Elles se sont diffusées depuis les universités (américaines) pour alimenter de larges pans de la recherche économique. Pour que ces innovations parviennent à alimenter des évaluations de qualité, il faut un contact permanent et intense entre les institutions qui mènent les évaluations et la recherche de pointe dans ces domaines. Il y a donc une seconde difficulté à l’évaluation, institutionnelle cette fois… Suite au prochain numéro !
_Antoine_ _Fabien_

7 commentaires:

Buzzcocks a dit…

Vous dites que l'on a du mal à évaluer les politiques du type CNE ou 35 heures donc des mesures passées où on a pourtant un certain recul. Or les économistes de Rexecode arrivent à chiffrer les programmes électoraux des 3 principaux candidats en terme de création d'emplois.
Comment font ils ????

Petitsuix a dit…

Cher buzzcocks,

Il y a en France, a l'heure actuelle, que peu d'evaluations serieuses des politiques de l'emploi et il est donc tres difficile d'arriver a chiffrer un programme en terme de creation d'emploi. Ce qui est possible, c'est de donner des indications au vu des differentes etudes que l'on dispose (une mesure similaire a fait entre x et y creations d'emploi). S'il y a suffisamment d'etudes independantes, les economistes peuvent les comparer et conserver les resultats de celles qui semblent robustes a la critique.

Les economistes de Rexecode utilisent des modeles qui dependent de parametres que l'on peut estimer par ailleurs. S'il n'y a pas d'accord sur ceux-ci, les resultats peuvent etre differents. Ce qui serait souhaitable, c'est que l'on puisse identifier exactement quels sont les choix realises dans ces modeles.

Cela dit le probleme avec Rexecode, ce n'est pas tant la demarche technique que la credibilite institutionnelle qui est faible (car suspect d'etre lie au patronat).

Je publie tout bientot un futur post sur le fait que des institutions independantes sont essentielles a l'evaluation des politiques publiques et votre question m'incite a reflechir a un autre post sur l'evaluation ex post versus la modelisation ex ante.

Cordialement

toutankhamonix a dit…

c'est bien la discussion entre la fin et les moyens, mais moi, "dépenser plus dans l’éducation ou dans l’armée, dans les retraites ou la recherche, pour l’aide au développement ou pour la santé", ça me paraît plutôt des moyens que des fins.

Des buts de politique publique ça serait diminuer le nombre de personnes sortant du système scolaire sans diplôme, pouvoir mener une guerre terrestre dans un pays lointain, maintenir le pouvoir d'achat des retraités ou supprimer les inégalités de santé / mortalité entre les riches et les pauvres, etc.

Mais pour arbitrer entre tout ça, il faut déjà avoir mesuré ce que l'on veut combattre, et il faut aussi des évaluations de combien ça coûterait... C'est pas si simple de faire la différence fins / moyens, quoi.

Petitsuix a dit…

Cher Toutankhamonix,

La question des fins et des moyens est importante à clarifier. Et vous avez entièrement raison de dire qu'il ne faut pas les confondre. La phrase que vous citez peut en effet porter à confusion puisque je parle de "dépenser" au lieu des objectifs réels sous-jacents.

Je ne suis pas sûr qu'il faut pour autant en conclure qu'il est difficile de distinguer les fins des moyens, ou plutôt, ce qui nous intéresse ici, de distinguer ce qui peut être l'objet d'une discussion neutre des effets d'une politique, de la hiérarchie des objectifs de ces politiques qui sont de l'ordre du débat politique.

FrédéricLN a dit…

@ buzzcocks : les chiffres publiés par rexecode étaient aussi grotesques que pitoyables ou l'inverse. Et à mon humble avis (petitsuix) c'était bien un défaut de méthodologie, accompagné d'erreurs grossières de fait sur le contenu des propositions des candidats, et de l'omission de la majorité de celles-ci.

P.ex. l'étude du programme Sarkozy se limite à sa mesure "heures supplémentaires" ... laquelle n'est abordée qu'à travers la variable macro-économique "coût du travail !" Le coût du travail baisse, donc de l'emploi sera créé.

Résultat grotesque puisque les emplois créés ne sont pas en heures sup ... donc ne bénéficient pas de cette baisse !

Les expériences comparatives (rarissimes dans la réalité, car une règlementation s'applique à tous) ont le même défaut que les modèles macro : elles ne permettent pas de comprendre "pourquoi les politiques publiques sont efficaces" - ce qui devrait être le but de l'évaluation, dit le billet #2 à juste titre.

L'évaluation dont on a besoin, c'est à mon avis celle qui identifie les "mécanismes qui font marcher" (ou pas) une mesure ; donc des méthodes aussi qualitatives que quantitatives.

... Sans omettre le "bouclage macro", ne serait-ce qu'en estimant le coût total (direct et induit) d'une mesure donnée.

Petitsuix a dit…

@FredericLN: je comprends votre agacement devant l'etude de Rexecode, mais votre commentaire ne me parait pas tres clair.
1/ Que voulez vous dire par "la variable macro-economique cout du travail": le cout du travail est une variable microeconomique qui determine le comportement micro de l'entreprise. On peut critiquer le bouclage macro, mais dire que le cout du travail ne doit pas etre pris en compte car etant une variable macro, la je ne vous suit pas.
2/ que voulez vous dire par les experiences comparatives? vous parlez des experiences naturelles ou on compare un groupe de controle (non touche par la politique) a un groupe test (touche par la politique). Contrairement a une idee recue, celles-ci ne sont pas si rares, et il est tout a fait possible d'en construire pour l'evaluation de la politique en question: on choisit au hasard 3 departements (ou localites) ou on met en place cette politique en forme de test et 3 autres ou on collecte les meme donnees pour observer les differences de comportements des entreprises/salaries avec ou sans cette politique. Ce genre d'evaluation permet au contraire de comprendre ce qui marche et ce qui ne marche pas dans la politique. L'ennui, c'est qu'elles ne prennent pas en compte l'effet d'equilibre general (c'est a dire qu'un effet en equilibre partiel, peut etre different de l'effet de cette meme politique generalisee au niveau du pays).
3/ Enfin je ne partage pas votre mefiance pour les analyses quantitatives. Croire que les analyses qualitatives vont regler les difficultes techniques evoquees plus haut me semble un peu peremptoire. Elles peuvent etre utiles dans le cadre de la comprehension des effets specifiques d'une politique (information, comprehension des mecanismes par les acteurs...). Mais rien ne pourra remplacer la mesure des effets d'une politique: effets gros ou petits, couts gros ou petits.

FrédéricLN a dit…

Bonjour, longtemps après ! À l'époque j'avais écrit une réponse perdue ensuite…

De mémoire :

1) je voulais dire la variable "globale, moyennisée" coût du travail ; alors que la variable "micro" "coût du travail", perçue par chaque entreprise, est différente selon qu'il s'agit de créer des emplois ou des heures sup, selon le principe même de la mesure Sarkozy.

2) je vous assure que les expériences comparatives sont très rares en France - je n'en connais en tout cas que deux exemples, la PED sous Balladur (10 départements) et le RSA Hirsch. On peut reconstituer des comparaisons a posteriori dans certains cas, par exemple quand des territoires ont bénéficié d'une mesure (Fonds européens…), à condition de construire des territoires SIMILAIRES qui n'en ont pas bénéficié. Malheureusement, ce détour un peu abstrait rend les résultats peu communicants grand public.

3) D'accord avec vous sur le fait que rien ne remplacerait la mesure des effets… mais comme elle n'est (selon moi) possible et fiable que de façon rarissime, et de toute façon, longtemps après le moment où il faut prendre des décisions, on est souvent obligé de s'en passer. Qualitatif ne veut pas dire, ici pifométrique, bien au contraire, ça veut dire "fondé sur un modèle de l'action politique" (modèle au sens de la modélisation mathématique). C'est la notion de "theory-based evaluation", ou, idée similaire, la "realistic evaluation".

Enregistrer un commentaire