Pour comprendre comment une machine parvient à cette prouesse, il faut évoquer l’apprentissage supervisé. Il s’agit d’une technique courante en IA, qui consiste à nourrir la machine de nombreuses informations. Par exemple, pour qu’un programme apprenne à reconnaître une voiture, on le "nourrit" de dizaines de milliers d’images de voitures, étiquetées comme telles. Une fois l’entraînement achevé (celui-ci peut durer des heures, voire des jours), le programme peut reconnaître des voitures sur de nouvelles images.
Le deep learning utilise lui aussi l’apprentissage supervisé mais c’est l’architecture interne de la machine qui est différente : chacune des milliers d’unités composant le réseau de neurones effectue des petits calculs simples.
Yann Ollivier, chercheur au CNRS, explique le procédé avec un exemple : "Comment reconnaître une image de chat ? Les points saillants sont les yeux et les oreilles. Comment reconnaître une oreille de chat ? L’angle est à peu près de 45 degrés. Pour reconnaître la présence d’une ligne, la première couche de neurones va comparer la différence des pixels au-dessus et en dessous : cela donnera une caractéristique de niveau 1. La deuxième couche va travailler sur ces caractéristiques et les combiner entre elles. S’il y a deux lignes qui se rencontrent à 45°, elle va commencer à reconnaître le triangle de l’oreille de chat. Et ainsi de suite". A chaque étape, le réseau de neurones approfondit sa compréhension de l’image.