Aux sources de la révolution numérique

La théorie de la communication de linformation

Doctorant à l'École Polytechnique de Montréal en génie informatique, les recherches de Julien Couet portent sur de nouvelles méthodes de segmentation et de recalage temps réel d’acquisitions IRM pour la supervision d’interventions focales robotisées de la prostate.

Doctorant à l'École Polytechnique de Montréal en génie informatique, les recherches de Julien Couet portent sur de nouvelles méthodes de segmentation et de recalage temps réel d’acquisitions IRM pour la supervision d’interventions focales robotisées de la prostate.

par Julien Couet

Développée durant la Seconde Guerre mondiale et publiée en 1949 sous le titre « The Mathematical Theory of Communication », la théorie de l’information de Claude Shannon et Warren Weaver est un des fondements de l’informatique et des technologies de communication modernes. Comme tous les conflits, la Seconde Guerre mondiale était avant tout une guerre de stratégie et d’information, les deux camps cherchant à connaître les plans et les positions de l’adversaire. De ce fait, deux importantes problématiques étaient traitées, le codage/décodage des messages et leur transmission. De nombreux scientifiques se sont penchés sur ces problèmes et leurs recherches ont abouti à la naissance de l’informatique. De cette période, le chercheur qui est sûrement devenu le plus populaire est Alex Turing pour sa machine qui permit aux alliés de gagner la guerre en décryptant les messages allemands. Claude Shannon est resté dans l’ombre même si son nom est maintenant bien connu des scientifiques. En effet, sa contribution est au moins aussi importante que celle de Turing, sûrement même plus.

Il a d’abord théorisé l’informatique et a montré, en 1937, qu’il était possible de réaliser l’algèbre de Bool (binaire : 0 – 1) à l’aide de circuits électriques simples : c’est l’invention des transistors et des circuits logiques, cœurs des ordinateurs. Turing s’est ensuite appuyé sur ces découvertes pour construire sa machine en 1948.

Claude Shannon a par la suite travaillé sur la transmission de signaux sur de très longues distances. À l’époque, les messages étaient analogiques et transmis via le réseau électrique, constitué de câbles de cuivre. La transmission analogique a l’inconvénient de distordre le signal et d’être très sensible aux bruits. Ainsi, plus la distance de transmission est longue, plus le signal reçu est détérioré au point qu’il n'est plus exploitable à sa réception. Toujours selon la logique de Bool, Shannon a montré comment transformer un signal analogique en une série d’impulsions binaires, c'est-à-dire, en signal numérique. Les signaux numériques sont beaucoup moins sensibles aux bruits et peuvent être transmis sur des distances très importantes et à plus faibles coûts. La théorie de l’information découle précisément de ces travaux.

Pour résumer, Claude Shannon a participé à la création de l’ordinateur numérique et a montré comment transformer n’importe quel signal analogique en signal numérique pour qu’il soit traitable par un ordinateur.

La théorie

Comme nous l’avons vu, les signaux sont transmis de l'émetteur au récepteur grâce à un support physique. Ainsi, l’air et la matière sont des supports du son, le cuivre permet quant à lui de transmettre des signaux électriques... Dans leur cheminement, les signaux rencontrent des perturbations qui les détériorent, c’est ce qu’on appelle le bruit. La transmission a donc un aspect aléatoire et le signal présente toujours des incertitudes à la réception. Le premier but des travaux de Shannon était de trouver des moyens pour minimiser l’erreur dans la reconnaissance du signal reçu. Pour cela, il n’a pas cherché à diminuer le bruit de transmission mais à modéliser le signal pour que celui-ci y soit moins sensible. 

 

Dans ce formalisme, un signal est défini comme une succession aléatoire de mots binaires 𝑚𝑖 ayant une certaine probabilité d’apparaître. Ainsi, la phrase « Je suis content » est un message constitué des mots ‘Je’, ‘suis’, ‘content, leur probabilité correspondant à leur fréquence d’utilisation pour un dictionnaire ou une langue donnée, ici le français. Avec ce formalisme, la transmission n’est plus modélisée par un signal continu perturbé par un bruit aléatoire (1), mais comme un événement probabiliste discret auquel s’ajoute un bruit de même nature (2).

𝑟(𝑡) = 𝑠(𝑡) + 𝑏(𝑡) (1) 𝑟𝑖(𝑡) = 𝑚𝑖(𝑡) + 𝑏(𝑡) (2)

En plus de sensiblement améliorer la qualité de la transmission, cette nouvelle définition du signal permet de mesurer, de quantifier l’information qu’il contient. Pour un dictionnaire de mots, Shannon définit la quantité d’information d’un message comme étant la somme des probabilités 𝑝𝑙 que les mots 𝑚𝑙 de ce message existent dans le dictionnaire.

𝐻 = − ∑ 𝑝𝑙 log2(𝑝𝑖) 𝑎𝑣𝑒𝑐 𝑝𝑙 = 𝑝𝑟𝑜𝑏𝑎(𝑚𝑙)

Selon la mesure 𝐻, également appelée Entropie de Shannon, plus un signal comporte de redondances (mots 𝑚𝑙 identiques), plus l’information qu’il contient est faible et inversement. Ainsi, le message ‘chat – chien’ contient plus d’information que ‘chat – chat’. Il est important de noter que l’entropie de Shannon ne mesure pas la qualité du message au sens linguistique mais mesure sa diversité au sens statistique.

Les applications

La théorie de Shannon a de nombreuses applications pratiques aujourd’hui. Le premier théorème de Shannon est à la base du traitement du signal et définit les conditions selon lesquelles un signal analogique pour être échantillonné sans perte en signal numérique. Le second théorème montre quant à lui comment transmettre sans perte un signal numérique dans un canal bruité. La redondance d’un message est exploitée de deux façons totalement opposées. En pouvant déterminer les mots redondants d’un signal, il est alors par exemple possible de les retirer et ainsi de compresser le signal. À l’inverse, la redondance des mots est exploitée pour améliorer la transmission du message.

Cependant, l’apport majeur de la théorie de Shannon, car le plus controversé, est de montrer que l’information est peut-être une entité physique à part entière, à l’instar de la masse ou lénergie. Comme la matière, linformation se dégrade au cours du temps de façon irréversible, ce qui correspond à un accroissement de son entropie 𝐻. Un signal, lors de sa transmission ou de sa manipulation est soumis à des bruits externes qui le détériorent. Comme le bruit est aléatoire, chaque mot du message devient de plus en plus différent, et lentropie augmente. Ce qui est encore plus troublant, c'est que sa formulation de lentropie est exactement, au signe prêt, celle que décrit Boltzmann sur lévolution dun système physique au cours du temps, c'est-à-dire, le second principe de la thermodynamique. Même sil nest pas encore admis que linformation au sens de Shannon puisse définir une nouvelle entité physique, cest une question qui reste dactualité et peut-être le saurons nous au cours des prochaines années.


Références

http://www.theguardian.com/science/2014/jun/22/shannon-information-theory. http://www.volle.com/ENSPTT/codage.htm. http://fr.wikipedia.org/wiki/Th%C3%A9orie_de_l%27information
C.E. Shannon et W. Weaver : The mathematical Theory of communication, University of Illinois, 1949.