Un logiciel pour identifier les images piratées
Un logiciel pour identifier rapidement les images piratées
Lutter contre le piratage d’images est vital pour les agences de presse qui tirent leurs ressources des copyrights. L’équipe associée EFF2, qui réunit des chercheurs du projet TEXMEX à Rennes et des chercheurs islandais, a trouvé une manière efficace et rapide pour les agences de savoir si une image douteuse provient ou non de leur fonds.
Entretien avec Laurent Amsaleg, responsable de l’équipe associée EFF2

© Peinture de Luc Grateau,
INRIA, d’après G. Richter
Quel est le thème de recherche de EFF2 ?
L’équipe associée EFF2 regroupe des chercheurs de TEXMEX et l’équipe de Björn fiór Jónsson de l’université de Reykjavík. Elle s’intéresse à la recherche d’images par le contenu au sein de très gros volumes de données. Il s’agit, par exemple, de pouvoir retrouver au sein d’une banque d’images celles ressemblant à l’image présentée au moteur de recherche : empreintes digitales, fonds d’œil, œuvres d’art, visages, etc. Dans ce cadre, nous développons notamment une application détectant les copies de photographies extraites illégalement d’une banque d’images. C’est un sujet qui intéresse tout particulièrement les agences de presse qui ont à lutter quotidiennement contre le piratage. Pour cela, ils ont des équipes rompues à la recherche manuelle de photographies piratées présentes sur le web ou dans les magazines. Mais cela coûte très cher.
Quelle est l’originalité de cette application ?
La difficulté pour réaliser un tel système est double. Tout d’abord les images piratées peuvent avoir subi des transformations : inversion, rotation, colorisation, utilisation d’une portion seulement de l’image. Ces transformations sont facilement identifiables par un œil humain mais constituent un problème très difficile à résoudre pour un algorithme. TEXMEX a développé une approche originale et efficace de la description d’images qui permet de contourner cette difficulté : chaque image est décrite par des milliers d’indices insensibles à ces transformations, et cette accumulation de détails suffit à caractériser très précisément chaque image.
La seconde difficulté est associée au très grand nombre d’images que peut détenir une agence de presse, de l’ordre du million. L’algorithme détermine le degré de similitude entre l’image supposée piratée et les images du fonds d’agence. Cela marche très bien mais il est impossible de procéder par comparaison une à une des descriptions des images. Il faudrait des jours entiers de calcul pour comparer des centaines de millions d’indices ! Avec nos collègues islandais, nous avons développé une stratégie de recherche qui se focalise tout de suite sur les détails qui se ressemblent le plus. C’est un processus extrêmement rapide, de l’ordre de la seconde.
Où en est la validation de cette application ?
Il est nécessaire de la tester sur de très grands ensembles de données afin de s’assurer que l’identification reste robuste et que le temps de la recherche soit indépendant de la taille de la base d’images. Nous avons déjà testé avec succès notre logiciel sur une banque de 30 000 images au cours d’une collaboration avec une agence rennaise, Andia Presse. Nous avons récemment signé un autre contrat avec le principal organe de presse islandais, Morgunbladid, qui s’intéresse au projet. Nous leur prêtons un prototype du logiciel contre le prêt de leur fonds de 300 000 images pendant une période de deux ans. Passé ce délai les images seront détruites, mais nous pourrons conserver les descriptions. Ainsi les fournisseurs d’images n’ont à craindre ni une diffusion incontrôlée de leurs images ni de possibles violations de copyright car nos descriptions ne permettent pas de reconstruire les images. De notre côté, augmenter notre volume de descriptions permet de travailler à des échelles suffisantes pour que se manifestent enfin des problèmes intéressants.
Nous sommes maintenant à la recherche d’autres corpus d’images sous les mêmes conditions : description puis destruction des images. En cumulant de tels prêts, nous espérons décrire au moins un million d’images et prouver que notre approche fonctionne dans un environnement proche de la réalité du monde des agences de photographies.
Contact :
Laurent Amsaleg
Chercheur CNRS
Projet TEXMEX, INRIA Rennes/Irisa
Tél. : +33 2 99 84 74 44
Voir le site










Ce lien est brisé
Envoyer à un ami