L’Institut National de l’Audiovisuel (INA) gère l’un des plus grands centres de données audiovisuelles au monde. Chaque jour, il capte et archive les émissions de 184 chaînes de télévision et de radio, constituant ainsi une ressource inestimable pour la recherche, l’analyse et la diffusion de contenus audiovisuels. Afin de rendre ces données accessibles à tous, l’INA annonce le lancement de son nouveau site : data.ina.fr.
Le site a été pensé pour le plus grand nombre : amateurs de médias, journalistes, experts, chercheurs ou tout simplement curieux. Pour la première fois, l’INA ouvre ses données au grand public, lui proposant d’explorer les résultats statistiques de 13 chaînes de télévision et 7 chaînes de radio.
Fin 2023, l’INA avait stocké et archivé 27 millions d’heures de documents TV et radio. Pour data.ina.fr, 700 000 heures issues du dépôt légal de l’INA ont été explorées par les 3 outils d’IA suivants :
- INASpeechSegmenter : une technologie développée par l’INA qui permet de détecter la parole, la musique, le bruit et le genre du locuteur dans un document audiovisuel ;
- Whisper : le système de reconnaissance vocale d’OpenAI qui transcrit l’audio en texte ;
- TextRazor : outil développé par la start-up londonienne du même nom qui analyse et extrait des métadonnées sémantiques à partir de contenu textuel.
Pour garantir la fiabilité des résultats, des processus de contrôle de qualité rigoureux ont été mis en place. Plus de cent personnes ont contribué au site, parmi elles des Data analystes, des Data scientists, des Data engineers et des architectes d’infrastructures.
Les utilisateurs peuvent explorer des tendances médiatiques et des questions sociétales en utilisant des cartes et des graphiques interactifs à travers quatre clés de lecture (personnalités, femmes-hommes, mots, lieux) et trois périmètres (JT, chaînes d’info en continu, radios).
Par exemple, il est possible de suivre l’évolution de la couverture médiatique d’un terme particulier, comme la “shrinkflation”, au fil du temps.
La plateforme, qui dispose de cinq ans et demi d’historique (de janvier 2019 à juin 2024), sera mise à jour tous les six mois, avec de nouvelles données et un enrichissement progressif de la profondeur historique.
Ce projet s’inscrit dans une démarche stratégique plus large de l’INA, visant à valoriser et à analyser l’immense volume de contenus audiovisuels qu’il stocke.