📱🎧 Un café chaud, un casque sur les oreilles… et un bond de 70 ans en arrière.
Ce matin, confortablement installé avec mon casque sur les oreilles, je me suis laissé emporter par un épisode passionnant du podcast Monde Numérique.
La voix des machines : 70 ans d’histoire, du Shoebox à Siri
Ce matin, confortablement installé avec mon casque sur les oreilles, je me suis laissé emporter par un épisode passionnant du podcast Monde Numérique. Le sujet ? L’évolution de la reconnaissance et de la synthèse vocale, de ses balbutiements il y a sept décennies aux assistants intelligents que nous utilisons aujourd’hui.
Les balbutiements de la reconnaissance vocale
Bien avant Siri, Alexa ou Google Assistant, dans les années 1950 et 1960, des ingénieurs tentaient déjà de donner une « oreille » aux machines. Des projets comme Audrey (Bell Laboratories) et Shoebox (IBM) pouvaient comprendre quelques mots, mais restaient limités à des règles fixes et immuables [01:51]. De véritables prouesses techniques pour l’époque, mais encore loin des conversations naturelles que nous connaissons.
L’arrivée de l’intelligence artificielle
Le vrai tournant s’est produit avec l’avènement du deep learning.
Fini les règles codées manuellement : les systèmes ont commencé à apprendre par eux-mêmes, en s’appuyant sur des montagnes de données [03:01]. Emmanuel Vincent, chercheur à l’INRIA, expliquait que ces modèles entraînés dans d’immenses centres de calcul ont permis d’atteindre des niveaux de précision inimaginables il y a encore quelques années [04:37].
Siri, un pionnier… bientôt dépassé
Luc Julia, co-créateur de Siri, raconte que l’assistant est né d’un projet de recherche en 1997, avant d’être racheté par Apple et intégré à l’iPhone 4S en 2011. Véritable révolution à sa sortie, Siri a rapidement été rattrapé — voire dépassé — par des concurrents comme Google Assistant et Alexa, qui ont exploité pleinement la puissance du deep learning [09:01].
Les coulisses d’un assistant vocal
Derrière chaque « Dis Siri… » se cachent quatre étapes fondamentales [14:36] :
Transformer la parole en texte.
Analyser le texte pour comprendre l’intention.
Formuler la réponse la plus pertinente.
Synthétiser cette réponse sous forme de voix.
Et demain ?
Les prochaines années verront apparaître des voix ultra-réalistes, générées en temps réel, capables d’interagir de façon presque humaine. Mais cette avancée pose aussi des questions éthiques : le clonage vocal et le phénomène troublant de l’uncanny valley audio, où la voix synthétique devient si parfaite qu’elle en perturbe notre perception [27:07].
En refermant mes écouteurs, une question restait en suspens :
Dans 10 ans, parlerons-nous encore à des machines… ou avec elles ?