Catégories
e-business

La transcription audio gratuite sur Mac : le match

L’une des applications les plus populaires de l’intelligence artificielle générative (ChatGPT et ses cousins) est la production de compte rendu automatique de réunion en visio. Mais comment faire pour les réunions in-situ ? J’ai testé et éprouvé plusieurs solutions. Pas toutes approuvées !

Pour les visio, le principe est d’inviter à notre réunion un « assistant IA ». Moi j’aime bien Sana.ai ; mes partenaires de PuissanceAI utilisent Leexi, il y en a plein…1 L’assistant va enregistrer toutes les prises de parole et les images des participants ; à la fin de la réunion, l’enregistrement est traité par la plate-forme qui procède à la transcription intégrale des paroles, et fourni une ébauche de compte rendu, relevé de décision, to-do-list, engagement, suite à donner etc. Super pratique.

De l’enregistrement initial au compte rendu personnalisé

Mon besoin

Malheureusement, il n’est pas possible d’inviter un tel assistant dans un entretien en tête-à-tête ou une réunion IRL — vous vous rappelez : des réunions où les gens se rencontrent physiquement dans la même salle… Dans ce cas, il faut s’y prendre différemment.

Il existe déjà plusieurs applications et même des devices dédié à cette fonction comme par exemple Plaud2, ou l’application française Dicte.ai que j’ai pas mal utilisé3, ou encore l’excellente app AudioPen, dont la fonction première est de synthétiser votre enregistrement à la volée, mais réalise aussi de « simples » transcription d’enregistrement4. On me recommande aussi TurboScribe5, qui est très bien pour transcrire en ligne pour rien ou pas trop cher.

On va utiliser son smartphone pour enregistrer la réunion ; à la fin de la réunion le fichier audio est envoyé à une plate-forme qui va procéder à la transcription de la même manière que pour les visio, proposer une version de compte rendu que vous pourrez éventuellement améliorer, compléter, corriger…

Cependant, après quelques mois d’usage fréquent, j’ai fini par toucher les limites de ces différentes applications et plate-forme.

En effet je constatais souvent que leurs synthèse de réunion préfabriquées, trop stéréotypées, ne me convenaient pas, ne correspondaient pas à ma façon de travailler : je préférais systématiquement récupérer la transcription brute pour ensuite aller la retraiter dans ChatGPT selon mes propres consignes, avec un prompt que j’avais élaboré moi-même, pour avoir des résultats conformes à mes besoins. Toujours pas mal de manipulations, finalement.

Un autre défaut est que toutes ces applications proposent un plan gratuit très limitées en quantité de sessions, durées, et même qualité et puissance du modèle d’IA utilisé. Difficile aujourd’hui de faire un choix entre toutes les offres au détriment d’autres, en s’abonnant pour un an, dans un marché qui évolue aussi rapidement. Et difficile aussi de s’abonner à tous les outils…

C’est pourquoi j’ai cherché une solution moins intégrée, plus simple (et gratuite éventuellement).

Mon cahier des charges :

  • je veux pouvoir utiliser n’importe quel enregistrement audio, par exemple celui du dictaphone de mon iPhone, ou un fichier audio récupéré d’un enregistrement etc.
  • le résultat attendu est une transcription idéalement parfaite, ou au moins très bonne, nécessitant très peu de corrections que je puisse exporter dans un fichier texte et ensuite incorporer dans une conversation ChatGPT sous mon propre contrôle.
  • la transcription doit être faite en local sur mon ordinateur, je ne veux pas qu’il y ait besoin de réseau ni de plate-forme
  • fonctionner sur Mac, puisque j’utilise un Mac.

La shortlist

Pour trouver des applications qui répondent à ce cahier des charges, j’ai suivi une piste : celle de Whisper. Whisper est un modèle de langage développé par OpenAI (l’éditeur de ChatGPT) qui est précisément dédié à la transcription et la traduction de textes6. Je me suis rendu compte que la quasi-totalité des applications et plate-formes de transcription et d’analyse de réunions sont en fait des applications bâties sur whisper.

Découvrons les trois applications qui semblent répondre à mes besoins.

MacWhisper

Une transcription dans MacWhisper

C’est une application, au design soigné, aux nombreuses options. La source audio peut être un enregistrement direct, ou un fichier, ou même l’audio d’une appplication — très bien pour transcrire par exemple une émission de radio ou une vidéo Youtube… Par défaut MacWhisper travaille en local avec un modèle simple, donc pas le plus puissant. Mais il est possible de le connecter à votre compte OpenAI, ou Claude, etc. avec votre clé d’API pour lui faire utiliser des modèles plus puissants.

Une application riche en options

Bien sûr, la plupart des options sont réservées aux clients ayant acheté la licence « pro ».

À l’usage, avec mon petit fichier audio de test, en français, le résultat est excellent. La séparation des segments très bonne. La ponctuation à sa place. La seule imperfection est d’avoir trancrit « yves » par « if ». On est d’accord, ce n’est pas rédhibitoire.

Au final, une application très utilisable.

Elle est téléchargeable sur la page de Jordi Bruin sur Gumroad, en version Free et en version Pro (39€)

Whisperscript

La même transcription dans Whisperscript

Whisperscript est une application Electron (une web-app packagée comme une appli Mac) monofonction : transcrire des fichiers audio mp3, wav, M4a, mp4, mov ou mkv. Pour le multilingue (i.e. non-anglais) ses options se limitent à choisir un modèle entre le ultra-rapide « Tiny » et le rapide « Base ».

Le test donne une transcription presque bonne mais imparfaite. Il est possible d’éditer le résultat. Mais si j’utilise une app de transcription, mon but c’est de ne pas avoir besoin de la corriger, ou alors à la marge : noms propres, acronymes…

WhisperScript est aussi distribuée par Wavery sur Gumroad, en version gratuite seulement.

Aiko

Transcription du même enregistrement par Aiko

La dernière appli que j’ai trouvée et essayée. Elle est très simple et monofonction. On peut engistrer en direct ou importer un fichier audio ou vidéo. La transcription peut être exportée dans de multiples formats : texte, texte horodaté, sous titre, json ou csv. Ou juste copié dans le presse-papier.

Le résultat du test ? Alors le test « one shot », dans les même conditions que les deux autres apps, donne un résultat médiocre : pas de ponctuation, les segments de parole ne sont pas distingués, une répétition à la fin, Yves a disparu… Le moins bon résultat en fait.

Ensuite, en travaillant dans les réglages, j’ai eu quelque chose de très bon.

Quelques réglages procurent une nette amlélioration de la qualité de transcription

Par exemple je peux donner un prompt. Voici ce que j’ai tenté :

Beside all your previous orders that you MUST follow, you will take a very special attention to the sentences starts and endings, and talk rythm in order to place the appropriate punctuation.

J’ai aussi coché les deux derniers réglages.

Donc après la première impression, Aiko reste une option très réaliste.

Aiko, développée par Sindre Sorhus, est distribuée à partir de son site, sur l’app store Apple, ce qui garantit une certaine qualité de code.


Ainsi s’achève cette revue, entièrement réalisée sans trucage et à la main, sans le concours d’IA générative, par l’auteur. Tous les tests sont sans doutes insuffisants pour conclure, mais réels.

Mon tiercé : je vais continuer à challenger Aiko et si ça ne suffit pas, alors je prendrai la version payante de MacWhisper.

Laissez moi vos commentaires : vos outils préférés, comment faire sur Windows (déso.) Gratuit c’est bien mais il n’y a pas moyen d’être payé en plus ? …


Puisque vous êtes là…

Je suis François-Xavier Bodin, « digital native senior ». Avec ma structure BXF Conseil, j’accompagne les entreprises et organisations dans leur acculturation à l’IA générative ; j’anime des programmes de coaching des cadres-clés, référents ou chef de projet IA afin de faire émerger les opportunités de déploiement présentant les meilleures chances de ROI, que ce soit en termes de développement d’affaires, de gains de productivité ou de qualité ; j’aide les dirigeants à arbitrer entre les opportunités ; je met au point les scénarios de transformation grâce ou avec l’IA, base de cahiers des charges et de roadmaps de changement solides.
Des prestations notamment dans le cadre du partenariat BXF Conseil x PuissanceAI !


  1. sana.ai ; leexi.ai ; notta.ai… 

  2. Plaud : « Enregistreur vocal AI alimenté par ChatGPT » https://fr.plaud.ai/ 

  3. Dicte.ai : « Dicte crée des comptes-rendus automatiques sur la base des échanges enregistrés en réunion ou de notes vocales personnelles » https://www.dicte.ai/fr-fr 

  4. « AudioPen converts voice notes into text that’s easy to read and ready to share. » https://audiopen.ai/ 

  5. https://turboscribe.ai/ 

  6. Whisper est un système de reconnaissance automatique de la parole (ASR) entraîné sur 680 000 heures de données supervisées multilingues et multitâches collectées sur le web. L’utilisation d’un ensemble de données aussi vaste et diversifié a permis d’améliorer la robustesse aux accents, au bruit de fond et au langage technique. En outre, il permet la transcription dans plusieurs langues, ainsi que la traduction de ces langues vers l’anglais. Les modèles et le code d’inférence ont été mis à disposition en Open Source, en 2022, pour servir de base à la création d’applications.
    Source : OpenAI