Vos clients appellent un vendredi à 16h47. Qui leur répond?

Agents vocaux2026-04-1012 min de lecture

Les 3 vies de vos données quand une IA répond au téléphone

Vos données passent, restent ou servent à entraîner l'IA? Ce sont trois choses complètement différentes. On explique chacune simplement, avec des analogies concrètes.

Quand quelqu'un apprend que les appels de son entreprise passent par une IA, la première réaction est presque toujours la même. « Mais où vont mes données? »

C'est une bonne question. Sauf que c'est pas UNE question. C'est trois questions différentes que tout le monde mélange ensemble. Et quand on mélange les trois, on finit par avoir des conversations qui tournent en rond. Quelqu'un dit « l'IA garde tout », un autre répond « non, rien n'est stocké », et les deux ont raison. Ils parlent juste pas de la même chose.

Il y a les données qui passent, comme l'eau qui coule dans un tuyau, elle traverse pis elle s'en va. Il y a les données qui restent, comme un dossier qu'on range dans un classeur pour y revenir plus tard. Et il y a les données qui servent à quelque chose, comme un prof qui garde les copies d'examen pour améliorer son cours l'année prochaine.

Trois vies complètement différentes. Trois niveaux de contrôle différents. Trois questions à poser à votre fournisseur.

Ne pas faire la distinction, c'est finir soit par avoir peur pour rien, soit par ignorer le vrai enjeu. On voit ça régulièrement. Un propriétaire qui refuse d'adopter l'IA vocale parce qu'il pense que « tout est envoyé à OpenAI pour toujours ». Ou à l'inverse, quelqu'un qui pose aucune question parce que son fournisseur lui a dit « c'est sécuritaire ». Les deux réactions sont des raccourcis. Et spoiler : la majorité du monde capote sur la mauvaise vie.

On va les prendre une par une.

Ce qui se passe pendant un appel

Juste un cadre rapide avant d'entrer dans les vies.

Quand votre client parle à une IA, trois choses arrivent en moins d'une seconde. Sa voix est convertie en texte. Le texte est envoyé à un modèle de langage (la même famille que ChatGPT) qui comprend et formule une réponse. La réponse est reconvertie en voix et renvoyée.

Comme un traducteur simultané aux Nations Unies. Il écoute, il comprend, il parle. Il ne prend pas de notes. Il ne garde rien.

Retenez cette dernière phrase. Le pipeline lui-même est éphémère par nature. Si des données sont conservées quelque part, c'est parce que quelqu'un, quelque part, a décidé de les conserver. Et ce quelqu'un, c'est votre fournisseur, pas le modèle d'IA.

Vie #1 : Les données qui passent

Le transit, c'est la vie qui fait le plus peur aux propriétaires d'entreprise. « Mes données vont aux States! » C'est aussi la vie la moins risquée. Voici pourquoi.

Imaginez que vous appelez le 411. Vous demandez le numéro d'un restaurant. L'opératrice cherche, vous donne le numéro, vous raccrochez. Cinq minutes plus tard, elle ne se souvient même plus de votre appel. Elle en a pris 40 depuis.

C'est ça, les données en transit. Elles arrivent, elles sont traitées, elles s'en vont.

Techniquement, quand votre client parle à un agent vocal IA, sa voix atterrit pendant quelques secondes sur les serveurs du fournisseur d'IA (OpenAI, Anthropic, Google). C'est inévitable, le modèle a besoin d'entendre la question pour formuler la réponse. Une fois la réponse générée, le serveur passe à l'appel suivant. En mode API entreprise, le fournisseur d'IA s'engage contractuellement à ne pas utiliser ces données, ne pas les stocker à long terme, ne pas les recycler.

Vos données passent. Elles ne restent pas.

Mais attention, « ne restent pas » mérite une précision que la majorité des fournisseurs d'agents vocaux vous donnent pas.

Le fameux 30 jours d'OpenAI

OpenAI conserve les appels API pendant 30 jours. C'est écrit noir sur blanc dans leur politique de rétention. Pas pour entraîner leurs modèles, pas pour vendre vos données, uniquement pour la surveillance anti-abus. Si quelqu'un utilise l'API pour faire des choses illégales, OpenAI veut pouvoir investiguer. Après 30 jours, tout est automatiquement effacé.

Est-ce grave? Dans la majorité des cas, non. Mais si votre fournisseur vous dit « rien n'est jamais stocké nulle part », il ment ou il a pas lu le contrat qu'il a signé avec OpenAI. Les deux options sont mauvaises.

Les entreprises qui ont des exigences réglementaires plus strictes (santé, finance, gouvernement) peuvent demander à OpenAI un enterprise agreement qui retire cette rétention de 30 jours. Ça coûte, et 99% des plateformes professionnelles ne l'ont pas, parce qu'elles en ont pas besoin.

Où le vrai risque se cache

Le transit, c'est connu, encadré, contractuel. Les trois grands fournisseurs d'IA sont audités, certifiés SOC 2, et ont des politiques de rétention publiques et vérifiables. Le vrai risque se passe rarement pendant les quelques secondes où la voix traverse un serveur de San Francisco.

Le vrai risque vit dans la Vie #2. Et c'est là que ça devient intéressant.

Ce qu'il faut vérifier. Votre fournisseur utilise-t-il le mode API entreprise avec engagement de non-rétention? Connaît-il les politiques de rétention spécifiques de son fournisseur d'IA (le 30 jours d'OpenAI, les équivalents chez Anthropic et Google)? S'il peut pas répondre, c'est pas un fournisseur mature.

Vie #2 : Les données qui restent

Changeons d'analogie. Pensez à votre dossier médical chez le médecin. Chaque visite, le médecin note ce que vous avez dit, son diagnostic, le traitement. Ces informations restent dans votre dossier pour référence, et c'est une bonne chose. Vous voulez pas que votre médecin reparte de zéro à chaque visite.

La question, c'est pas « est-ce que le dossier existe ». C'est « dans quel classeur, dans quel bureau, et qui a la clé ».

Dans le contexte d'un agent vocal IA, les données qui restent incluent tout ce qui est conservé après l'appel. Et il y en a plus que le monde pense. Les transcriptions, les enregistrements audio, les résumés envoyés par courriel, les données CRM mises à jour pendant l'appel, les statistiques de performance, les logs système. Chaque appel génère facilement 10 à 50 fois plus de données dans le stockage permanent que dans le transit.

Le stockage n'est pas un problème en soi. Vous voulez pouvoir revoir une conversation importante. Vous voulez des statistiques. Vous voulez que votre CRM soit à jour. Le problème, c'est quand vous savez pas où c'est stocké, par qui, et pour combien de temps.

« Données 100% au Canada » : la phrase à moitié vraie

Vous allez voir cette phrase partout dans le marché des agents vocaux IA au Québec. C'est devenu le claim marketing par défaut. Et c'est à moitié vrai au mieux, carrément mensonger au pire.

Voici pourquoi. Le fournisseur d'IA (qui traite la Vie #1) et la plateforme vocale (qui gère la Vie #2) sont deux entités distinctes. La plateforme vocale peut stocker son infrastructure au Canada. C'est la partie vraie. Mais le traitement IA, lui, passe forcément par les serveurs du fournisseur d'IA choisi, souvent aux États-Unis. C'est la partie omise.

Un fournisseur sérieux devrait vous dire ça exactement comme ça. Nos données permanentes sont au Canada. Notre traitement IA transite par les serveurs d'OpenAI (ou Anthropic, ou Google) aux États-Unis. Quelqu'un qui vous dit « tout est 100% au Canada » sans nuance, soit il comprend pas son propre stack, soit il espère que vous poserez pas la question.

Le problème des thin wrappers

Il y a une deuxième vérité moins connue sur le marché québécois des agents vocaux. Beaucoup de fournisseurs sont ce qu'on appelle dans le milieu des thin wrappers. Traduction : ils ont pas d'infrastructure propre. Ils prennent Twilio (pour la téléphonie), Vapi ou Retell AI (pour la couche vocale), OpenAI (pour le modèle), et ils mettent une interface par-dessus.

Le problème avec ce modèle, c'est le contrôle. Vos données permanentes peuvent vivre sur les serveurs de Twilio, les enregistrements sur ceux de Vapi, les transcriptions dans un bucket S3 géré par un tiers. Le fournisseur lui-même sait souvent pas exactement où est quoi, parce qu'il a délégué chaque couche. Si ses sous-traitants changent leurs politiques, les siennes changent aussi. Vous achetez un paquet de boîtes noires emboîtées.

Posez-leur la question. « Qui contrôle le stockage permanent? Votre propre infrastructure, ou celle de vos sous-traitants? » La réponse vous dit beaucoup sur qui vous faites affaire avec.

Chez InstantCallR, on a fait le choix de l'infrastructure propre. Téléphonie propriétaire, stockage au Canada sur nos serveurs, contrôle total du pipeline. On peut vous dire exactement où vit chaque donnée parce que c'est chez nous. Par contre, le traitement IA, comme tout le monde, passe par les serveurs du fournisseur d'IA qu'on utilise. On vous le dit clairement. C'est pas un claim marketing, c'est une réalité technique.

Ce qu'il faut vérifier. Où sont stockées les données permanentes, et sur l'infrastructure de qui? Quelle est la politique de rétention? Pouvez-vous demander la suppression à tout moment? Les données sont-elles chiffrées au repos? Et surtout, le fournisseur contrôle-t-il son propre stockage, ou il revend une couche par-dessus quelqu'un d'autre?

C'est ici que le vrai risque se cache pour la majorité des entreprises. Pas dans le transit.

Vie #3 : Les données qui servent à entraîner

On arrive à la peur du monde. Quand les gens pensent à « l'IA qui utilise mes données », c'est habituellement ça qu'ils ont en tête.

Reprenons l'image du prof avec les copies d'examen. Imaginez un prof qui, après l'examen, garde silencieusement les copies de tous les tests. Pas pour vous les rendre. Pas pour les corriger encore. Pour améliorer son cours l'année prochaine. Vos réponses, vos erreurs, vos angles de pensée servent à former les prochains étudiants, sans que vous le sachiez.

Dans le mode grand public, c'est exactement ce qui arrive. Quand vous chattez avec ChatGPT gratuitement, OpenAI se réserve le droit d'utiliser ces échanges pour entraîner ses prochaines versions. Par défaut. Et la plupart du monde lit pas les conditions d'utilisation.

Le mode API entreprise dont on a parlé en Vie #1 change complètement la donne. Les fournisseurs d'IA s'engagent explicitement à NE PAS utiliser les données des appels API pour entraîner leurs modèles. C'est un engagement contractuel, et ils s'y tiennent parce qu'un manquement tuerait leur business enterprise.

La question à poser à votre fournisseur d'agent vocal IA n'est pas « est-ce que mes données sont utilisées pour entraîner l'IA? ». C'est « quel mode utilisez-vous pour accéder au modèle : API entreprise ou grand public? ». La réponse à cette question répond à toutes les autres.

Chez InstantCallR, c'est le mode API entreprise, point. Vos conversations servent pas à entraîner les modèles d'OpenAI, de Google ou d'Anthropic. Vous pouvez le vérifier vous-même en lisant leurs conditions API publiques.

Ce qu'il faut vérifier. Votre fournisseur peut-il vous montrer la clause exacte de non-utilisation pour l'entraînement dans les conditions du fournisseur d'IA? Si la réponse est vague ou évasive, c'est un drapeau rouge. Un fournisseur qui connaît son stack répond à cette question en 30 secondes.

Le portrait complet

Quand on met les trois vies côte à côte, le portrait devient clair.

	Vie #1 : Transit	Vie #2 : Stockage	Vie #3 : Entraînement
Quoi	Voix et texte pendant l'appel	Transcriptions, audio, CRM, analytiques	Conversations utilisées pour améliorer le modèle
Qui	Fournisseur d'IA (OpenAI, Anthropic, Google)	Plateforme vocale	Fournisseur d'IA (si mode grand public)
Où	Serveurs du fournisseur (souvent USA)	Serveurs de la plateforme (Canada chez InstantCallR)	Serveurs du fournisseur (si applicable)
Durée	Temps du traitement + 30 jours abuse monitoring	Selon votre politique de rétention	Permanent (si mode grand public)
Votre contrôle	Choix du fournisseur et du mode API	Total, c'est votre data	Choix du mode API (entreprise = pas d'entraînement)

Pour aller plus loin sur l'aspect légal (Loi 25, CLOUD Act, conformité), on a écrit un guide sur la confidentialité des données. Pour comprendre ce que ça implique financièrement, notre guide des coûts explique ce que vous achetez concrètement.

Si votre fournisseur peut pas nommer les trois vies, différencier le mode API du mode grand public, ou vous dire où vit chaque type de données, vous parlez pas à la bonne personne.

La prochaine fois que quelqu'un vous dit « l'IA garde toutes vos données » ou « tout est sécuritaire, inquiétez-vous pas », vous saurez quoi répondre.

« De quelle vie tu parles? »

Questions fréquentes

Est-ce que l'IA écoute mes appels et se souvient de tout?

Non. En mode API entreprise, le modèle d'IA traite la conversation en temps réel, puis la laisse aller. Les données conservées (transcriptions, résumés, analytiques) sont stockées par la plateforme vocale, pas par le fournisseur d'IA. Ce sont deux choses distinctes. La seule rétention côté fournisseur d'IA, c'est le 30 jours d'abuse monitoring chez OpenAI, qui est automatiquement effacé après.

Mes données sont-elles aux États-Unis?

Ça dépend de quelle vie on parle. Pendant le traitement (Vie #1), oui, les données transitent par les serveurs du fournisseur d'IA, souvent aux États-Unis. Pour quelques secondes. Les données permanentes (Vie #2) dépendent de votre plateforme vocale. Chez InstantCallR, tout le stockage permanent est au Canada sur notre propre infrastructure. Chez un fournisseur qui revend Twilio ou Vapi, vos données permanentes peuvent très bien vivre aux États-Unis sans qu'on vous l'ait dit explicitement.

ChatGPT peut utiliser mes conversations pour s'entraîner. C'est pareil ici?

Non. ChatGPT en mode grand public (la version gratuite ou Plus que vous utilisez dans votre navigateur) peut utiliser vos conversations pour l'entraînement. C'est même le comportement par défaut. Les plateformes professionnelles comme InstantCallR utilisent le mode API entreprise, où les fournisseurs s'engagent contractuellement à ne pas utiliser les données pour l'entraînement. Deux modes complètement différents, deux contrats complètement différents.

Comment reconnaître un fournisseur qui contrôle vraiment son stack?

Posez-lui trois questions. Première, quel fournisseur d'IA utilisez-vous et en quel mode (API entreprise ou grand public)? Deuxième, où sont stockées les données permanentes, et sur l'infrastructure de qui? Troisième, avez-vous un engagement écrit du fournisseur d'IA concernant la non-rétention et la non-utilisation pour l'entraînement? Si les réponses sont floues, renvoient à des sous-traitants non nommés, ou se résument à « c'est sécuritaire », vous parlez à un thin wrapper qui maîtrise pas son propre produit.

Comment je fais concrètement pour vérifier les claims de mon fournisseur?

Cinq étapes, dans l'ordre.

Un. Demandez la liste exhaustive des sous-traitants utilisés dans le pipeline. Téléphonie (Twilio, Plivo, propriétaire?), couche vocale (Vapi, Retell, propriétaire?), modèle d'IA (OpenAI, Anthropic, Google), stockage (S3, Azure, serveurs propres au Canada?). Si le fournisseur peut pas nommer ses propres fournisseurs, c'est fini, passez au suivant.

Deux. Allez lire les conditions API publiques du fournisseur d'IA. OpenAI a sa politique de rétention publique sur openai.com. Anthropic aussi. C'est pas du legalese opaque, c'est lisible en 10 minutes. Vous allez voir par vous-même le fameux 30 jours, les engagements de non-entraînement, les clauses de confidentialité.

Trois. Demandez où sont les datacenters du stockage permanent. Pas « c'est au Canada » comme réponse vague. Des noms précis. Quelle ville, quel fournisseur d'hébergement, quelle politique de réplication géographique.

Quatre. Demandez la politique de rétention par écrit. Combien de temps les enregistrements sont conservés par défaut, comment faire pour réduire ce délai, comment demander la suppression immédiate.

Cinq. Chronométrez combien de temps ça prend à votre fournisseur pour répondre à ces questions. Un fournisseur qui contrôle son stack répond en direct, sans consulter personne. Un fournisseur qui doit « vérifier avec l'équipe technique » et vous revenir dans deux jours, c'est pas le fournisseur, c'est un intermédiaire.

Prêt à essayer?

Testez un agent vocal IA en quelques secondes.

Essai gratuit