Med hjälp av röstkloning och generativ AI byggde teamet en tjänst för morgonmeddelanden som spelas upp på Prototypkontorens Sonos-högtalare. Men att få till det riktigt bra visade sig vara svårare än man trodde.
Press to view video
Prototyps medarbetare har under en längre tid kunna njuta av morgonmeddelanden i Sonos-högtalare på de olika kontoren. De förskrivna budskapen har körts genom en text-till-tal-modell (TTS, text-to-speech), vilket ofrånkomligen gjort dem en smula förutsägbara och robotlika.
Projektet initierades under en tidigare Prototypvecka, och under AI-temat 2024 ville ett nytt team utforska möjligheten att skapa mer dynamiska och engagerande morgonmeddelanden – dels genom att använda röstkloner, dels genom att AI-generera en unik text varje morgon utifrån data om exempelvis dagens väder och särskilda händelser.
Teamet började undersöka olika tillvägagångssätt för röstkloning, antingen genom att använda befintliga API:er eller att skapa en egen AI-modell. Valet föll på ElevenLabs Voice Cloning API.
Gruppen delades upp så att alla kunde arbeta samtidigt. Några ägnade sig åt att spela in och mata ElevenLabs med bra inspelningar som kunde användas för röstkloning. Andra fokuserade mer på integrationen med Sonos-högtalarna, baserat på den befintliga kodbasen från det tidigare projektet.
Det fanns flera utmaningar. En var att arbeta med ElevenLabs för att säkerställa att rösterna lät autentiska – röstklonerna upplevdes nämligen ofta som monotona och förlorade många av de unika karaktärsdrag som fanns i den inspelade rösten. För att hitta rätt experimenterade gruppen flitigt med verktygets olika parametrar som kan justeras vid generering av tal.
En annan utmaning var att arbeta med Sonos-högtalarna. Stockholmskontoret har flera högtalare, och den tidigare lösningen skickade det genererade ljudet individuellt till varje högtalare, vilket orsakade viss fördröjning. Trots att en del tid spenderades på att försöka lösa detta, lyckades teamet inte hitta ett sätt för Sonos API att hantera sändning av ljudfiler simultant till olika grupper av högtalare.
En lärdom är att autentisk röstkloning är utmanande – och inte sällan obehagligt. Det var stor skillnad i hur väl de olika rösterna klonades, och efter veckans slut var resultatet fortsatt inte perfekt.
Eftersom meddelandena nu genereras dynamiskt har projektet dock lett till att medarbetarna spetsar öronen lite extra varje morgon. Det finns en nyfikenhet kring vilket meddelande som dyker upp − och vilken röst som används.
Teamet anser att projektet resulterat i en tydlig förbättring av den initiala tjänsten, men ser fram emot att få arbeta mer med vissa av röstklonerna.
En framtida idé är att även integrera den genererade texten med kontorets kalendrar, för att påminna kontorets medarbetare om viktiga möten eller roliga evenemang som ska äga rum.
Vi använder kakor (cookies) för att ge dig en bättre upplevelse av vår webbplats. Du väljer själv om du godkänner kakor. Läs mer om hur vi hanterar kakor