terug naar boven
Woensdag 17 juli 2024
thuisArtificial IntelligenceDe magische conversie van Kyutai Moshi Chat: van tekst naar spraak

De magische conversie van Kyutai Moshi Chat: van tekst naar spraak


Το Kyutai, ένα μη κερδοσκοπικό εργαστήριο αφιερωμένο στην προώθηση της ανοιχτής έρευνας στην τεχνητή νοημοσύνη (AI), έχει κάνει σημαντικά βήματα με την τελευταία του καινοτομία, το Moshi Chat. Αυτό το υπερσύγχρονο εγγενές πολυτροπικό μοντέλο θεμελίωσης σε πραγματικό χρόνο αντιπροσωπεύει ένα αξιοσημείωτο επίτευγμα στην τεχνολογία AI. Η εισαγωγή του Moshi Chat από το Kyutai έχει συγκεντρώσει την προσοχή για τις εντυπωσιακές του ικανότητες, ιδιαίτερα στους τομείς της ταυτόχρονης ακρόασης και ομιλίας. Σε αντίθεση με τα παραδοσιακά μοντέλα AI, το Moshi Chat έχει σχεδιαστεί για να κατανοεί και να εκφράζει συναισθήματα, κάνοντας τις αλληλεπιδράσεις μαζί του πιο φυσικές και ελκυστικές.

Met zijn unieke functies en open source-beschikbaarheid onderscheidt Moshi Chat zich als een pionier op het gebied van AI-ontwikkeling.

De ontwikkeling van Moshi Chat is een bewijs van Kyutai's toewijding aan transparantie en collaboratieve innovatie. Het vermogen van het model om twee stromen verwerken tegelijkertijd– realtime luisteren en spreken – onderscheidt het van andere AI-modellen.

Deze mogelijkheid wordt ondersteund door een robuust gezamenlijk pre-trainingsproces over een combinatie van tekst- en audiogegevens, waarbij gebruik wordt gemaakt van synthetische tekstgegevens van Helium, een Taalmodel met 7 miljard parameters ontwikkeld door Kyutai. Dergelijke vorderingen in de AI-technologie zijn het resultaat van rigoureus onderzoek en verfijning, gericht op het bereiken van naadloze en efficiënte prestaties.

Kyutai Moshi-chattechnologie

Het onderscheidende kenmerk van Moshi Chat is dit mogelijkheid om in realtime te communiceren, waardoor hij tegelijkertijd kan luisteren en reageren. Dit wordt bereikt door gezamenlijke voortraining over een combinatie van tekst- en audiogegevens, waardoor ervoor wordt gezorgd dat het model een soepele stroom van tekst- en audio-informatie kan behouden. De basis van de spraakverwerkingsmogelijkheden van Moshi Chat is het Helium-model, een taalmodel met 7 miljard parameters dat als ruggengraat dient voor deze innovatieve technologie.

Volgens Kyutai Moshi Chat YouTube-keynotehet verfijningsproces voor Moshi Chat omvatte a uitgebreide dataset van 100.000 synthetische 'gesproken type'-gesprekken.. Deze gesprekken werden omgezet met behulp van Text-to-Speech (TTS)-technologie, vergelijkbaar met Murf AI, waardoor het model spraak met opmerkelijke nauwkeurigheid kon produceren en begrijpen. De TTS-engine, die 70 verschillende emoties en stijlen ondersteunt, is verbeterd met 20 uur aan audio opgenomen door geautoriseerd stemtalent. Deze nauwgezette benadering van onderwijs heeft geresulteerd in een model dat dat doet het begrijpt niet alleen gesproken taal, maar brengt ook emoties en nuances overwaardoor interacties natuurlijker en boeiender worden.

Kyutai's toewijding aan het verantwoorde gebruik van AI komt duidelijk tot uiting in de integratie van watermerken om door AI gegenereerde audio te identificeren. Deze functie, die nog in ontwikkeling is, benadrukt het belang van ethische criteria bij de ontwikkeling van kunstmatige intelligentie. Bovendien onderstreept de beslissing om Moshi Chat uit te brengen als een open source-project Kyutai's toewijding aan het promoten van een συνεργασίας εντός της κοινότητας AI.

Moshi Chat begrijpt en drukt emoties uit, waardoor interacties natuurlijker worden (Afbeelding tegoed)

Moshi AI-training en verfijningsproces

De ontwikkeling van Moshi Chat omvatte een rigoureus training- en verfijningsproces om het hoge prestatieniveau te garanderen. Het model werd helemaal opnieuw getraind met behulp van het basisteksttaalmodel Helium 7B, dat vervolgens samen met tekst- en audio-encoders werd getraind.

De spraak-encoder, gebaseerd op Kyutai's interne Mimi-model, beschikt er over 300x compressieverhoudingwat cruciaal is voor het behoud van de geluidskwaliteit en het verkleinen van de gegevensgrootte.

Het verfijningsproces voor Moshi Chat omvatte commentaar 100.000 zeer gedetailleerde transcripties met emotie en stijl. Dankzij deze annotaties kan het model een breed scala aan emoties begrijpen en overbrengen, waardoor interacties ermee levendiger en boeiender worden. De Text-to-Speech-engine, die 70 verschillende emoties en stijlen ondersteunt, was dat wel geperfectioneerd met behulp van 20 uur audio opgenomen door een gelicentieerd stemtalent genaamd Alice.

Kyutai's focus op aanpassingsvermogen is duidelijk zichtbaar in Moshi Chat perfectioneerbaarheid met minder dan 30 minuten audio. Met deze functie kunnen gebruikers het model aanpassen aan specifieke behoeften, of het nu gaat om onderzoek, het leren van talen of andere toepassingen. De ontwikkeling van het model toont de efficiëntie en flexibiliteit ervan, verwerking van twee batchgroottes op 24 GB VRAM en ondersteuning van meerdere backends. Optimalisaties van de inferentiecode, zoals verbeterde KV-caching en opdrachtcaching, zullen naar verwachting de prestaties van Moshi Chat verder verbeteren.

Kyutai Moshi Chat tekst-naar-spraak
Moshi Chat is gebaseerd op het Helium-taalmodel, een model van 7 miljard parameters ontwikkeld door Kyutai (Afbeelding tegoed)

Technologie voor iedereen van Kyutai Labs

Το Moshi Chat μόνο ένα τεχνολογικό θαύμα αλλά και εξαιρετικά προσιτό. Η Kyutai έχει αναπτύξει μια μικρότερη παραλλαγή του μοντέλου που μπορεί να λειτουργεί σε MacBook ή μεγέθους καταναλωτή, καθιστώντας το διαθέσιμο σε ένα ευρύτερο φάσμα χρηστών.

De effectiviteit van het model wordt verder gedemonstreerd door de inzet ervan op platforms zoals Scaleway en Omarmd gezichtwaar het twee batchgroottes op 24 GB VRAM verwerkt en verschillende backends ondersteunt, waaronder CUDA, Metal en CPU.

De modelstem, getraind op synthetische data gegenereerd door een afzonderlijk TTS-model, bereikt een indrukwekkende end-to-end latentie van 200 milliseconden. Deze lage latentie is cruciaal voor realtime interacties, waardoor Moshi Chat vrijwel onmiddellijk kan reageren op gebruikersinvoer. De combinatie van geavanceerde trainingstechnieken en geoptimaliseerde inferentiecode, ontwikkeld met Rust, draagt ​​bij aan de superieure prestaties van het model. Verbeterde KV-caching en directe caching zullen naar verwachting ook de modelprestaties verder verbeteren.

De demo geplaatst door Jan LeCun δείχνει πόσο καλά λειτουργεί αυτό το νέο μοντέλο AI.

Vooruitkijkend heeft Kyutai ambitieuze plannen voor Moshi Chat. Het team is van plan een uitgebreid technisch rapport en open modelversies uit te brengen, inclusief de inferentiecodebase, het 7B-model, de audiocodec en de volledig geoptimaliseerde stapel. Toekomstige iteraties van Moshi Chat, zoals versies 1.1, 1.2 en 2.0, zullen gebruikersfeedback bevatten om de mogelijkheden van het model te verfijnen en te verbeteren.

De permissieve licenties van Kyutai zijn bedoeld om wijdverbreide adoptie en innovatie aan te moedigen en ervoor te zorgen dat de voordelen van Moshi Chat toegankelijk zijn voor een divers publiek.

Hoe Moshi Chat te gebruiken

Gebruikers kunnen en worden aangemoedigd dit te doen probeer Moshi Chat online via de Kyutai-website. Eenmaal daar:

  1. Vul uw e-mailadres in
  2. Klik op “Toevoegen in de wachtrij"
  3. Begin met praten

Of het nu gaat om het bespreken van alledaagse onderwerpen of het verkennen van meer complexe onderwerpen, gebruikers kunnen op natuurlijke wijze communiceren met Moshi Chat en profiteren van geavanceerde spraakherkennings- en synthesemogelijkheden.


Uitgelicht beeldtegoed: Kyutai/YouTube





VIA: DataConomy.com

Marizas Dimitris
Marizas Dimitrishttps://www.techwar.gr
Dimitris, een toegewijd fan van mobiele telefoons van Samsung, heeft een speciale band opgebouwd met de producten van het bedrijf en waardeert het ontwerp, de prestaties en de innovatie die ze bieden. Technisch nieuws van over de hele wereld schrijven en lezen.
GERELATEERDE ARTIKELEN

LAAT EEN ANTWOORD ACHTER

voer uw reactie in!
Vul hier uw naam in

Meest populair

Laatste artikelen