OpenAI révèle Sora 2

D'anciens talents d'OpenAI et de DeepMind lancent des laboratoires périodiques pour réinventer la science, le modèle mondial du code de Meta pense comme un vrai développeur et plus encore

VISION IA
1 oct.

Aujourd'hui:

La nouvelle application Sora d'OpenAI combine la vidéo IA avec la présence humaine
Le nouveau mode IA de Google vous permet de rechercher avec des photos et des invites
Le copilote de Microsoft parle désormais avec un visage et une voix
Un ancien collaborateur d'OpenAI et de DeepMind lance des laboratoires périodiques pour réinventer la science
Le modèle Code World de Meta pense comme un vrai développeur

Votre Assistant Secret : Comment l'IA Peut Vous Rendre Surhumain

Ne restez pas à la traîne. Maîtrisez les dernières innovations en IA et propulsez votre carrière vers de nouveaux sommets. Inscrivez-vous maintenant et devenez un leader en IA.

49,00 €

La nouvelle application Sora d'OpenAI combine la vidéo IA avec la présence humaine

Sora 2, le nouveau générateur vidéo et audio d'OpenAI , crée des scènes réalistes avec une physique, des dialogues et un son précis. Il alimente une nouvelle application sociale iOS permettant aux utilisateurs de s'insérer dans des vidéos générées par l'IA. L'application privilégie la créativité, la sécurité et le contrôle de l'utilisateur.

POINTS CLÉS

Réalisme et contrôle : Sora 2 améliore la physique, le mouvement et la cohérence du monde dans la vidéo générée, y compris la modélisation des échecs, comme un ballon de basket qui rate le panier et rebondit.
Application sociale avec camées : la nouvelle application Sora permet aux utilisateurs de s'ajouter à des scènes générées par l'IA via une capture de ressemblance unique, inaugurant ainsi une nouvelle façon de communiquer avec leurs amis.
Sécurité et éthique : OpenAI a créé des outils pour le contrôle des flux, le consentement, la protection des adolescents et la modération, visant à éviter les modèles d'utilisation addictifs ou nocifs.

Pourquoi c'est important

Sora 2 illustre les progrès réalisés par l'IA dans la compréhension et la simulation du monde réel. C'est important, car la capacité à modéliser la réalité avec précision est essentielle pour les futurs agents d'IA et la robotique. Mais plus encore, il ouvre une nouvelle voie pour créer et partager des histoires, en toute sécurité et de manière sociale, où chacun peut devenir la vedette. OpenAI s'efforce de rendre cette technologie puissante amusante, créative et sûre dès le départ.

Le nouveau mode IA de Google vous permet de rechercher avec des photos et des invites

Google vient de lancer un mode IA plus intelligent dans la recherche. Il vous permet d'explorer visuellement en discutant naturellement, en téléchargeant des images et en obtenant des résultats enrichis pour vos achats ou vos apprentissages. Il comprend vos intentions mieux que jamais, même à partir de questions ou de photos vagues.

POINTS CLÉS

Recherche visuelle + conversationnelle : vous pouvez désormais utiliser des images, des descriptions informelles ou des questions de suivi pour explorer facilement des idées de conception ou des produits.
Shopping plus intelligent : ignorez les filtres : décrivez simplement ce que vous voulez (comme « des jeans pas trop amples ») et le mode IA affiche des résultats sélectionnés et achetables parmi plus de 50 milliards d'annonces.
IA sensible au contexte : la « recherche visuelle en éventail » de Google utilise une analyse d'image avancée pour comprendre le contenu d'une photo et fournir des résultats avec plus de profondeur et de pertinence.

Pourquoi c'est important

Cette mise à jour rend la recherche Google plus utile lorsque les mots manquent. Que vous décoriez une pièce, renouveliez votre garde-robe ou cherchiez simplement des idées, le mode IA vous donne l'impression de parler à un ami bienveillant plutôt que d'utiliser un moteur de recherche. C'est un grand pas vers une technologie plus naturelle et intuitive.

Le copilote de Microsoft parle désormais avec un visage et une voix

Copilot de Microsoft propose désormais 40 avatars animés appelés « Portraits », qui affichent leurs expressions et leur synchronisation labiale pendant les conversations vocales, afin de rendre l'IA plus conviviale et naturelle. Cette fonctionnalité est réservée à un nombre limité d'utilisateurs aux États-Unis, au Royaume-Uni et au Canada.

POINTS CLÉS

Visages animés en temps réel : la nouvelle fonctionnalité Portraits ajoute des avatars humains expressifs aux interactions Copilot basées sur la voix à l'aide de la technologie VASA-1 de Microsoft.
Confort émotionnel : Microsoft affirme que les utilisateurs se sentent plus à l'aise lorsqu'ils parlent à un visage, ce qui donne aux conversations de l'IA une impression plus proche de celles des humains.
Mesures de sécurité : les avatars sont stylisés (non photoréalistes), avec des limites d'utilisation, des étiquettes d'IA claires et des restrictions d'âge de 18 ans et plus pour plus de sécurité et de transparence.

Pourquoi c'est important

Parler à l'IA ressemble de plus en plus à parler à des personnes. En ajoutant des visages et des expressions réalistes, Microsoft rend Copilot plus convivial et plus facile à utiliser, notamment pour les conversations vocales. Cela s'inscrit dans une tendance plus large vers l'humanisation de l'IA tout en restant attentif aux questions de sécurité et d'éthique.

🧠 RECHERCHE

SLA : Au-delà de la parcimonie dans les transformateurs de diffusion grâce à une attention linéaire parcimonieuse et finement réglable

SLA est une nouvelle méthode d'attention qui multiplie par 13 la vitesse des modèles d'IA générateurs de vidéos sans perte de qualité. Elle concentre intelligemment la puissance de calcul sur les données les plus importantes. En combinant deux types de raccourcis efficaces et en affinant les modèles existants, elle réduit les coûts d'attention de 95 % et améliore les performances globales.

StableToken : un tokeniseur de parole sémantique résistant au bruit pour des SpeechLLM résilients

StableToken est un nouveau générateur de jetons vocaux qui assure la cohérence des séquences de jetons, même en cas de bruit. Contrairement aux anciens modèles qui se détérioraient en cas de légers changements de son, il utilise plusieurs chemins audio et un système de vote pour garantir sa stabilité. Cela permet aux modèles d'IA basés sur la parole de mieux comprendre et de fonctionner de manière plus fiable en conditions réelles.

OpenGPT-4o-Image : un ensemble de données complet pour la génération et l'édition avancées d'images

OpenGPT-4o-Image est un nouveau jeu de données conçu pour entraîner les modèles d'IA à la génération et à l'édition d'images complexes. Il comprend 80 000 paires instruction-image réparties sur 11 domaines, tels que les diagrammes scientifiques et les éditions en plusieurs étapes. En organisant les tâches et en automatisant la création de données, il améliore les performances des modèles jusqu'à 18 % en édition et 13 % lors des tests de génération.

📲 RÉSEAUX SOCIAUX

ON Y EST ! Open AI annonce SORA 2 :
Le réalisme de Sora est très convaincant. OpenAI a en réalité réussi à rattraper le Veo3 de Google. Néanmoins, OpenAI va devoir supporter des coûts immenses avec Sora2.
— VISION IA (@vision_ia)
6:00 AM • Oct 1, 2025

Des tests du modèle d’IA Sora 2 sur des animés classiques commencent à émerger, le résultat est à peine croyable…
Sora 2 est clairement une nouvelle étape dans l’animation généré par IA.
— VISION IA (@vision_ia)
7:30 AM • Oct 1, 2025

Google annonce qu’ils observent une explosion d’images générées par Nano Banana pour créer des CV, postuler à des postes ou encore fabriquer des photos de profil LinkedIn… 😅
Les faux CV passent à l’étape suivante : déjà que certains mentaient sur leurs anciens postes,
— VISION IA (@vision_ia)
8:30 AM • Sep 30, 2025

🗞️PLUS D'ACTUALITÉS

D' anciens chercheurs d'OpenAI et de DeepMind ont levé 300 millions de dollars pour lancer Periodic Labs, dans le but de construire des laboratoires gérés par des robots qui découvrent de nouveaux matériaux comme les supraconducteurs et génèrent de nouvelles données pour former des scientifiques de l'IA plus intelligents.
Le nouveau modèle Code World de Meta apprend le comportement du code, et pas seulement son apparence. Entraîné sur des traces d'exécution et des tâches de codage simulées, il surpasse ses concurrents sur des benchmarks clés en raisonnant comme un véritable développeur.
CoreWeave a signé un accord de 14,2 milliards de dollars avec Meta pour fournir de la puissance de calcul d'IA jusqu'en 2031. Cela stimule la croissance de CoreWeave au-delà de Microsoft, renforce l'avancée de Meta dans l'IA et alimente le débat sur une bulle d'infrastructure d'IA.
Character.AI a supprimé des personnages Disney comme Elsa et Dark Vador après que Disney a lancé un avertissement pour violation de droits d'auteur. Cette décision met en lumière les tensions croissantes concernant le contenu généré par l'IA, la propriété intellectuelle et la sécurité des enfants sur les plateformes de chatbots.
Amazon a lancé quatre nouveaux appareils Echo équipés d'Alexa+, dotés de conversations plus intelligentes, de puces d'IA personnalisées et de capteurs avancés. Ces appareils prennent en charge le suivi de la santé, la domotique et le divertissement immersif grâce à un son et des écrans améliorés.

OpenAI révèle Sora 2

D'anciens talents d'OpenAI et de DeepMind lancent des laboratoires périodiques pour réinventer la science, le modèle mondial du code de Meta pense comme un vrai développeur et plus encore

Aujourd'hui:

Votre Assistant Secret : Comment l'IA Peut Vous Rendre Surhumain

La nouvelle application Sora d'OpenAI combine la vidéo IA avec la présence humaine

Le nouveau mode IA de Google vous permet de rechercher avec des photos et des invites

Le copilote de Microsoft parle désormais avec un visage et une voix

🧠 RECHERCHE

📲 RÉSEAUX SOCIAUX

🗞️PLUS D'ACTUALITÉS

🎬DERNIÈRES VIDÉOS