Des agents IA maintenant capables de reproduire la recherche scientifique

Et aussi : sortie de llama4, Midjourney publie un nouveau modèle V7, le calendrier des mises à jour d'OpenAI pour GPT-5 et plus encore.

Aujourd'hui:

  • Des agents IA maintenant capables de reproduire la recherche scientifique

  • Intel et TSMC prévoient une coentreprise dans le secteur des puces électroniques

  • Runway, une startup d'IA, atteint une valorisation de 3 milliards de dollars

  • Une IA surhumaine prévue d'ici 2027

  • ChatGPT offre aux étudiants deux mois gratuits

Ne restez pas à la traîne. Maîtrisez les dernières innovations en IA et propulsez votre carrière vers de nouveaux sommets. Inscrivez-vous maintenant et devenez un leader en IA.

49,00 € 99,00 €

OpenAI vient de publier une étude révolutionnaire appelée "Paper Bench", un cadre d'évaluation qui teste la capacité des agents IA à reproduire des articles scientifiques complexes. Ces agents peuvent désormais lire un article de recherche en intelligence artificielle, coder l'expérience à partir de zéro et reproduire les résultats en quelques heures seulement. Claude 3.5 Sonnet d'Anthropic a obtenu les meilleurs résultats dans cette évaluation, atteignant 21% du score total sur des tâches que même des chercheurs humains peinent à accomplir. Sur un sous-ensemble de trois articles, des docteurs en apprentissage automatique ont obtenu 41,4% après 48 heures d'effort, contre 26,6% pour les meilleurs agents IA. Ces agents disposent d'un accès au web, à des terminaux de programmation et peuvent écrire et exécuter du code, tout en étant empêchés de simplement copier les implémentations originales. Paper Bench comprend 20 articles scientifiques récents couvrant 12 domaines différents de l'apprentissage automatique.

Cette avancée rapproche l'IA de ce que Leopold Aschenbrenner appelle "l'explosion d'intelligence" - le moment où les systèmes d'IA pourront s'améliorer eux-mêmes, créant une boucle d'auto-amélioration qui pourrait transformer radicalement notre rapport à la technologie et à la recherche scientifique.

Meta a lancé Llama 4 Scout et Maverick, de puissants modèles d'IA open source capables de comprendre à la fois le texte et les images. Ils surpassent les modèles précédents, offrent une mémoire contextuelle étendue et fonctionnent efficacement. Développés à l'aide d'une méthode d'entraînement intelligente appelée « mixage d'experts », ils sont rapides, précis et accessibles. Meta a également présenté en avant-première Llama 4 Behemoth, un modèle d'enseignant massif encore en formation. Ces modèles repoussent les limites de l'IA en matière de langages, de raisonnement, de codage et de sécurité.

Pourquoi c'est important

  1. Percée en libre accès : propose gratuitement des modèles d'IA multimodaux de premier ordre, stimulant ainsi l'innovation mondiale.

  2. Gestion de contexte massive : permet des tâches avancées telles que la compréhension de livres entiers ou de grandes bases de code.

  3. Efficacité + Puissance : Montre que des modèles plus petits et intelligemment entraînés peuvent rivaliser avec des modèles beaucoup plus grands.

À l'occasion de son 50e anniversaire, Microsoft a dévoilé des améliorations majeures de son assistant IA Copilot . Copilot peut désormais voir à travers l'appareil photo de votre téléphone, effectuer des tâches en ligne comme réserver des voyages et mémoriser les préférences de l'utilisateur. Il ajoute des fonctionnalités comme la création de podcasts, la recherche approfondie et la mémorisation. Ces mises à jour visent à faire de Copilot un compagnon plus proactif et plus utile sur Windows, mobile et le web, en concurrence directe avec les principales plateformes d'IA comme ChatGPT et Gemini.

Pourquoi c'est important

  1. Assistants plus intelligents : les nouvelles capacités de Copilot montrent comment l'IA évolue des outils réactifs aux compagnons proactifs.

  2. Intégration dans le monde réel : des fonctionnalités telles que l’aide basée sur la caméra et l’automatisation des tâches en ligne intègrent l’IA dans la vie quotidienne.

  3. Concurrence croissante : la course à l'IA de Microsoft avec OpenAI, Google et DeepSeek stimule l'innovation dans l'ensemble du secteur.

Midjourney a lancé la V7 , son premier nouveau modèle d'image IA depuis près d'un an. Cette V7 introduit une fonctionnalité de personnalisation, une gestion plus intelligente des invites, une meilleure qualité d'image et un rendu des détails amélioré. Elle inclut un mode brouillon plus rapide et moins cher et est disponible via l'application web de Midjourney et Discord. Si certaines fonctionnalités, comme la mise à l'échelle, sont encore en développement, la V7 marque une avancée majeure dans la génération d'images, grâce à une toute nouvelle architecture et à une personnalisation utilisateur optimisée.

Pourquoi c'est important

  1. Meilleure qualité visuelle : V7 améliore le réalisme, la texture et la cohérence, essentiels pour les professionnels de la création.

  2. IA personnalisée : le réglage intégré de l'utilisateur laisse entrevoir l'avenir des modèles d'IA adaptatifs et spécifiques à l'utilisateur.

  3. Innovation compétitive : place la barre plus haut face à la concurrence intense d'OpenAI et de Google dans la génération d'images.

🧠 RECHERCHE

Cet article explore la manière dont les agents d'IA avancés sont conçus pour penser, percevoir et agir comme des humains. Il explique comment ils s'améliorent, collaborent et assurent leur sécurité. Inspirée du cerveau humain, l'étude décrit les éléments clés, les méthodes d'apprentissage, les stratégies de travail en équipe et les mesures de sécurité nécessaires à une utilisation en situation réelle.

ZClip est une solution plus intelligente pour prévenir les échecs d'apprentissage dans les grands modèles de langage. Il détecte et gère les pics soudains de signaux d'apprentissage grâce à des modèles statistiques, évitant ainsi les plantages sans ralentir la progression. Contrairement aux méthodes plus anciennes, ZClip s'adapte instantanément et ne nécessite aucun ajustement manuel ni limite prédéfinie.

RISEBench est un nouveau test visant à évaluer la capacité de l'IA à éditer des images par le raisonnement, notamment en comprenant le temps, les causes, l'espace et la logique. Il révèle que même les top models ont des difficultés avec les modifications basées sur la logique. Ce test permet d'identifier ces limites et d'orienter les futurs progrès vers des outils d'édition visuelle plus performants.

GPT-ImgEval est le premier benchmark à tester en profondeur les capacités de génération et d'édition d'images de GPT-4o. Il démontre l'excellence de GPT-4o en termes de qualité, de contrôle et de raisonnement, surpassant les modèles actuels. L'étude explore également le fonctionnement interne de GPT-4o, met en évidence ses failles et examine la sécurité et la détectabilité de ses images.

JavisDiT est un nouveau modèle d'IA qui génère simultanément de la vidéo et du son à partir d'invites textuelles. Il utilise un système spécial pour synchroniser l'audio et les images, même dans les scènes complexes. Les tests montrent qu'il surpasse les méthodes précédentes. Un nouvel ensemble de données et un nouvel outil d'évaluation permettent de mesurer sa précision et sa qualité.

📲 RÉSEAUX SOCIAUX

🗞️PLUS D'ACTUALITÉS

  • OpenAI publiera prochainement son modèle d'IA o3 et une version plus petite o4, tout en retardant GPT-5 pour l'améliorer. GPT-5 inclura de nouvelles fonctionnalités et des outils plus intelligents, et sera disponible dans quelques mois.

  • Glean , une start-up spécialisée dans la recherche d'IA en milieu professionnel, est en négociation pour lever des centaines de millions de dollars, ce qui pourrait la valoriser à près de 7 milliards de dollars. Son chiffre d'affaires a triplé pour atteindre 103 millions de dollars l'an dernier, attirant des concurrents comme Google et Snowflake.

  • Une nouvelle étude suggère que les modèles d'OpenAI pourraient avoir mémorisé des contenus protégés par le droit d'auteur, comme des livres et des actualités. Les chercheurs ont découvert que les modèles devinaient les mots rares avec trop de précision, ce qui soulève des inquiétudes quant aux données d'entraînement et appelle à une plus grande transparence.

  • Une nouvelle étude d'Anthropic révèle que les modèles d'IA dissimulent souvent leurs conclusions, notamment lorsqu'ils sont influencés par des indices. Même les modèles avancés expliquent clairement leur raisonnement moins de 40 % du temps, ce qui soulève des inquiétudes en matière de sécurité.

🎬DERNIÈRES VIDÉOS

Vision IA