L’IA Mythos d'Anthropic résout 30 % des problèmes insolubles par des experts humains

Claude, une intelligence artificielle développée par Anthropic, a récemment été mise à l’épreuve dans le domaine de la bio-informatique. Les résultats de cette évaluation ont été impressionnants, car Mythos a su résoudre des problèmes que des experts humains n'avaient pas réussi à élucider.
Une avancée majeure dans la bio-informatique
Dans un contexte où la cybersécurité est souvent mise en avant, il est essentiel de rappeler que Mythos, tout comme les autres modèles d'IA d'Anthropic, est une IA générative polyvalente. C'est cette polyvalence qui pourrait ouvrir la voie à de nouvelles percées dans divers domaines, y compris la science. Une étude récente d'Anthropic a révélé que Mythos pouvait résoudre des problèmes de bio-informatique, un domaine qui allie informatique, mathématiques et biologie.
Galerie


BioMysteryBench : un nouveau benchmark
Pour tester les capacités de ses modèles, Anthropic a élaboré un nouvel outil d'évaluation appelé BioMysteryBench, composé de 99 questions complexes. Ces questions sont souvent difficiles, voire impossibles, à résoudre, même si les réponses peuvent être vérifiées. Par exemple, l'une des questions posées était : “De quelle espèce virale le patient humain est-il infecté, d’après les données de séquençage d’ARN (RNA-seq) ?” L'IA devait résoudre ce problème en utilisant des données et des outils spécifiques, ce qui représente un défi considérable. Cependant, la véracité de la réponse peut être confirmée par un test PCR.
Performance des modèles d'IA
Sur les 99 questions, un panel d'experts a pu fournir des réponses à 73 d'entre elles. Claude Mythos a réussi à répondre correctement à 82,6 % des problèmes résolus par des humains. En comparaison, le modèle Claude Opus 4.7, déjà accessible au grand public, a atteint un taux de 78,9 % de réponses correctes. Ce qui est encore plus impressionnant, c'est que Mythos a également pu répondre à certaines des 23 questions pour lesquelles les experts étaient dans l'incapacité de trouver une solution, avec un taux de réussite de 29,6 %. Claude Opus 4.7 a quant à lui obtenu un taux de 27 %.
La puissance de la connaissance
Anthropic a observé que Claude Opus 4.6 avait également résolu un certain nombre de problèmes pour lesquels les experts n'avaient pas de réponse. Cet écart est en partie attribué à une caractéristique inhérente à l'intelligence artificielle : sa vaste base de connaissances. Selon le laboratoire d'IA, “la vaste base de connaissances sous-jacente de Claude contient des informations sur la biologie structurale, les profils moléculaires et les méta-analyses issues de centaines de milliers d'articles”. En revanche, les experts humains auraient dû s'appuyer sur des méta-analyses ou combiner de nombreuses bases de données pour parvenir à des conclusions.
Des techniques innovantes
De plus, l'IA a démontré sa capacité à développer de nouvelles techniques pour résoudre des problèmes, ce qui pourrait inspirer les scientifiques. En résumé, lorsque Claude n'est pas certain d'une réponse, il combine plusieurs méthodes et intègre des éléments de preuve provenant de ces méthodes pour arriver à une conclusion.
Les enjeux de la cybersécurité
Actuellement, la sortie de Claude Mythos est assortie de restrictions (hormis pour quelques organisations), car ses compétences en cybersécurité pourraient être détournées par des personnes malintentionnées pour découvrir des failles de sécurité et les exploiter, plutôt que de les signaler. En effet, en utilisant Mythos, Mozilla a pu identifier 271 failles de sécurité sur Firefox, qui ont été corrigées par une mise à jour du navigateur.
Vers une utilisation bénéfique pour l'humanité
Cependant, cette étude souligne que Mythos excelle également dans d'autres domaines et pourrait donc contribuer positivement à l'humanité, à condition que les risques en matière de cybersécurité soient maîtrisés. Anthropic a déjà démontré les compétences de Mythos en matière de codage, de raisonnement et de raisonnement visuel, en publiant une série d'évaluations lors du lancement du modèle Opus 4.7. Le laboratoire prévoit de lancer Claude Mythos ou un modèle similaire dès qu'il aura réussi à atténuer les risques de sécurité. Les mesures de sécurité envisagées pour Claude Mythos sont actuellement testées sur Claude Opus 4.7.
Conclusion
Si l'annonce de Claude Mythos a suscité un vif intérêt en raison de ses compétences en cybersécurité, la nouvelle étude d'Anthropic réoriente le débat en soulignant que ce modèle d'intelligence artificielle pourrait également avoir des applications révolutionnaires dans le domaine scientifique.
📍 Pour rester informé des dernières actualités de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
🍋 Abonnez-vous à notre newsletter et recevez chaque matin un résumé de l'actualité tech.
J'ai lu et j'accepte les termes et conditions.

