Si tu pensais que OpenAI avait tout donné avec o1, accroche-toi.
Ils viennent de dévoiler o3 et o3-mini, deux nouveaux modèles de raisonnement encore plus costauds.
Ils font tout ce que leurs prédécesseurs o1 faisaient déjà – comme raisonner et résoudre des problèmes complexes – et poussent ça encore plus loin.
Verdict : Pas de révolution ici, mais une belle montée en puissance.
On fait le tour de ce que tu dois savoir sur o3 en 5 points.
1. OpenAI zappe o2 : ce que ça cache vraiment
Après o1 qui est désormais accessible en illimité dans l’offre ChatGPT Pro à 200 dollars par mois, on s’attendait à o2, logique non ?
Sauf que non ! OpenAI passe directement à 3.
Pourquoi ?
👉 Parce que o2, c’est le nom d’un opérateur téléphonique au Royaume-Uni, et Sam Altman n’a pas envie de finir au tribunal.
Et voilà comment on passe de o1 à o3 sans transition.
2. o3 en chiffres : des scores qui font tourner la tête
Pour OpenAI o1, o3 c’est un peu le cousin génial qui débarque aux repas de famille et te fait te sentir… pas terrible.
Quelques performances pour te donner une idée :
- Mathématiques : Score de 96,7 % à l’examen AIME 2024. Il cartonne sur les problèmes à étapes multiples. Mais attention : il suffit d’une erreur à une étape et c’est foutu. Comme sur la déclaration d ‘impôts.
- Codage : +22,8 points sur le benchmark SWE-Bench Verified par rapport à o1. o3 débusque et corrige des bugs comme un développeur sous caféine.
- Sciences : Il cartonne sur Frontier Math avec 25 % de problèmes résolus, là où les anciens modèles plafonnaient à… 2 %. o3 peut combiner des concepts compliqués pour résoudre des trucs bien corsés.
En gros, o3 excelle dans les tâches qui demandent de la réflexion et une bonne dose de logique encore plus que o1 : résoudre des énigmes complexes, comprendre des systèmes imbriqués, ou même coder un jeu vidéo.
3. o3 n’est pas encore l’AGI (et voici pourquoi)
Oui, il cartonne au test ARC-AGI avec 87,5 %.
Mais il se plante encore sur des tâches basiques selon François Chollet, le créateur de ce test qui précise qu’un humain “intelligent” atteindrait facilement 95 % sans entraînement.
Et ça je trouve ça vraiment intriguant.
👉 Comment peut-on briller sur les trucs complexes et foirer les évidences ? Mystère.
En gros, o3 est un gros pas en avant, mais pas encore cette fameuse intelligence générale artificielle qui nous fait rêver (ou flipper).
4. o3, une IA plus sûre ?
Avec o3, OpenAI veut éviter les dérapages.
Ils ont introduit une technique appelée alignement délibératif (non, ce n’est pas un cours de yoga).
Ce système pousse o3 à réfléchir sur ses propres décisions pour mieux respecter les règles de sécurité.
👉 Fini (en théorie) les jailbreaks. Plus question de lui demander de “faire semblant ” pour contourner ses limites.
Bon, OK, sur le papier, ça a l’air solide.
Mais soyons réalistes : entre les promesses d’OpenAI et ce que les utilisateurs vont tenter, il y a un monde.
Quoi qu’il en soit, si quelqu’un trouve une faille, on le saura immédiatement. Et c’est justement pour ça qu’ils ont ouvert l’accès aux chercheurs en sécurité pour “tester” la robustesse de leurs joujoux.
Ah et si ça t’intéresse, tu as jusqu’au 10 janvier pour postuler. Il faudra montrer patte blanche : expérience, publications, code sur Github…
5. Sortie de o3 : Ça va coûter probablement cher et il faudra patienter
Tu te demandes quand sort o3, il va falloir patienter.
- o3-mini débarque fin janvier 2025 selon OpenAI.
- La version complète ? “Peu après”. Mais peu, c’est quoi ? Une semaine ? Six mois ? Mystère.
Mais à mon avis, c’est clair que o3 risque de finir dans la nouvelle offre élitiste à 200 dollars par mois lancée récemment. Autant dire que ce ne sera pas pour tout le monde.
Pourquoi ?
👉 Parce que faire tourner o3 coûte un bras : 20 $ par tâche pour une faible puissance de calcul, et jusqu’à plusieurs milliers de dollars pour les configurations les plus complexes.
Mais vu les coûts, ça sent le modèle réservé aux grosses boîtes et aux riches.
Ce qu’il faut savoir d’autres
OpenAI annonce o3 juste un jour après que Google ait dévoilé Gemini 2.0 Flash Thinking, son premier modèle de raisonnement. Et c’est aussi la dernière annonce des “12 days of Shipmas”.
On dirait presque une course aux armements : “Mon IA réfléchit plus vite que la tienne !”
Je dois quand même pointer du doigt un petit détail qui chiffonne : Altman nous parlait il y a peu de la nécessité d’un cadre fédéral pour encadrer ces modèles avant leur sortie. Et maintenant ? On dirait que l’envie d’être le premier a pris le dessus sur la prudence.
👉 On avance vers des IA qui “pensent” de mieux en mieux, mais
Mais entre nous, est-ce qu’on est prêts pour une IA qui réfléchit mieux que nous ? Sommes-nous prêts à les intégrer dans nos vies ? À méditer…