Mais avec la sortie à Noël d’un modèle d’intelligence artificielle « révolutionnaire » de la start-up chinoise DeepSeek fondé par le gérant de hedge fund Liang Wenfeng, l’écart entre les deux pays se réduit dangereusement, a déclaré Wang dans une interview accordée à CNBC le 23 janvier 2025.
En effet, plus tôt cette semaine, DeepSeek a publié un deuxième modèle d’intelligence artificielle (IA) qui démontre des capacités de raisonnement rivalisant avec celles des grandes entreprises américaines comme OpenAI.
En plus d’impressionner les chercheurs par ses performances, les progrès rapides de la start-up chinoise ont soulevé des questions sur l’efficacité des contrôles à l’exportation des puces d’IA destinés à limiter l’accès de la Chine aux unités de traitement graphique avancées (GPU) qui sous-tendent les outils d’IA.
Scale AI s’est également récemment associé au Center for AI Safety pour lancer « Humanity’s Last Exam », qu’ils décrivent comme le test de référence le plus difficile à ce jour pour les systèmes d’IA. Bien qu’aucun modèle n’ait réussi à obtenir plus de 10 % au test jusqu’à présent, Wang a déclaré que le nouveau modèle de raisonnement de DeepSeek, DeepSeek-R1, était en tête du classement. « Leur modèle est en fait le plus performant, ou à peu près au même niveau que les meilleurs modèles américains », a-t-il déclaré à CNBC.
DeepSeek affirme que R1 est proche ou meilleur que les modèles concurrents dans plusieurs tests de référence de premier plan tels que AIME 2024 pour les tâches mathématiques, MMLU pour les connaissances générales et AlpacaEval 2.0 pour les performances aux questions-réponses. Il se classe également parmi les meilleurs sur un classement affilié à l’UC Berkeley appelé Chatbot Arena.
Ces réalisations couvrent divers domaines de référence, notamment la résolution de problèmes complexes, les mathématiques et le codage, positionnant DeepSeek comme un acteur clé sur la scène mondiale de l’IA.
Sauf que DeepSeek n’est pas un cas isolé. Depuis le milieu de l’année dernière, les entreprises technologiques chinoises telles qu’Alibaba, Tencent, ByteDance, Moonshot et 01.ai ont progressivement réduit l’écart avec leurs homologues américaines, en égalant leurs capacités et en les surpassant en termes de rentabilité.
De fait, DeepSeek n’est pas le seul à s’implanter en Chine. ByteDance prévoit de dépenser plus de 12 milliards de dollars en infrastructures d’IA aux États-Unis cette année, dans le cadre d’ un investissement plus important de 20 milliards de dollars , dont la moitié sera consacrée aux centres de données et aux équipements.
Huawei se positionne également comme un acteur clé , compte tenu du défi que représente l’obtention de la technologie Nvidia et des nouvelles restrictions américaines. Il y a aussi le nouveau fonds d’investissement chinois dans l’IA, doté de 8 milliards de dollars de capital initial , dans le but de soutenir le pays après le renforcement des contrôles à l’exportation des semi-conducteurs avancés et d’autres technologies par les États-Unis.
Les progrès réalisés par la Chine en matière d’efficacité énergétique ne sont pas le fruit du hasard. Ils sont une réponse directe aux restrictions d’exportation de plus en plus strictes imposées par les États-Unis et leurs alliés. En limitant l’accès de la Chine aux puces d’intelligence artificielle avancées, les États-Unis ont par inadvertance stimulé son innovation.
Pour réduire leur dépendance aux puces haut de gamme étrangères, les entreprises chinoises d’IA ont expérimenté de nouvelles approches en matière d’algorithmes, d’architecture et de stratégies de formation.
Nombre d’entre elles ont adopté une approche « mixte d’experts », en se concentrant sur des modèles d’IA plus petits, formés à partir de données spécifiques. Ces modèles peuvent fournir des résultats puissants tout en réduisant les ressources informatiques.
DeepSeek-V3 incarne le succès de cette approche ingénieuse. Selon son rapport technique, le modèle a été entraîné à l’aide d’un centre de données alimenté par des GPU Nvidia H800, une puce moins avancée que les dernières versions de Nvidia.
Cependant, le PDG de Scale AI, Alexandr Wang, affirme que DeepSeek déforme ses affirmations selon lesquelles il n’utilise que 2 048 GPU Nvidia ; il a déclaré que le nombre est d’environ 50 000. Il explique que la principale raison pour laquelle ils agissent ainsi est qu’ils ne veulent pas admettre qu’ils obtiennent les puces malgré la restriction américaine.
Bien que personne ne puisse vraiment le savoir avec certitude sur la base du document technique qu’ils ont publié sur leurs derniers modèles, V3 et R1, il semble plausible qu’ils aient considérablement réduit le besoin de calcul d’entraînement.
Par ailleurs, de nombreux observateurs chinois ont salué DeepSeek-R1 comme un triomphe national et un paradigme de l’innovation chinoise. En effet, les chercheurs et ingénieurs chinois excellent dans la réalisation d’objectifs ambitieux de manière efficace et rentable, en innovant souvent dans des méthodes techniques malgré des contraintes de ressources.
La dépendance minimale de DeepSeek-V3 à l’égard du calcul haute performance, son approche systématique de la formation et de l’inférence et ses solutions techniques innovantes reflètent l’état d’esprit technique qui caractérise les entreprises, les équipes et les chercheurs chinois.
En outre, la dernière version de DeepSeek a terminé sa formation en seulement deux mois pour un coût de 5,5 millions de dollars, une fraction des sommes dépensées par des entreprises américaines comme OpenAI.
De fait, DeepSeek a affirmé avoir utilisé seulement 2 048 Nvidia H800 et 5,6 millions de dollars pour former un modèle avec 671 milliards de paramètres, soit environ 1,6 fois la taille du Llama 3.1, considéré comme le meilleur modèle open source américain. Ainsi l’entreprise a dépensé une fraction de ce qu’OpenAI et Google ont dépensé pour former des modèles de taille comparable.
Les plus grandes entreprises d’intelligence artificielle du monde entraînent leurs chatbots à l’aide de supercalculateurs qui utilisent jusqu’à 16 000 puces, voire plus. Les ingénieurs de DeepSeek, de leur côté, ont déclaré qu’ils n’avaient besoin que d’environ 2 000 puces informatiques spécialisées de Nvidia.
Ainsi, la façon la plus simple de comprendre ces changements est de dire que DeepSeek a pris le modèle de frontière d’OpenAI et l’a utilisé comme enseignant pour son modèle. Avec cela, ils ont distillé le modèle en un modèle plus petit tout en conservant presque toutes ses performances intactes. Comme le modèle est plus petit et grâce à d’autres innovations, ils ont considérablement réduit le coût de sa formation et de son fonctionnement.
L’une de leurs innovations importantes concernait l’attention latente multi-têtes (MLA). Plus précisément, ils se sont concentrés sur les aspects d’équilibrage de charge. Pour le dire de la manière la plus simple, l’essentiel est que le modèle n’a pas toujours besoin de stocker tous les paramètres dont il dispose, mais se concentre uniquement sur les plus importants.
Ils ont fait cela sans aucune dégradation des performances qui accompagne généralement l’équilibrage de charge. Ils acheminent essentiellement les demandes d’inférence vers un modèle plus petit, le plus à même de répondre à la requête ou de résoudre la tâche.
Considérez-le comme ayant plusieurs « têtes d’attention » qui peuvent se concentrer sur différentes parties des données d’entrée, permettant au modèle de capturer une compréhension plus complète des informations. Ce mécanisme d’attention amélioré contribue aux performances impressionnantes de DeepSeek-V3 sur divers tests.
En outre, Les modèles de DeepSeek utilisent une architecture MoE, activant seulement une petite fraction de leurs paramètres pour une tâche donnée. Cette
Cette activation sélective réduit considérablement les coûts de calcul et améliore l’efficacité. Imaginez une équipe d’experts, chacun spécialisé dans un domaine différent. Face à une tâche, seuls les experts concernés sont sollicités, garantissant une utilisation efficace des ressources et de l’expertise. L’architecture MoE de DeepSeek fonctionne de manière similaire, activant uniquement les paramètres nécessaires pour chaque tâche, ce qui entraîne des économies de coûts importantes et une amélioration des performances.
En plus de cela, avec la sortie complète de R1 lundi et le document technique qui l’accompagne , la société a révélé une innovation surprenante : un écart délibéré par rapport au processus conventionnel de réglage fin supervisé (SFT) largement utilisé dans la formation de grands modèles linguistiques (LLM).
La SFT, une étape standard du développement de l’IA, consiste à entraîner des modèles sur des ensembles de données organisés pour enseigner le raisonnement étape par étape, souvent appelé chaîne de pensée (CoT). Elle est considérée comme essentielle pour améliorer les capacités de raisonnement.
Cependant, DeepSeek a remis en question cette hypothèse en ignorant complètement la SFT, choisissant plutôt de s’appuyer sur l’apprentissage par renforcement (RL) pour entraîner le modèle.
Surnommée « DeepSeek-R1-Zero », cette première version du modèle a appris le raisonnement par chaîne de pensée uniquement à partir de retours d’information par essais et erreurs, sans aucune instruction supervisée pour la guider. En poussant le modèle à résoudre des tâches toujours plus complexes, le RL a inculqué des capacités telles que l’autoréflexion et la vérification.
L’inconvénient ? Le résultat manquait de finition : DeepSeek-R1-Zero était sujet à la répétition, à un mélange étrange de langues et à un texte peu maniable.
Pour l’affiner, l’équipe a superposé un processus en plusieurs étapes combinant le RL avec un réglage fin supervisé traditionnel. Le R1 qui en résulte est un système qui non seulement correspond au produit phare d’OpenAI en matière de références mathématiques, de codage et de logique, mais fournit également des résultats à une fraction du coût.
Cette démarche audacieuse a obligé DeepSeek-R1 à développer des capacités de raisonnement indépendantes, évitant la fragilité souvent introduite par les ensembles de données prescriptifs. Bien que certaines failles apparaissent, conduisant l’équipe à réintroduire une quantité limitée de SFT lors des dernières étapes de construction du modèle, les résultats ont confirmé une avancée fondamentale : l’apprentissage par renforcement à lui seul pourrait générer des gains de performances substantiels.
Cette approche a donné lieu à un phénomène inattendu : le modèle a commencé à allouer du temps de traitement supplémentaire à des problèmes plus complexes, démontrant ainsi sa capacité à hiérarchiser les tâches en fonction de leur difficulté. Les chercheurs de DeepSeek ont décrit ce phénomène comme un « moment d’éveil », au cours duquel le modèle lui-même a identifié et formulé de nouvelles solutions à des problèmes complexes.
Cette étape importante a souligné la puissance de l’apprentissage par renforcement pour débloquer des capacités de raisonnement avancées sans avoir recours à des méthodes d’entraînement traditionnelles comme la SFT.
En substance, les modèles de DeepSeek apprennent en interagissant avec leur environnement et en recevant des commentaires sur leurs actions, de la même manière que les humains apprennent par l’expérience. Cela leur permet de développer des capacités de raisonnement plus sophistiquées et de s’adapter plus efficacement à de nouvelles situations et également de fortement réduire les coûts.
Enfin, DeepSeek utilise des techniques de distillation pour transférer les connaissances et les capacités de modèles plus grands vers des modèles plus petits et plus efficaces. Cela rend l’IA puissante accessible à un plus large éventail d’utilisateurs et d’appareils. C’est comme si un enseignant transférait ses connaissances à un élève, ce qui lui permet d’effectuer des tâches avec une compétence similaire mais avec moins d’expérience ou de ressources.
Le processus de distillation de DeepSeek permet aux modèles plus petits d’hériter des capacités avancées de raisonnement et de traitement du langage de leurs homologues plus grands, ce qui les rend plus polyvalents et accessibles.
Ces techniques innovantes, combinées à l’accent mis par DeepSeek sur l’efficacité et la collaboration open source, ont positionné l’entreprise comme une force disruptive dans le paysage de l’IA.
En raison de ces changements, l’API de DeepSeek, comme l’ont rapporté certains utilisateurs, est 95 % moins chère par jeton que le modèle o1 d’OpenAI tout en ayant des performances similaires. Le modèle DeepSeek est censé être 45 fois plus efficace côté formation que les autres modèles.
Qui plus est, certaines entreprises chinoises d’intelligence artificielle sont en mesure d’exploiter la puissance de calcul des puces avancées de Nvidia via des serveurs cloud basés dans d’autres pays.
Alternativement, ils peuvent simplement acheter plus de semi-conducteurs moins avancés de Nvidia ou les utiliser plus efficacement à l’aide d’un logiciel intelligent. Pour continuer à servir le vaste marché chinois, Nvidia a conçu des processeurs moins puissants, et conformes aux sanctions. Ceux-ci sont entre 10% et 30% plus lents que son kit haut de gamme, et finissent par être plus coûteux pour les clients chinois par unité de puissance de traitement. Mais ils effectuent le travail.
De plus, la Chine pourrait en partie remédier à la pénurie de puces, et de puissance cérébrale, à l’aide de modèles « open source ». Le fonctionnement interne de ces modèles peut être téléchargé par n’importe qui et adapté à une tâche spécifique.
Les laboratoires d’IA chinois pourraient également se prévaloir de modèles open source, qui incarnent la sagesse collective des équipes de recherche internationales. Matt Sheehan du Carnegie Endowment for International Peace, un think thank américain, affirme que la Chine a la forme d’être un « suiveur rapide », ses laboratoires ont absorbé les avancées de l’étranger, puis les ont rapidement incorporées dans leurs propres modèles, souvent avec des ressources d’État abondantes.
Ainsi, il n’y a aucune indication que les restrictions imposées par l’administration Biden sur les puces haut de gamme, ainsi que sur les logiciels et les machines nécessaires à leur fabrication, aient ralenti l’ascension de la Chine dans ce qu’on appelle la quatrième révolution industrielle, c’est-à-dire l’application de l’intelligence artificielle à des secteurs tels que l’industrie manufacturière, l’exploitation minière, l’agriculture et la logistique.
Bien que le contexte de la guerre technologique complique l’évaluation précise des progrès de la Chine, les informations disponibles suggèrent que la Chine fait des avancées à une vitesse inégalée dans ses efforts pour contourner les restrictions technologiques.
Alors, les analystes occidentaux ont surestimé l’impact des contrôles technologiques sur la Chine tout en sous-estimant la capacité de la Chine à les contourner.
Par conséquent, DeepSeek remet en cause l’idée largement répandue selon laquelle l’IA de pointe nécessite une énorme puissance de calcul et plusieurs milliards de dollars. DeepSeek démontre comment l’ingéniosité logicielle peut compenser les contraintes matérielles, et met également en évidence les limites des contrôles à l’exportation américains destinés à ralentir les progrès de la Chine en matière d’intelligence artificielle.
Si ces mesures peuvent entraîner des perturbations à court terme, leur impact diminue au fil du temps, à mesure que la Chine innove pour s’adapter.
Les restrictions américaines sur l’IA ont eu pour effet d’inciter le secteur privé chinois à prendre le relais au secteur public. Et si les États-Unis dominent souvent la recherche de pointe, les entreprises chinoises excellent dans l’exécution, l’accessibilité et la diffusion des produits. Dans le commerce électronique, les véhicules électriques, les panneaux solaires et les batteries, elles ont démontré une capacité impressionnante à évoluer.
Selon les experts du secteur, la concentration de DeepSeek sur la recherche en fait un concurrent dangereux, car l’entreprise préfère partager ses découvertes plutôt que de les protéger pour des gains commerciaux. DeepSeek n’a pas levé de fonds auprès de fonds extérieurs ni pris de mesures significatives pour monétiser ses modèles.
Prenant une voie différente de nombreuses entreprises américaines qui protègent étroitement leurs modèles d’IA, DeepSeek a adopté une stratégie open source, partageant ouvertement son code et ses méthodologies de formation.
Cette approche pourrait accélérer l’innovation et élargir son adoption à l’échelle mondiale, ce qui pourrait réduire l’avantage concurrentiel des entreprises américaines qui dépendent de systèmes propriétaires tels que GPT-4 d’OpenAI ou Bard de Google. Yann LeCun, responsable scientifique en IA chez Meta, a fait remarquer que le succès de DeepSeek souligne le potentiel des modèles open source à surpasser les modèles propriétaires.
Par conséquent, il s’agit là d’un choc majeur pour les fournisseurs de modèles LLM, en particulier les fournisseurs fermés dont l’activité repose (du moins jusqu’à présent) sur la vente d’accès aux modèles LLM les plus performants, tels qu’OpenAI et Anthropic. Le problème est d’autant plus grand que DeepSeek est un modèle open source que tout le monde peut utiliser.
Cela signifie également qu’ils devront aller encore plus vite avec l’innovation et des modèles plus récents, ce qui met la course à l’IA déjà rapide à une autre vitesse car il est clair que la communauté open source va maintenant recevoir un autre coup de pouce en jouant avec le modèle de DeepSeek, de la même manière que Llama open source de Meta a ouvert les vannes de l’open source.
De fait, la communauté open source reste l’espace le plus dynamique, le plus complet, le plus libre et le plus sans frontières en matière de recherche, de partage et de discussion universitaires dans le domaine de l’IA, et l’arène la moins compétitive en interne. L’engagement de DeepSeek en faveur de l’open source dès le premier jour a probablement été soigneusement réfléchi.
Son approche open source est complète, couvrant les pondérations des modèles, les ensembles de données et les méthodes de pré-formation, avec des articles de haute qualité comme partie intégrante. Les jeunes chercheurs brillants gagnent en visibilité grâce à leurs apparitions dans la communauté open source, à leurs partages et à leur engagement. Leur public comprend certains des moteurs les plus influents de l’IA mondiale.
Cette combinaison, jeunes chercheurs intelligents en IA + atmosphère d’institution de recherche (avec de grands packages technologiques) + partage et échange communautaires open source, a élevé l’influence et le prestige de DeepSeek dans le domaine de l’IA à l’échelle mondiale.
Pour une organisation principalement axée sur les résultats de recherche en IA plutôt que sur les produits commerciaux, Hugging Face et Reddit constituent les meilleurs lieux de lancement, les ensembles de données et les référentiels de code constituent les meilleures démonstrations et les articles constituent les meilleurs communiqués de presse.
Dans le même temps, ce modèle open source permet à OpenAI, Anthropic et d’autres d’adopter les innovations qu’ils ont apportées et de les utiliser dans leurs futurs modèles.
En plus de privilégier l’efficacité, les entreprises chinoises adoptent de plus en plus les principes de l’open source. Alibaba Cloud a publié plus de 100 nouveaux modèles d’IA open source, prenant en charge 29 langages et répondant à diverses applications, notamment le codage et les mathématiques. De même, des startups comme Minimax et 01.AI ont ouvert leurs modèles en open source.
« DeepSeek fonctionne comme à ses débuts DeepMind », a déclaré un investisseur en IA à Pékin. « Il est entièrement axé sur la recherche et l’ingénierie. » Liang, qui participe personnellement aux recherches de DeepSeek, utilise les bénéfices de ses opérations sur fonds spéculatifs pour payer les meilleurs salaires aux meilleurs talents en IA. Avec ByteDance, propriétaire de TikTok, DeepSeek est connu pour offrir la rémunération la plus élevée disponible pour les ingénieurs en IA en Chine, avec du personnel basé dans des bureaux à Hangzhou et à Pékin.
Liang a présenté DeepSeek comme une entreprise « locale » unique, composée de titulaires d’un doctorat issus des meilleures écoles chinoises, des universités de Pékin, de Tsinghua et de Beihang plutôt que d’experts issus d’institutions américaines.
Dans une interview accordée à la presse nationale l’année dernière, il a déclaré que son équipe principale « n’était pas composée de personnes revenues de l’étranger. Ils sont tous locaux… Nous devons former les meilleurs talents nous-mêmes ». L’identité de DeepSeek en tant que société de LLM purement chinoise lui a valu des éloges dans son pays.
Ritwik Gupta, chercheur en politique d’IA à l’Université de Californie à Berkeley, a déclaré que la Chine disposait d’un vivier d’ingénieurs systèmes beaucoup plus important que les États-Unis, qui savent comment tirer le meilleur parti des ressources informatiques pour former et exécuter des modèles à moindre coût.
Toutefois, les initiés du secteur affirment que même si DeepSeek a montré des résultats impressionnants avec des ressources limitées, la question de savoir si l’entreprise peut continuer à être compétitive à mesure que le secteur évolue.
D’ailleurs dans une interview accordée au média chinois 36Kr en juillet 2024, Liang a déclaré qu’un autre défi auquel les entreprises chinoises sont confrontées en plus des sanctions sur les puces électroniques est que leurs techniques d’ingénierie de l’IA ont tendance à être moins efficaces. « Nous [la plupart des entreprises chinoises] devons consommer deux fois plus de puissance de calcul pour obtenir les mêmes résultats. Si l’on ajoute à cela les écarts d’efficacité des données, cela pourrait signifier que nous avons besoin de jusqu’à quatre fois plus de puissance de calcul. Notre objectif est de combler en permanence ces écarts », a-t-il déclaré.
Dans tous les cas, DeepSeek prouve que les grands acteurs américains ne sont pas les seuls à pouvoir jouer dans la cour de l’IA générative. D’autres acteurs chinois ont accéléré ces derniers mois comme les start-up 01.AI ou Moonshot AI mais aussi les géants du pays dont Baidu, Alibaba et Tencent.
Alibaba a développé des modèles open source et un robot conversationnel (tous baptisés Qwen) qui sont salués par l’écosystème IA. Il y a quelques semaines, Alibaba Cloud a annoncé une baisse de 85 % du prix d’un de ses modèles, une nouvelle preuve que les entreprises chinoises de la tech ne comptent pas rester sans rien faire face aux Américains. Alibaba pourrait bien faire de nouvelles annonces à l’approche du nouvel an chinois (le 29 janvier), selon plusieurs experts.
En outre, selon un livre blanc publié l’année dernière par l’Académie chinoise des technologies de l’information et de la communication, un institut de recherche affilié à l’État, le nombre de grands modèles linguistiques d’IA dans le monde a atteint 1 328, dont 36 % proviennent de Chine. Cela place la Chine au deuxième rang des plus grands contributeurs à l’IA, derrière les États-Unis.
Il convient de noter qu’au cours de l’année écoulée, les grands modèles open source chinois ont acquis une grande renommée dans la recherche et les produits mondiaux en matière d’IA. On a de plus en plus l’impression que les grands modèles open source chinois sont plus complètement ouverts que certains homologues américains et européens, ce qui les rend plus accessibles aux chercheurs et aux développeurs pour étudier ou optimiser leurs propres modèles.
DeepSeek en est un exemple, tout comme Qwen d’Alibaba, largement considéré comme véritablement open source. Le petit modèle Mini-CPM-Llama3-V2.5 de Mianbi a même gagné une popularité inattendue après avoir été directement adapté par une équipe de premier cycle de Stanford.
Le succès de DeepSeek ne repose pas uniquement sur ses efforts internes. L’entreprise a également noué des partenariats stratégiques pour améliorer ses capacités technologiques et sa portée commerciale. L’une de ses collaborations notables est celle avec AMD , l’un des principaux fournisseurs de solutions de calcul haute performance. DeepSeek s’appuie sur les GPU AMD Instinct et le logiciel ROCM à travers les étapes clés du développement de son modèle, en particulier pour DeepSeek-V3. Ce partenariat permet à DeepSeek d’accéder à du matériel de pointe et à une pile logicielle ouverte, optimisant les performances et l’évolutivité.
Si l’innovation de DeepSeek est révolutionnaire, elle n’a en aucun cas établi une position dominante sur le marché. Comme l’entreprise a publié ses recherches, d’autres entreprises modèles en tireront des leçons et s’adapteront. Meta et Mistral, l’entreprise open source française modèle, sont peut-être un peu en retard, mais il ne leur faudra probablement que quelques mois pour les rattraper.
Comme l’a déclaré Yann Lecun, chercheur principal de Meta : « L’idée est que tout le monde profite des idées des autres. Personne ne « devance » quelqu’un d’autre et aucun pays ne « perd » face à un autre. Personne n’a le monopole des bonnes idées. Tout le monde apprend de tout le monde. » C’est donc l’exécution qui compte.
En fin de compte, ce sont les consommateurs, les startups et les autres utilisateurs qui en sortiront le plus grand profit, car les offres de DeepSeek continueront de faire baisser le prix d’utilisation de ces modèles à un niveau proche de zéro (encore une fois, en dehors du coût d’exécution des modèles au moment de l’inférence).
Cette banalisation rapide pourrait poser des problèmes, voire des souffrances considérables, aux principaux fournisseurs d’IA qui ont investi massivement dans des infrastructures propriétaires. Comme l’ont souligné de nombreux commentateurs, notamment Chamath Palihapitiya, investisseur et ancien dirigeant de Meta, cela pourrait signifier que des années d’OpEx et de CapEx d’OpenAI et d’autres seront gaspillées .
« Cette génération de jeunes chercheurs chinois s’identifie fortement à la culture open source car ils en bénéficient énormément », explique Thomas Qitong Cao, professeur adjoint de politique technologique à l’université Tufts.
« Le contrôle des exportations par les États-Unis a essentiellement acculé les entreprises chinoises dans une situation où elles doivent être beaucoup plus efficaces avec leurs ressources informatiques limitées », explique Matt Sheehan, chercheur en intelligence artificielle au Carnegie Endowment for International Peace. « Nous allons probablement assister à de nombreuses consolidations à l’avenir liées au manque de ressources informatiques. »
Cela a peut-être déjà commencé à se produire. Il y a deux semaines, Alibaba Cloud a annoncé un partenariat avec la start-up pékinoise 01.AI, fondée par Kai-Fu Lee, pour fusionner des équipes de recherche et créer un « laboratoire de modélisation industrielle à grande échelle ».
Enfin, si des modèles d’IA « suffisamment bons » peuvent être entraînés à moindre coût, leur prolifération deviendra inévitable, d’autant plus que de nombreux pays souhaitent désespérément développer leurs propres modèles. De plus, un coût élevé par requête pourrait également inciter à la création de modèles spécialisés, conçus pour offrir des réponses efficaces et précises tout en minimisant le nombre de requêtes nécessaires.
L’autre conséquence de la percée chinoise est que les États-Unis font face à une concurrence asymétrique. Il est désormais évident que la Chine innove pour contourner des obstacles comme le manque des meilleures puces, que ce soit en améliorant l’efficacité ou en compensant l’absence de matériel de haute qualité par une plus grande quantité.
Les puces produites en Chine progressent, y compris celles conçues par Huawei, une entreprise technologique qui, il y a une génération, a réussi à imposer son matériel télécom en adoptant une approche simple et économique.
Si la Chine reste proche de la frontière technologique, elle pourrait être la première à franchir le cap de la superintelligence. Si cela se produit, elle pourrait obtenir bien plus qu’un simple avantage militaire. Dans un scénario de superintelligence, des dynamiques où « le gagnant rafle tout » pourraient brusquement s’imposer.
Même si l’industrie reste sur sa trajectoire actuelle, l’adoption massive de l’IA chinoise à travers le monde pourrait conférer au Parti communiste chinois une influence politique considérable.
Que devrait faire M. Trump ? Son annonce sur les infrastructures était un bon début. Les États-Unis doivent lever les obstacles juridiques à la construction de centres de données. Ils devraient également faciliter l’embauche d’ingénieurs étrangers et réformer les procédures d’achat pour la défense afin de favoriser l’adoption rapide de l’IA.
En tout cas, le triomphe de DeepSeek marque un tournant important, qui annonce une évolution mondiale vers une innovation en matière d’IA rentable et ingénieuse. À mesure que les barrières à l’entrée s’abaissent, le paysage de l’IA devrait voir un afflux de startups modérément financées s’appuyant sur des technologies open source et des techniques novatrices pour perturber le marché. Cette démocratisation pourrait catalyser une nouvelle vague de créativité et de concurrence, redéfinissant les possibilités de développement de l’IA.
Les implications vont au-delà de la Chine et de la Silicon Valley. L’émergence de DeepSeek démontre que l’innovation de classe mondiale ne se limite plus à quelques régions ou entreprises. Elle sert de signal d’alarme pour le secteur, soulignant l’importance de la collaboration, de l’efficacité et de l’adaptabilité pour rester en tête dans un secteur de plus en plus concurrentiel.