CodeCommons Logo Line
CodeCommons
CodeCommons Logo Line
IA ouverte, responsable et transparente : Notre objectif commun
CodeCommons est un projet ambitieux visant à créer le plus grand bien commun numérique pour le code au monde
Orange Tag

En s'appuyant sur la fondation existante de Software Heritage, la plus grande archive de code source disponible publiquement, CodeCommons vise à rassembler en un seul endroit toutes les informations critiques et qualifiées nécessaires pour créer des ensembles de données plus petits et meilleurs pour la prochaine génération d'outils d'IA.

Au cœur du projet, l'engagement est de garantir la transparence et la traçabilité, permettant aux créateurs de modèles et aux utilisateurs de mieux respecter les droits des créateurs, ouvrant la voie à un avenir de l'IA éthique, souverain et responsable sur le plan environnemental.

Red Tag
Pourquoi CodeCommons ?
Mobile Left Arrow
spa
Durabilité
Minimiser les coûts environnementaux et économiques associés à la collecte répétée de données
Mobile Right Arrow
Notre vision
Ce que nous construisons
  • <1>
    Le plus grand bien commun de code source au monde Enrichi de milliards de fichiers, de données de développement historiques, de métadonnées et de liens contextuels vers la littérature scientifique.
  • <2>
    Une plateforme de données unifiée et évolutive Permettant une sélection et une extraction rapides de sous-ensembles de code spécifiques conçus pour une formation avancée en IA, avec un suivi clair utilisant les Identifiants Software Heritage (SWHIDs).
  • <3>
    Outils pour le développement d'une IA éthique Outils avancés pour garantir la conformité aux lois sur le droit d'auteur, évaluer la qualité du code et améliorer la reproductibilité de l'IA.
  • <4>
    Infrastructure durable Partenariat avec les supercalculateurs GENCI pour permettre la formation à grande échelle des modèles de prochaine génération tout en réduisant l'impact environnemental.
  • <5>
    Principes clairs Pour garantir l'utilisation éthique de l'archive Software Heritage pour la formation en IA, tout modèle d'apprentissage automatique (ML) formé sur notre archive doit être rendu public sous une licence ouverte, accompagné de la documentation et des outils nécessaires. Les données d'entraînement spécifiques doivent être clairement identifiées à l'aide des SWHIDs, permettant l'évaluation des biais, la vérification de l'inclusion des données et l'attribution du code généré. Des mécanismes doivent être en place pour permettre aux auteurs légitimes d'exclure leur code des ensembles d'entraînement.
En février 2024, le projet BigCode a publié StarCoder2, un modèle d'IA ouvert de pointe formé à l'aide des dépôts GitHub archivés dans Software Heritage. Cette publication remarquable prouve qu'il est possible de développer des modèles de haute qualité tout en respectant des principes rigoureux de transparence et d'ouverture.
Façonner l'avenir de l'IA

CodeCommons n'est pas seulement un projet; c'est un mouvement vers un avenir de l'IA éthique, transparent et accessible. Ensemble, nous posons les bases de la prochaine génération d'IA.

Rejoignez-nous

Rejoignez notre communauté et aidez à façonner l'avenir de l'IA : Inscrivez-vous à notre liste de diffusion pour rester informé et connecté.

Ressources
Contact
Des questions sur CodeCommons ?
Partenaires et équipes
Partenaires clés
  • logo_swh_square.png Software Heritage - INRIA

    Archive universelle de code source

  • logo_diverse.png DiverSE - INRIA

    Ingénierie logicielle, code, programmation, langues, gestion de la variabilité logicielle. Évolution logicielle à grande échelle et IA générative pour le développement logiciel

  • logo_almanach.png ALManaCH - INRIA

    Modélisation et analyse linguistique automatique et humanités numériques

  • logo_cedar.jpg CEDAR - INRIA

    Analyse et traitement de données complexes à grande échelle

  • logo_cea.png DILS - CEA

    Ingénierie, logiciels et systèmes

    DIASI - CEA

    Traitement du langage naturel, IA générative

  • logo_tweag.png Tweag - Modus Create

    Apprentissage automatique, modélisation, traitement du langage naturel, calcul distribué

Partenaires supplémentaires
Financé par