

Je sais qu'on rêve tous d'un référentiel unique, avec les 367 items du programme les uns après les autres, avec toutes les informations de chaque items. On passe nos études à compléter nos cours avec des morceaux pioches dans plein de collèges car le même item est abordé 7 fois différement avec plein d'informations complémentaires introuvables ailleurs.
Nous avons débutés il y a quelques mois un experiment de constitution d'un REFERENTIEL UNIQUE R2C COMPLET avec 367 fichiers pdf des 367 items. Chaque pdf contiendra tout le texte de chaque item, trouvé dans l'ensemble des référentiels officiels. Le texte n'est pas altéré.
On a fait un énorme travail de code python sur plusieurs semaines et on a codé un code python très complexe et détaillé je mettrai le code en open source pour ceux qui voudront le consulter.
Avev nos derniers calculs qu'on vous avait présentés sur le groupe entraine ECNI/EDN on avait déterminés un pourcentage
de 5% de rang C réel ajusté sur l'ensemble des collèges r2c donc on a estimés que de toute façon rang c ou non ça tombera il faut s'y faire.
Donc il n'y a aucune différenciation réelle des rangs dans les collèges r2c et il existe un trop grand nombre de discordances de rang pour qu'il soit utilise d'apprendre que les rangs A et B.
En plus de cela on a intégrés dans certains items les questions de fin de collège les concernant et les réponses à ces questions.
Le programme python extrait les pages originales des collèges pour chaque item et les regroupe telles quelles dans un même fichier pdf avec plein de couleurs, d'images de formats de textes différents et surtout de répétitions et reformulations. C'est la raison pour laquelle nous avons fait 2 version du programme complet r2c: une version complète ET une version repetition-less qui est la version complète sur laquelle nous avons appliqués avec le programme python un calque blanc sur les phrases répétées ou reformulées avec un taux de similitude sémantique de plus de 82%.
Cette 2e version du référentiel unique permet de supprimer toutes les répétitions et reformulations ce qui permet de rendre plus digeste la lecture et l'apprentissage des items qui sont abordés plusieurs fois (jusqu'à 7 fois pour certains).
Au moment du post, le dossier du référentiel unique REPETITION-LESS PEUT NE PAS ETRE DISPONIBLE! IL EST EN COURS DE PROCESS ET APPARAITRA SUR LE GOOGLE DRIVE DANS LES PROCHAINS JOURS DONC REVENEZ DESSUS REGULIEREMENT!
Le processing nécessaire pour analyser et supprimer les répétitions et reformulations multiples de tous les items demande énormement de puissance de calcul et donc de temps car le module python est extremement complexe et lourd!
On partagera aussi le code open-source d'autres programmes que l'on a codés qui permettent de faire d'autres référentiels différement (uniquement le texte extrait, uniquement le texte+ les tableaux) mais on ne recommande pas de les utiliser.
Voilà. C'est surement pas l'idéal mais c'est ce qui se rapprochera le plus d'un 'référentiel unique' je pense, il suffira de mettre en page, de nettoyer le texte à votre goût et d'en faire ce que vous voudrez.
PS: NOUS N'AVONS PAS VERIFIES LA QUALITE DES 367 ITEMS ET LE POURCENTAGE D'EXTRACTION PARFAITE DES PAGES DE TOUS LES ITEMS! LE REFERENTIEL N'EST PAS PARFAIT IL PEUT MANQUER DES PAGES A CERTAINS ITEMS! SI DES PAGES MANQUENT DANS UN LONG PDF D'UN ITEM CELA PEUT SIGNIFIER QUE CETTE PAGE ETAIT UNE REPETITION FRANCHE D'UNE AUTRE PAGE DEJA COMPRISE DANS LE PDF ET QU'ELLE A ETE SUPPRIMEE AUTOMATIQUEMENT DU PDF FINAL DE L'ITEM PAR LE PROGRAMME!
Vous pourrez mettre en page comme vous voudrez, imprimer, surligner facilement si vous voulez.
On a fait ce travail sur des mois, j'espère que ça servira au plus grand nombre.
Pour info on a beaucoup utilisés l'IA GPT4( encore une fois) pour nous aider a faire ce code python hyper complexe.
Voici le lien: [Vous devez être Inscrit et Connecté pour voir les liens]