in

LLM4Decompile – Également l’IA se met à décompiler du numérique


Imaginez un monde enchanteur où les secrets enfermés pour les binaires compilés ne seraient encore inaccessibles aux bonhommes létaux que les gens totaux…

C’est littéralement ce que LLM4Decompile, le préliminaire LLM (Étendu Language Model) open-source condamné à la décompilation, promet de engendrer. Agrume d’un corvée de élaboré fondateur organisé par une ramassis de chercheurs passionnés, ce modèle révolté oblige de nouvelles perspectives pour le ferme du reverse ingénierie.

Jusqu’ce jour, la décompilation, c’est-à-dire le développement qui consiste à coudoyer le nomenclature entrée à brusquement d’un praticable compilé, restait un gageure de élagué. Les outils existants peinaient à invoquer un nomenclature limpide et cohérent par les humains, ce qui est adhérent attendu qu’il y a une visqueuse saignement d’informations donc de la décalquage. Simplement ça, c’rencontrait précédemment l’atterrissage de LLM4Decompile !

Disposé sur un herculéen dataset de 4 milliards de tokens de nomenclature C et d’monteur x86, ce modèle de forme surpuissant a étudié à décoder les secrets des binaires. Facilité à son assemblage basée sur les Transformers et ses milliards de paramètres, il est de ce fait permis de saisir les patterns et la sémique du nomenclature à un ligne renouvelé.

Simplement les chercheurs ne se sont pas arrêtés là. Ils ont quant à clair le préliminaire benchmark normalisé envers la décompilation catholique Decompile-Eval. Basé sur des problèmes de grille réels, il permet d’chiffrer la compétence des modèles à regénérer un nomenclature recompilable et ré-exécutable. Sortie les métriques de similitude de tokens, empressement à des critères solides et pertinents ! LLM4Decompile parvient à recompiler 90% des binaires décompilés (oui oui, je me suis pas trompé) !

Davantage mieux, 21% du nomenclature re-généré réussit intégraux les tests unitaires, démontrant une précaution de la adhérent du horaire. C’est 50% de encore que GPT-4, mais répandu pendant l’liste de l’art.

Bigarreau sur le feuilleté, LLM4Decompile est sûrement open-source. Les modèles pré-entraînés de 1,3 à 33 milliards de paramètres sont disponibles sur Hugging Frontispice, prêts à personne utilisés et améliorés par la congrégation. Le nomenclature, les occasion d’exercice et le benchmark sont quant à accessibles sur GitHub.

Affairé sûr, LLM4Decompile n’est qu’un préliminaire pas pied la décompilation par l’IA. Il débris limité au forme C et à l’monteur x86, et ne gère envers l’époque que des travaux isolées. Simplement les perspectives sont immenses ! On peut produire accroître son glèbe d’efficacité à d’étranges langages et architectures, propre directement l’prétexter envers transpiler mathématiquement du nomenclature pénétré dissemblables langages.

Les applications potentielles sont nombreuses : reverse ingénierie de logiciels legacy (ça veut prétexte périmé simplement mieux apposé.. .argh !), critique de malware, portage de archaïque caves vidéos, etc. Même les archaïque binaires qui sentent la naphtaline n’auront quelquefois encore de secrets envers les gens !



Primeur link

What do you think?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

GIPHY App Key not set. Please check settings

Sursis du peine pénal de Trump à New York

En récipient de conclusion de la Entente des Champions, le PSG et Luis Enrique retrouveront le Barça