in

Le son des images #IA


Des chercheurs de l’Lycée du Michigan ont mis au bilan une produire foncièrement insensé qui permet de enfanter des spectrogrammes tenant l’amble d’images capables de invoquer des sons qui à elles correspondent lorsqu’ils sont écoutés. Ils appellent ceci des « images qui sonnent ».

À eux comparable est faible et fonctionne hormis imitation défini. Sézig s’affluence sur des modèles de décompression text-to-image et text-to-spectrogram pré-entraînés, actif parmi un étendue inexprimé partagé. Pendant le marche de postérité, les un duo de modèles « débruitent » des latents partagés de dévié simultanée, guidés par un duo de textes décrivant l’apollon et le son désirés.

Le prise est bluffant ! Ça présenté des spectrogrammes qui, vus comment des images, ressemblent à un enceinte pile des tours, et écoutés comment des sons, font cousiner des cloches. Ou des tigres lequel les rayures cachent les motifs sonores de à eux rugissements.

Verso confronter à elles bidouille, les chercheurs ont assidu des métriques quantitatives comment CLIP et CLAP, par conséquent que des oeuvres de encaissement terrienne. À eux sélection dépasse les approches alternatives et génère des échantillons qui collent adroitement aux prompts tels parmi les un duo de occasion. Ils montrent de la sorte que colorer les spectrogrammes présenté des images puis agréables à l’œil, totalité en préservant l’audio.

Cette performance révèle qu’il existe une carrefour parmi la vente des images et icelle des spectrogrammes audio et en ressentiment de à eux différences, ils partagent des caractéristiques bas ligne comment les contours, les courbes et les coins. Ceci permet de associer de manière inattendue des éléments visuels ET acoustiques, comment une file qui numéroté à la jour l’affrontement d’un son de bourdon et le périphérie d’un boiter.

Les auteurs y voient une langue afin la postérité multimodale par caractère et une neuve figure d’énoncé harmonieux audio-visuelle. Une type de stéganographie qui cacherait des images parmi une allée son, dévoilées strictement lorsqu’elles-mêmes sont transformées en spectrogramme.

Verso reconstituer cette sélection dans vous-même, il « suffit » d’acheminer sur le Github du brouillon et de parrainer les instructions techniques.

Prélude



Prélude link

What do you think?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

GIPHY App Key not set. Please check settings

En Iran, le avoisinant directeur sera-t-il un “auxiliaire Raïssi” ?

Derrière la Russie, les Taliban afghans parfois fréquentables ?