La monitoire visuelle aux questions (VQA) est une tâche d’expérience procédural qui nécessite qu’un modèle réponde à une complication sur une poétique ou un assortiment d’images. Les approches VQA conventionnelles nécessitent une longue collection de moment d’engrenage étiquetées composées de milliers de paires de questions-réponses annotées par l’type associées à des images. Ces dernières années, les avance de la pré-formation à longue marche ont tuyau au progression de méthodes VQA qui fonctionnent entreprenant pile moins de cinquante exemples de troupe (peu de tirs) et sinon aucune révélation de troupe VQA annotée par l’type (zero-shot). Tandis, il existe principalement un tournant de performances appréciable imprégné ces méthodes et les méthodes VQA généralement supervisées de fichu, équivalentes que MaMMUT et VinVL. En inaccoutumé, les méthodes à nombreux viol ont du mal pile le maïeutique interstellaire, le dénombrement et le maïeutique multi-sauts. De avec, les méthodes à nombreux prises de vue se limitent habituellement à alléguer à des questions sur des images spécifiques.

Pile bonifier la dépouillement des exemples VQA qui impliquent un maïeutique incommode, à cause “Modular Visual Tourment Answering via Légalité Generation”, à présenter à ACL 2023, certains introduisons CodeVQA, un adapté qui répond aux questions visuelles à l’possédant de la argumentation de planning. Encore expressément, lorsqu’on lui hypocrisie une complication sur une poétique ou un assortiment d’images, CodeVQA génère un planning Anaconda (thesaurus) pile des charges visuelles bonhommes qui lui permettent de négocier des images, et exécute ce planning à cause décider la monitoire. Nous-mêmes démontrons que à cause le adapté de nombreux prises de vue, CodeVQA pourboire les devoirs antérieurs d’vers 3 % sur l’assortiment de moment COVR et de 2 % sur l’assortiment de moment GQA.

CodeVQA

L’rejoint CodeVQA utilise un patricien modèle de plume d’graphisme de thesaurus (LLM), tel que PALM, à cause foisonner des programmes Anaconda (thesaurus). Nous-mêmes guidons le LLM à cause exciper conformément les charges visuelles en fondamental une appel affectée d’une narration de ces charges et de moins de quinze exemples “en entourage” de questions visuelles associées au thesaurus Anaconda assistant. Pile élire ces exemples, certains calculons les plongements de la complication d’accueil et de toutes les questions à cause lerche certains avons des programmes annotés (un assortiment de cinquante choisis au circonstance). Ultérieurement, certains sélectionnons les questions qui présentent la avec longue proximité pile l’accueil et les utilisons pendant exemples contextuels. Vivant donné l’appel et la complication duquel certains voulons alléguer, le LLM génère un planning Anaconda envoyé cette complication.

Nous-mêmes instancions le framework CodeVQA à l’possédant de triade charges visuelles : (1) query(2) get_poset (3) find_matching_image.

  • Query, qui répond à une complication sur une personnelle poétique, est implémenté à l’possédant de la procédure Plug-and-Play VQA (PnP-VQA) à changées prises de vue. PnP-VQA génère des sous-titres à l’possédant de BLIP – un modificateur de sous-titrage d’poétique pré-formé sur des millions de paires de sous-titres d’poétique – et les alimente à cause un LLM qui génère les réponses à la complication.
  • Get_pos, qui est un localisateur d’ustensile qui prend une narration d’un ustensile en accueil et renvoie sa secteur à cause l’poétique, est implémenté à l’possédant de GradCAM. Encore expressément, la narration et l’poétique passent par l’encodeur texte-image homme BLIP, qui fiancé un résultat de accord image-texte. GradCAM prend le gradient de ce résultat au sujet de aux caractéristiques de l’poétique à cause percevoir la land la avec raisonnable à cause le législation.
  • Find_matching_image, qui est appliqué à cause les questions multi-images à cause percevoir l’poétique qui correspond le principalement à une locution d’accueil révélation, est implémenté en utilisant des encodeurs de législation et d’poétique BLIP à cause numéroter une implication de législation à cause la locution et une implication d’poétique à cause quelque poétique. Ultérieurement, les produits scalaires de l’implication de législation pile quelque implication d’poétique représentent la authenticité de quelque poétique au sujet de à la locution, et certains choisissons l’poétique qui maximise cette authenticité.

Les triade charges peuvent nature jeux en œuvre à l’possédant de modèles nécessitant extrêmement peu d’annotations (par idée, des paires législation et image-texte collectées sur le Web et un collant presse d’exemples VQA). En affecté, le adapté CodeVQA peut nature généralement étendu au-delà de ces charges à d’discordantes qu’un usager pourrait installer en œuvre (par idée, la découverte d’objets, la fractionnement d’images ou la reprise de la carcasse de connaissances).

Immortalité de la procédure CodeVQA. Totalité d’dehors, un patricien modèle de plume génère un planning Anaconda (thesaurus), qui invoque des charges visuelles qui représentent la complication. Entre cet idée, une procédure VQA faible (query) est appliqué à cause alléguer à une concours de la complication, et un localisateur d’ustensile (get_pos) est appliqué à cause percevoir les positions des objets mentionnés. Ultérieurement, le planning suite une monitoire à la complication simple en combinant les sorties de ces charges.

Résultats

Le framework CodeVQA génère et exécute conformément les programmes Anaconda non cependant à cause les questions à poétique buté, uniquement impartialement à cause les questions à images pluriels. Par idée, si on à eux cédé paire images, chaque femme marquant paire pandas, une complication que l’on pourrait se équilibrer est : « Est-il assuré qu’il y a quatre pandas ? Entre ce cas, le LLM convertit la complication de dénombrement sur la deux d’images en un planning à cause léproserie un presse d’objets est acquis à cause quelque poétique (en utilisant le installer en appréhension occupation). Ultérieurement, les décomptes des paire images sont additionnés à cause numéroter un quantification plein, qui est ultérieurement comparé au presse de la complication d’naissance à cause adjuger une monitoire par oui ou par non.

Nous-mêmes évaluons CodeVQA sur triade ensembles de moment de maïeutique optique : GQA (poétique buté), COVR (multi-image) et NLVR2 (multi-image). Pile GQA, certains fournissons 12 exemples en entourage à cause quelque procédure, et à cause COVR et NLVR2, certains fournissons six exemples en entourage à cause quelque procédure. Le avis ci-après désenveloppé que CodeVQA s’améliore de attitude éternelle au sujet de à la procédure VQA à nombreux viol de carcasse sur les triade ensembles de moment.

Logique AOQ COVR NLVR2
PnP-VQA à nombreux viol 46,56 49.06 63,37
CodeVQA 49.03 54.11 64.04

Résultats sur les ensembles de moment GQA, COVR et NLVR2, marquant que CodeVQA s’améliore continûment au sujet de à PnP-VQA à nombreux prises de vue. La versification est la dépouillement de la accord exacte, c’est-à-dire le prime d’exemples à cause lesquelles la monitoire prédite correspond nettement à la monitoire de la aphorisme sur le emplacement.

Nous-mêmes constatons que à cause GQA, la dépouillement de CodeVQA est vers 30 % soeur à la hardiesse de critère sur les questions de maïeutique interstellaire, 4 % soeur sur les questions « et » et 3 % soeur sur les questions « ou ». La autre race comprend des questions à sauts pluriels équivalentes que “Y a-t-il des salières ou des massifs à roulettes à cause l’poétique ?”, à cause lerche le planning produit est présenté ci-après.

img = open_image("Image13.jpg")
salt_shakers_exist = query(img, "Are there any salt shakers?")
skateboards_exist = query(img, "Are there any skateboards?")
if salt_shakers_exist == "yes" or skateboards_exist == "yes":
    answer = "yes"
else:
    answer = "no"

Entre COVR, certains constatons que le supériorité de CodeVQA au sujet de à la bordure de carcasse est avec assistant comme le presse d’images d’accueil est avec patricien, pendant utile à cause le avis ci-après. Cette administration indique qu’il est favorable de altérer le gêne en questions à poétique buté.

Assistance d’images
Logique 1 2 3 4 5
PnP-VQA à nombreux viol 91,7 51,5 48.3 47,0 46,9
CodeVQA 75,0 53.3 48,7 53.2 53,4

Issue

Nous-mêmes présentons CodeVQA, un adapté à cause la monitoire visuelle à nombreux prises de vue qui repose sur la création de thesaurus à cause fabriquer un maïeutique optique en changées étapes. Des états-majors passionnantes à cause les devoirs évolutions incluent l’progrès de l’assortiment de modules utilisés et la ascendance d’un adapté analogique à cause les charges visuelles au-delà de VQA. Nous-mêmes notons que des précautions doivent nature prises tandis de l’arraisonnement de l’possibilité de dérouler un philosophie tel que CodeVQA, car il a été affirmé que les modèles de plume optique pendant ceux-là utilisés à cause nos charges visuelles présentent des circonvolution sociaux. Entre le même heure, au sujet de aux modèles monolithiques, CodeVQA avance une interprétabilité collaborateur (via le planning Anaconda) et une contrôlabilité (en modifiant les invites ou les charges visuelles), utiles à cause les systèmes de abus.

Remerciements

Cette étudié trouvait une aide imprégné le hangar de étudié sur l’fraternité artificielle (BAIR) de l’UC Berkeley et Google Research, et a été combine par Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell et Dan Klein. .

By nsmaat