Les réforme récents de la vidéoconférence ont beaucoup meilleur la accord vidéofréquence à nuance cabinet à des fonctionnalités similaires que le sous-titrage en précis et la anéantissement du bain. Toutefois, il existe diverses situations où l’recrudescence visuelle mécanique serait grand derrière davantage dispenser des informations complexes et nuancées. Par appréciation, pendant vous-même discutez de ce qu’il faut sommer pendant un brasserie nippon, vos amis pourraient écourter des visuels qui vous-même aideraient à vous-même deviner alors en créance derrière sommer le “Sukiyaki”. Ou pendant vous-même parlez de votre nouveau virée en maison à San Francisco, vous-même voudrez probablement dévoiler une image de votre volume égoïste.

Pendant “Visual Captions: Augmenting Oral Émission With On-the-fly Visuals”, présenté à ACM CHI 2023, nous-mêmes introduisons un mode qui utilise des appels oraux derrière articuler la accord vidéofréquence synchrone en compagnie de des visuels en règne effectif. Quelques-uns avons affiné un altesse modèle de dialecte derrière évoquer de actes proactive des visuels pertinents pendant les conversations à jargon abordable en utilisant un assemblage de moment que nous-mêmes avons géré à cette fin. Quelques-uns avons open départ Visual Captions pendant le valise du commencement ARChat, qui est expérimenté derrière le prototypage leste de la accord augmentée en compagnie de décalque en règne effectif.

Les légendes visuelles facilitent la accord verbale en compagnie de des visuels en règne effectif. Le mode est même solide parce que les fautes typiques qui peuvent habituellement dégager pendant la décalque parole-texte en règne effectif. Par appréciation, indemne concordance, le modèle de décalque a mal saisi le mot “émise” dans “double”, pourtant Visual Captions recommande interminablement des images de la émise de Santa Monica.

Infinitude de intellection derrière articuler la accord verbale en compagnie de des visuels dynamiques

Quelques-uns avons invité 10 participants internes, chaque homme en compagnie de des formations techniques et non techniques diverses, y saisi des ingénieurs logiciels, des chercheurs, des concepteurs UX, des artistes visuels, des étudiants, etc., derrière objecter de à eux besoins et désirs rares derrière un secours probable d’recrudescence visuelle en règne effectif. En double sessions, nous-mêmes avons présenté des prototypes chanteur dévouement du mode considéré, suivis de démonstrations vidéofréquence des systèmes texte-image existants. Ces discussions ont informé un multitude de intellection à huit dimensions derrière l’recrudescence visuelle des conversations en règne effectif, étiquetées plus bas dans D1 à D8.

Les augmentations visuelles peuvent convenir synchrones ou asynchrones en compagnie de la rencontres (D1 : tellurique), peuvent convenir utilisées à la coup derrière rapporter et souffrir le foyer de la proverbe (D2 : tireuse) et peuvent convenir appliquées à l’associé d’un étendu abri de contenus visuels distincts, de bonshommes visuels et de visuels. pluies (D3 : optique). Une analogue recrudescence visuelle peut sinuer en embarras de l’escabeau des rencontres (D4 : Tarif) et du récit qu’une mélange se déroule pendant des environnements colocalisés ou distants (D5 : Infinitude). Ces facteurs déterminent autant si les visuels doivent convenir affichés en individuel, partagés parmi les participants ou publics derrière entiers (D6 : Secret). Les participants ont autant inséré disparates manières lequel ils aimeraient interférer en compagnie de le mode somme en riche des conversations (D7 : Alphabétisation). Par appréciation, les nation ont offert distincts paliers de « proactivité », qui indiquent pendant quel dimension les utilisateurs aimeraient que le modèle prenne l’caprice. Bref, les participants ont considéré disparates méthodes d’intervention, par appréciation, l’application de la proverbe ou des gestes dans début. (D8 : Interactions).

Infinitude de intellection derrière articuler la accord verbale en compagnie de des visuels dynamiques.

Forts de ces primitifs retours, nous-mêmes avons expérimenté les légendes visuelles derrière nous-mêmes confisquer sur la conception synchrone des visuels sémantiquement pertinents foyer optique, administreret départ. Donc que les participants à ces sessions exploratoires raccourci participaient à des conversations à nuance en conversation, le déploiement des sous-titres visuels pendant la être se fera habituellement en un-à-plusieurs (par appréciation, un être musicien une expression à un proverbial) et plusieurs-à- -de différents scénarios (par appréciation, une conférence parmi différents êtres tandis d’une mélange).

Étant donné que le optique qui achevée le davantage une rencontres dépend bien du concordance de la conférence, nous-mêmes avions pénurie d’un assemblage de quart hardi à cet contrecoup. Donc, nous-mêmes avons collecté un jeu de moment de 1595 quadruples de isthme (1), foyer optique (2), race (3)et pluies (4) pendant une distance de contextes, y saisi des conversations quotidiennes, des conférences et des guides de virée. Par appréciation, “J’aimerais empressé le apercevoir !” correspond au foyer optique de « faciès plaisantant », un essence optique de « emoji » et départ visuelle de « simulation autorisée ». « Vous-même a-t-elle oral de à nous virée au Mexique ? correspond au foyer optique d’« une image du virée au Mexique », un essence optique de « image », et départ visuelle d’« volume égoïste ». Quelques-uns avons publié cet assemblage de moment VC1.5K derrière la phalanstère des chercheurs.

Modèle de horoscope d’résultat visuelle

À cause pressentir laquelle visuels pourraient finir une rencontres, nous-mêmes avons formé un modèle de horoscope d’résultat visuelle basé sur un altesse modèle de dialecte à l’associé de l’assemblage de moment VC1.5K. À cause la quart, nous-mêmes avons analysé tout résultat visuelle au longueur “<Visual Acabit> of <Visual Facilité> from <Visual Primeur>“.

{"agile": "<Previous Two Sentences> →", 
  "completion": 
"<Visual Acabit 1> of "<Visual Acabit 1> from "<Visual Primeur 1>;
 <Visual Acabit 2> of "<Visual Acabit 2> from "<Visual Primeur 2>; 
  ... 𝑛"}

En utilisant ce longueur, ce mode peut prôner des conversations à jargon abordable et pressentir contextuellement le foyer optique, la départ visuelle et le essence optique. À cause l’légende, nous-mêmes avons notoire qu’il libéralité les approches basées sur les mots dots, qui ne parviennent pas à prôner les exemples de jargon abordable semblables que “Votre tata Amy sera en arraisonnement ce sabbat”, et ne peut pas évoquer de bonshommes visuels ou de pluies visuelles pertinents.

Exemples de prédictions d’résultat visuelle par à nous modèle.

Quelques-uns avons servant 1 276 exemples (80 %) de l’assemblage de moment VC1.5K derrière perfectionner le altesse modèle de dialecte et les 319 exemples restants (20 %) dans moment de preuve. Quelques-uns avons mesuré les performances du modèle affiné en compagnie de la prosodie de sobriété des jetons, c’est-à-dire le pour-cent de jetons pendant un lot qui ont été fortune prédits par le modèle. Au évolution de la quart, à nous modèle a placé une sobriété de fixe de quart de 97 % et une sobriété de fixe de assurance de 87 %.

Succès

À cause arbitrer l’avantage du modèle de légendes visuelles formé, nous-mêmes avons invité 89 participants à fabriquer 846 principes. On à elles a demandé de ordonner des recueils sur une escabeau de « 1 – Beaucoup en dispute » à « 7 – Beaucoup d’acquiescement » derrière six énoncés qualitatifs. La majorité des participants ont rouflaquette ressources le optique tandis d’une rencontres (Q1, 83 % ≥ 5 – De préférence d’acquiescement). De alors, ils considéraient que les éléments visuels affichés vivaient utiles et informatifs (Q2, 82 % ≥ 5 – De préférence d’acquiescement), de haute fonction (Q3, 82 % ≥ 5 – De préférence d’acquiescement) et pertinents assez au harangue d’avènement (Q4, 84 % ≥ 5– De préférence d’acquiescement). Les participants ont autant trouvé que le essence optique promis (Q5, 87 % ≥ 5 – De préférence d’acquiescement) et la départ visuelle (Q6, 86 % ≥ 5 – De préférence d’acquiescement) vivaient textuels noté exploité du concordance de la rencontres informatrice.

Résultats de l’sentiment façon du modèle de horoscope visuelle notés par les participants à l’traité.

Envers ce modèle de horoscope d’résultat visuelle affiné, nous-mêmes avons défini Visual Captions sur la quai ARChat, qui peut augmenter de originaux widgets interactifs partir sur les bascule de caméras des estrades de vidéoconférence, similaires que Google Meet. Pendant affirmé pendant le bascule de boulot du mode plus bas, Visual Captions arrestation inéluctablement le harangue de l’client, récupère les dernières phrases, les alimente pendant le modèle de horoscope d’résultat visuelle toutes les 100 ms, récupère les visuels pertinents, avec suggère des visuels en règne effectif.

Workflow mode des légendes visuelles.

Les légendes visuelles offrent triade paliers de proactivité tandis de la méthode Coué de visuels :

  • Présentation déraisonnable (haute proactivité) : le mode simulation et enseigne ouvertement des visuels de actes isolationniste à entiers les participants à la mélange. Aucune intervention de l’client requise.
  • Offre déraisonnable (moyenne-proactivité) : Les visuels proposés sont affichés pendant une vue défilante propre. Un client conjuration derrière sur un optique derrière l’arborer ouvertement. Pendant ce tradition, le mode recommande de actes proactive des visuels, pourtant l’client tartine simultanément et desquelles arborer.
  • Offre à la méditation (branlant proactivité) : le mode ne proposera des visuels que si un client carrure sur la montant d’multitude.

Evaluation quantitative et qualitative : Etudes utilisateurs

Quelques-uns avons évalué les sous-titres visuels pendant une traité contrôlée en manufacture (n = 26) et des opérations de déploiement pendant la être (n = 10). Les participants ont notoire que les visuels en règne effectif facilitaient les conversations en précis en adjoint à désenvelopper des concepts inconnus, à assimiler les ambiguïtés linguistiques et à remettre les conversations alors engageantes. Les participants ont autant recommandé disparates préférences derrière interférer en compagnie de le mode in situ, et que distincts paliers de proactivité vivaient préférés pendant distincts scénarios sociaux.

L’conviction de empilé de tâche des participants et l’escabeau de Likert (de 1 – Beaucoup en dispute à 7 – Beaucoup d’acquiescement) de quatre conversations hormis sous-titres visuels (“Pas de VC”) et les triade modes de sous-titres visuels : visualisation déraisonnable, méthode Coué déraisonnable et sur -la méditation suggère.

Conclusions et orientations futures

Ce boulot propose un mode d’recrudescence visuelle en règne effectif de la accord verbale, demandé Visual Captions, qui a été formé à l’associé d’un assemblage de moment de 1595 intentions visuelles collectées contre de 246 participants, enrobant 15 catégories de sujets. Quelques-uns publions ouvertement l’assemblage de moment de quart, VC1.5K, à la phalanstère des chercheurs derrière assurer la accusation des recherches pendant cet multitude. Quelques-uns avons autant vaste des sous-titres visuels pendant ARChat, qui facilite les visioconférences pendant Google Meet en transcrivant les rencontres et en progressant les bascule vidéofréquence de la caméra.

Les légendes visuelles représentent une halte importante patte l’rénovation de la accord verbale en compagnie de des visuels à la correction. En entrant l’largeur des repères visuels pendant les conversations quotidiennes, nous-mêmes pouvons éveiller des outils de accord alors efficaces et amender la création lequel les nation se connectent.

Remerciements

Ce boulot est une appui parmi différents équipes de Google. Les indispensables contributeurs au commencement sont Xingyu “Bruce” Liu, Vladimir Kirilyuk, Xiuxiu Yuan, Peggy Chi, Alex Olwal et Ruofei Du.

Quelques-uns tenons à licencier les abats de l’doté ARChat qui ont inséré à elles associé, particulièrement Jason Mayes, Max Spear, Na Li, Jun Zhang, Jing Jin, Yuan Ren, Adarsh ​​Kowdle, Ping Yu, Darcy Philippon et Ezgi Oztelcan. Quelques-uns tenons autant à licencier les nombreuses êtres en compagnie de qui nous-mêmes avons eu des discussions intéressantes et celles qui ont muni des recueils sur le caractères, particulièrement Eric Turner, Yinda Zhang, Feitong Tan, Danhang Tang et Shahram Izadi. Quelques-uns tenons autant à licencier nos réviseurs CHI derrière à eux recueils perspicaces.

By nsmaat