En esquisse coopératif par redoublement multi-agents (MARL), en allégation de sa sur la négociation brute, les méthodes de gradient de négociation (PG) sont éternellement considérées chez moins efficaces en termes d’aperçu que les méthodes de décomposition de sang-froid (VD), qui sont fors négociation. Néanmoins, certaines corvées expérimentaux récentes démontrent qu’revers une consulat d’admission appropriée et un ajustement hyper-paramètre, le PG multi-agent peut arriver des performances admirablement élevées au sujet de aux méthodes VD fors négociation.

Conséquemment les méthodes PG pourraient-elles si propre aller ? Pour cet feuilleton, moi-même présenterons une énoncé concrète afin manifester que comme nombreux scénarios, par abrégé, des environnements revers un horizon de revenu infiniment multimodal, VD peut convenir conjectural et faire à des résultats indésirables. En retour, les méthodes PG revers des politiques individuelles peuvent confluer beauté une négociation optimale comme ces cas. De encore, les méthodes PG revers des politiques auto-régressives (AR) peuvent accepter des politiques multimodales.


Aspect 1 : consulat négociation différente afin le jeu de chassé-croisé à 4 joueurs.

CTDE en MARL coopératif : méthodes VD et PG

La éducation centralisée et l’élaboration décentralisée (CTDE) est un cageot ordinaire comme la MARL alimentation. Il s’empressement complet informations afin une éducation encore réelle intégrité en conservant la consulat des politiques individuelles afin les tests. CTDE peut convenir implémenté via une décomposition de sang-froid (VD) ou un gradient de négociation (PG), conduisant à paire hommes d’algorithmes inégaux.

Les méthodes VD apprennent les réseaux Q locaux et une allant de imbriqué qui imbriqué les réseaux Q locaux à une allant Q globale. La allant de imbriqué est éternellement appliquée afin contenter le archétype Détective-Courant-Max (IGM), qui garantit que l’procès conjointe optimale peut convenir consciente en choisissant cupidement l’procès optimale régulièrement afin tout flic.

En retour, les méthodes PG appliquent brutalement le gradient de négociation afin accepter une négociation spéciale et une allant de sang-froid centralisée afin tout flic. La allant de sang-froid prend chez admission l’situation universel (par abrégé, MAPPO) ou la enchaînement de toutes les remarques locales (par abrégé, MADDPG), afin une exposé sincère de la sang-froid globale.

Le jeu de chassé-croisé : un contre-exemple faible où VD échoue

Nous-mêmes commençons à nous énoncé en motif un jeu coopératif rien situation, à civilisation le jeu de chassé-croisé. Pour un jeu de chassé-croisé à $N$-joueurs, tout flic peut enfanter $N$ études ${ 1,ldots, N }$. Les agents reçoivent une revenu $+1$ si à elles études sont vice versa contradictoires, c’est-à-dire que l’procès conjointe est une chassé-croisé sur $1, ldots, N$ ; sans, ils reçoivent une revenu de 0 $. Notez qu’il existe $N!$ stratégies optimales réciproques comme ce jeu.


Aspect 2 : le jeu de chassé-croisé à 4 joueurs.


Aspect 3 : prémonition de dominant classe sur la allégation afin desquelles VD échoue comme le jeu de chassé-croisé à 2 joueurs.

Concentrons-nous affamer sur le jeu de chassé-croisé à 2 joueurs et appliquons VD au jeu. Pour ce paramètre rien situation, moi-même utilisons $Q_1$ et $Q_2$ afin désigner les services Q locales, et utilisons $Q_textrm{tot}$ afin désigner la allant Q globale. Le archétype IGM exige que

(argmax_{a^1,a^2}Q_textrm{tot}(a^1,a^2)={argmax_{a^1}Q_1(a^1), argmax_{a^2}Q_2(a^2)}.)

Nous-mêmes prouvons que VD ne peut pas invoquer le séduction du jeu de chassé-croisé à 2 joueurs par opposition. Si les méthodes VD pouvaient invoquer le séduction, moi-même aurions

(Q_textrm{tot}(1, 2)=Q_textrm{tot}(2,1)=1quad text{and}quad Q_textrm{tot}(1, 1)=Q_ textrm{tot}(2,2)=0.)

Si l’un de ces paire agents a des aptitudes Q locales contradictoires (par abrégé $Q_1(1)> Q_1(2)$), moi-même avons $argmax_{a^1}Q_1(a^1)=1$. Ensuite remplaçant le archétype IGM, n’importe lesquels procès articulaire optimale

((a^{1étoile},a^{2étoile})=argmax_{a^1,a^2}Q_textrm{tot}(a^1,a^2)= {argmax_{a^1}Q_1(a^1),argmax_{a^2}Q_2(a^2)})

enchanté $a^{1star}=1$ et $a^{1star}neq 2$, en conséquence l’procès conjointe $(a^1,a^2)=(2,1)$ est sous- idéal, c’est-à-dire $Q_textrm{tot}(2,1)<1$.

Quand, si $Q_1(1)=Q_1(2)$ et $Q_2(1)=Q_2(2)$, ensuite

(Q_textrm{tot}(1, 1)=Q_textrm{tot}(2,2)=Q_textrm{tot}(1, 2)=Q_textrm{tot}(2,1). )

Par cohérent, la décomposition de la sang-froid ne peut pas invoquer la modèle des gains du jeu de chassé-croisé à 2 joueurs.

Qu’en est-il des méthodes PG ? Les politiques individuelles peuvent en produit invoquer une négociation optimale afin le jeu de chassé-croisé. De encore, la chute de gradient statistique peut couvrir que PG converge beauté l’un de ces optima en dessous des hypothèses modérées. Ceci suggère que, même si les méthodes PG sont moins populaires comme MARL au sujet de aux méthodes VD, elles-mêmes peuvent convenir préférables comme nombreux cas constants comme les applications du monde assuré, par abrégé, les joujoux revers différentes hasard de diplomatie.

On observé autant que comme le jeu de chassé-croisé, afin invoquer une négociation conjointe optimale, tout flic doit distinguer des études singulières. Par cohérent, une pari en œuvre brèche de PG doit couvrir que les politiques sont uniques à l’flic. Ceci peut convenir coïncidence en utilisant sinon des politiques individuelles revers des paramètres non partagés (appelées PG-Ind comme à nous feuilleton), sinon une négociation conditionnée par l’ID d’flic (PG-ID).

Au-delà du faible abrégé indicatif du jeu de chassé-croisé, moi-même étendons à nous examen à des benchmarks MARL populaires et encore réalistes. En encore du StarCraft Multi-Concessionnaire Conflit (SMAC), où l’influence du PG et de la négociation conditionnée par l’flic a été vérifiée, moi-même affichons de originaux résultats comme Google Research Football (GRF) et le Hanabi Conflit multijoueur.


Aspect 4 : (à stupide) intérêt de crapette des méthodes PG sur GRF ; (à loyale) scores d’approximation meilleurs et ressources sur Hanabi-Full.

Pour GRF, les méthodes PG surpassent la barrière de treillis VD (CDS) de charnière comme 5 scénarios. Document curieux, moi-même remarquons quand que les politiques individuelles (PG-Ind) rien division de paramètres atteignent des intérêt de crapette pareils, bientôt même encore élevés, au sujet de aux politiques uniques à l’flic (PG-ID) comme les 5 scénarios. Nous-mêmes évaluons PG-ID comme le jeu Hanabi à longue hiérarchie revers un peuple incertain de joueurs (2 à 5 joueurs) et les comparons à SAD, une consistante traduction d’esquisse Q fors négociation comme Hanabi, et aux réseaux de décomposition de sang-froid (VDN). Identique le étalage le pancarte plus avant, PG-ID est permis de procréer des résultats pareils ou supérieurs aux meilleurs et aux récompenses moyennes obtenues par SAD et VDN revers un peuple incertain de joueurs utilisant le même peuple d’étapes d’climat.

Au-delà des récompenses encore élevées : accepter le actes multimodal via la modélisation de politiques auto-régressives

En encore d’accepter des récompenses encore élevées, moi-même étudions quand quoi accepter des politiques multimodales comme la MARL alimentation. Revenons au jeu de chassé-croisé. Avoir que moi-même ayons attesté que PG peut physiquement accepter une négociation optimale, le tradition de diplomatie qu’il accédé enfin peut fermement concerner de l’mise en route de la négociation. Pour, une gêne naturelle sera :

Pouvons-nous accepter une négociation étroit qui puisse protéger complets les modes idéaux ?

Pour la articulation PG décentralisée, la consulat factorisée d’une négociation conjointe ne peut invoquer qu’un tradition inusité. Par cohérent, moi-même proposons une soigné améliorée de paramétrer les politiques afin une expressivité encore consistante – les politiques auto-régressives (AR).


Aspect 5 : rapport dans les politiques individuelles (PG) et les politiques auto-régressives (AR) comme le jeu de chassé-croisé à 4 joueurs.

Spirituellement, moi-même factorisons la négociation conjointe de $n$ agents en dessous la disposition de

(pi(mathbf{a} mid mathbf{o}) approx prod_{i=1}^n pi_{theta^{i}} left( a^{i}mid o ^{i},a^{1},ldots,a^{i-1} right),)

où l’procès produite par l’flic $i$ dépend de sa doué annotation $o_i$ et de toutes les études des agents précédents $1,clés,i-1$. La factorisation auto-régressive peut invoquer n’importe lesquels négociation paroisse comme un MDP centralisé. Le éloigné la révolution de la négociation de tout flic est la importance d’admission, qui est miette élargie en renfermant les études précédentes ; et la importance de commencement de la négociation de tout flic rallonge inchangée.

Envers une équivalente surplus de paramétrage minimale, la négociation AR améliore à foison la vitalité de consulat des méthodes PG. Nous-mêmes remarquons que PG revers négociation AR (PG-AR) peut invoquer parallèlement complets les modes de négociation optimale comme le jeu de chassé-croisé.


Aspect : les cartes thermiques des études afin les politiques apprises par PG-Ind (à stupide) et PG-AR (au décor), et la reproduction thermique des récompenses (à loyale) ; ensuite que PG-Ind ne converge que beauté un tradition personnel comme le jeu de chassé-croisé à 4 joueurs, PG-AR découvre revers faveur complets les modes idéaux.

Pour des environnements encore complexes, y saisi SMAC et GRF, PG-AR peut accepter des comportements émergents intéressants qui nécessitent une consistante organisation intra-agent qui peut ne en aucun cas convenir apprise par PG-Ind.


Aspect 6 : (à stupide) actes survenant aboutissement par PG-AR comme SMAC et GRF. Sur la reproduction 2m_vs_1z de SMAC, les marines restent debout et attaquent tour à tour intégrité en s’assurant qu’il n’y a qu’un éloigné escadre détériorant à tout pas de étape ; (à loyale) comme le traitement academy_3_vs_1_with_keeper de GRF, les agents apprennent un actes de formé “Tiki-Taka”: tout équipier continue de gravir le aérodyne à ses coéquipiers.

Discussions et nourriture à emmener

Pour cet feuilleton, moi-même proposons une énoncé concrète des méthodes VD et PG en MARL alimentation. Ensemble d’apparence, moi-même révélons la réduction de l’expressivité des méthodes VD populaires, mémorable qu’elles-mêmes ne pouvaient pas invoquer des politiques optimales même comme un faible jeu de chassé-croisé. En retour, moi-même montrons que les méthodes PG sont notoirement encore expressives. Nous-mêmes vérifions expérimentalement l’possibilité d’expressivité de PG sur des récifs d’brouillon MARL populaires, surtout SMAC, GRF et Hanabi Conflit. Nous-mêmes pourvu que les enseignements tirés de ce obligation pourront goûter à la phalanstère beauté des algorithmes MARL coopératifs encore communs et encore superbes à l’filiation.


Cet feuilleton est basé sur à nous feuilleton : Revisiting Some Common Practices in Cooperative Multi-Concessionnaire Reinforcement Learning (feuilleton, zone web).

By nsmaat