35:[["$","audio",null,{"id":"tts"}],["$","$L3a",null,{"paperID":"1808.08416","publisher":"arxiv","paperJSON":{"title":"Multiplayer bandits without observing collision information","paperID":"1808.08416","avgLineHeight":14.52,"imgScale":4,"sections":[{"heading":"Abstract","paragraphs":[[{"text":"We study multiplayer stochastic multi-armed bandit problems in which the players cannot communicate and if two or more players pull the same arm, a collision occurs and the involved players receive zero reward. We consider two feedback models: a model in which the players can observe whether a collision has occurred and a more difficult setup when no collision information is available. We give the first theoretical guarantees for the second model: an algorithm with a logarithmic regret and an algorithm with a square-root regret that does not depend on the gaps between the means. For the first model, we give the first square-root regret bounds that do not depend on the gaps. Building on these ideas, we also give an algorithm for reaching approximate Nash equilibria quickly in stochastic anti-coordination games.","element":"span"}],[{"text":"Keywords: multiplayer bandits; distributed learning; sequential decision making; decentralized algorithms; anti-coordination games; opportunistic spectrum access","element":"span"}],[{"text":"MSC2020 subject classification: Primary: 68Q32; Secondary: 62L12, 68W15, 91A15.","element":"span"}]]},{"heading":"1 Introduction.","paragraphs":[[{"text":"The stochastic multi-armed bandit problem is a well-studied problem of machine learning. Consider an agent that has to choose among several actions in each round of a game. To each action ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"is associated a real-valued parameter ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". Whenever the player performs the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"th action, she receives a random reward with mean ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". If the player knew the means associated to the actions before starting the game, she would play an action with the highest mean during all rounds. The problem is to design a strategy for the player to maximize her reward in the setting where she does not know the means. The ","element":"span"},{"style":{"fontStyle":"italic"},"text":"regret ","element":"span"},{"text":"of the strategy is the difference between the accumulated rewards in the two scenarios.","element":"span"}],[{"text":"This problem encapsulates the well-known exploration/exploitation tradeoff: the player never learns the means exactly, but she can estimate them. As the game proceeds, she learns that some actions probably have better means, so she can exploit these actions to obtain a better reward, but at the same time she has to explore other actions as well, since they might have higher means. Traditionally, actions are called “arms” and “pulling an arm” refers to performing an action. See Slivkins [","element":"span"},{"href":"#id-0","referenceIndex":23,"text":"23","element":"a"},{"text":"], Lattimore and Szepesv´ari [","element":"span"},{"href":"#id-1","referenceIndex":17,"text":"17","element":"a"},{"text":"] for recent monographs on stochastic multi-armed bandits.","element":"span"}],[{"text":"We study a multiplayer version of this game, in which each player pulls an arm in each round, and if two or more players pull the same arm, a ","element":"span"},{"style":{"fontStyle":"italic"},"text":"collision ","element":"span"},{"text":"occurs and all players pulling that arm receive zero reward. The players’ goal is to maximize the collective received reward.","element":"span"}],[{"text":"$3b","element":"span"},{"href":"#id-2","referenceIndex":18,"text":"18","element":"a"},{"text":", Section I.D] for other applications.","element":"span"}],[{"text":"One may consider (at least) two possible feedback models. ","element":"span"},{"text":"In the first model, whenever a player pulls an arm, she observes whether a collision has occurred on that arm and receives a reward. In the second model, the player just receives a reward without observing whether a collision has occurred. Of course, if the reward is positive, she can infer that no collision has occurred. But if the reward is zero, she cannot infer if a collision has occurred.","element":"span"}],[{"text":"Our main contributions are as follows.","element":"span"}],[{"text":"1. We offer the first theoretical guarantees for the second model, where the players do not observe collision information. We propose an algorithm with a logarithmic regret (in terms of the number of rounds), and we also give an algorithm with a sublinear regret that does not depend on the gaps between the means.","element":"span"}],[{"text":"2. For the first model, in which the players observe collision information, we prove the first sublinear regret bound that does not depend on the gaps between the means.","element":"span"}],[{"text":"3. One may also view this setup as a stochastic anti-coordination game. Using the algorithmic ideas introduced here, we give an algorithm for reaching an approximate Nash equilibrium quickly in such games.","element":"span"}],[{"text":"1.1 ","element":"span"},{"text":"Models and results.","element":"span"}],[{"text":"Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K > ","element":"span"},{"text":"1 be a positive integer and let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"1","element":"span"},{"style":{"fontStyle":"italic"},"text":",...,µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"be nonnegative numbers corresponding to the arm means. Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"be the reward of arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"in round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":", so the {","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t","element":"span"},{"text":"}","element":"span"},{"text":"∞","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"=1 ","element":"span"},{"text":"are independent and identically distributed (i.i.d.) and E","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". We may ","element":"span"},{"text":"assume, by relabeling the arms if necessary, that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"1 ","element":"span"},{"text":"≥ ··· ≥ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":". The players are of course unaware of this labeling.","element":"span"}],[{"text":"For a positive integer ","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"text":", we denote [","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"text":"] ≔ {1","element":"span"},{"style":{"fontStyle":"italic"},"text":",...,n","element":"span"},{"text":"}. A set of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m > ","element":"span"},{"text":"1 players play the following game for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T > ","element":"span"},{"text":"0 rounds: in each round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"= 1","element":"span"},{"style":{"fontStyle":"italic"},"text":",...,T ","element":"span"},{"text":", player ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"chooses an arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") ∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"]. Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"C","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") ∈ {0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1} be the collision indicator for arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"in round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":", that is, ","element":"span"},{"style":{"fontStyle":"italic"},"text":"C","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") = 1 if and only if there exist distinct ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j,j","element":"span"},{"text":"′ ","element":"span"},{"text":"with ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") = ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"′","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") = ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". In round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":", player ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"receives reward","element":"span"}],[{"id":"id-27","style":{"width":"65%"},"width":1130,"height":61,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/2-0.png","element":"img"}],[{"text":"We will also consider a stronger feedback model, in which each player ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"also observes ","element":"span"},{"style":{"fontStyle":"italic"},"text":"C","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":")","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") in each round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"; this is called “the model with collision information.”","element":"span"}],[{"text":"The ","element":"span"},{"style":{"fontStyle":"italic"},"text":"regret ","element":"span"},{"text":"of a strategy is defined as","element":"span"}],[{"id":"id-46","style":{"width":"100%"},"width":1729,"height":211,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/2-1.png","element":"img"}],[{"text":"Note that Regret is a random variable (since the strategy can randomize hence ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") can be random) and we will bound its expected value. Bounds that hold with high probability can also be derived from our proofs.","element":"span"}],[{"text":"To simplify the statements and proofs of our main theorems, we make three additional assumptions, which can be relaxed at the expense of getting worse bounds, as discussed in Section ","element":"span"},{"href":"#id-3","text":"5","element":"a"},{"text":".","element":"span"}],[{"style":{"width":"78%"},"width":1362,"height":47,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/3-0.png","element":"img"}],[{"text":"Assumption 2. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":",t ","element":"span"},{"text":"is supported on [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1] so the means ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"and the rewards ","element":"span"},{"style":{"fontStyle":"italic"},"text":"r","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") are also in [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1].","element":"span"}],[{"style":{"width":"73%"},"width":1273,"height":47,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/3-1.png","element":"img"}],[{"text":"Note that we assume no communication between the players, and our algorithms are totally distributed. Moreover, in each particular setting, all players play the same algorithm. All of our algorithms are explicit, simple, and efficient.","element":"span"}],[{"text":"We can now state our main theorems. Let ∆ ≔ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"+1","element":"span"},{"text":". All the following results correspond to the weak feedback model (i.e., no collision information), unless stated otherwise. Certainly, any regret upper bound for this model automatically carries over to the stronger feedback model as well.","element":"span"}],[{"id":"id-4","text":"Theorem 1. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"There is an algorithm with expected regret O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"}],[{"text":"In this theorem and throughout, the notation ","element":"span"},{"style":{"fontStyle":"italic"},"text":"f ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"g","element":"span"},{"text":") means there exists an ","element":"span"},{"style":{"fontStyle":"italic"},"text":"absolute constant C ","element":"span"},{"text":"such that for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"all ","element":"span"},{"text":"admissible parameters, ","element":"span"},{"style":{"fontStyle":"italic"},"text":"f ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Cg","element":"span"},{"text":".","element":"span"}],[{"text":"A shortcoming of Theorem ","element":"span"},{"href":"#id-4","text":"1 ","element":"a"},{"text":"is that it gives a vacuous bound if ∆ = 0. Moreover, one may wonder if, as in the single player case, a regret of the form√","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"is possible that is independent of the specific instance. The following theorem shows this is possible, under some weak assumptions. Let ∆","element":"span"},{"text":"′ ","element":"span"},{"text":"≔ min{","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":": ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"}. Observe that ∆","element":"span"},{"text":"′ ","element":"span"},{"text":"≥ ∆, and that ∆","element":"span"},{"text":"′ ","element":"span"},{"text":"is positive and well-defined unless ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"+1 ","element":"span"},{"text":"= ··· = ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"(in this case we define ∆","element":"span"},{"text":"′ ","element":"span"},{"text":"= 0).","element":"span"}],[{"id":"id-12","text":"Theorem 2. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"(a) Suppose all players know a lower bound µ for µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"style":{"fontStyle":"italic"},"text":". Then there is an algorithm with expected regret O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"log","element":"span"},{"text":"2","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/µ ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km","element":"span"},{"text":"min{�","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ,","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"′","element":"span"},{"text":"})","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"(b) For the stronger feedback model, in which the players observe the collision information, there is an algorithm with expected regret","element":"span"}],[{"style":{"width":"79%"},"width":1373,"height":61,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/3-2.png","element":"img"}],[{"style":{"fontStyle":"italic"},"text":"(c) Suppose each player has the option of leaving the game at any point; that is, she can choose not to pull from some round onward (if a player leaves the game, we assume that she collects reward 0 for the rest of the game). Then, there exists an algorithm with expected regret O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km","element":"span"},{"text":"√","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"}],[{"text":"We do not know whether our regret upper bounds are tight; the only lower bound for this problem is an asymptotic lower bound of Ω((","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":")log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"′","element":"span"},{"text":") as ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"→ ∞, provided ∆","element":"span"},{"text":"′ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> ","element":"span"},{"text":"0, proved in Anantharam et al. [","element":"span"},{"href":"#id-5","referenceIndex":3,"text":"3","element":"a"},{"text":", Theorem 3.1] for both feedback models (see (","element":"span"},{"href":"#id-6","text":"3","element":"a"},{"text":") below for the exact form). There are gaps between our upper bounds and this bound and closing them is left for future work. Further asymptotic lower bounds were claimed in Besson and Kaufmann [","element":"span"},{"href":"#id-7","referenceIndex":6,"text":"6","element":"a"},{"text":", Section 3], but the authors found a mistake later, see Besson and Kaufmann [","element":"span"},{"href":"#id-8","referenceIndex":8,"text":"8","element":"a"},{"text":"].","element":"span"}],[{"text":"Another interesting avenue for future research is the setting in which the rewards are not i.i.d. but are chosen by an adversary. This problem has been studied recently by Alatur, Levy, and Krause [","element":"span"},{"href":"#id-9","referenceIndex":1,"text":"1","element":"a"},{"text":"] and independently by Bubeck, Li, Peres, and Sellke [","element":"span"},{"href":"#id-10","referenceIndex":14,"text":"14","element":"a"},{"text":"].","element":"span"}],[{"text":"A third possible research direction is to study this problem from a (competitive) game-theoretic point of view: each player wants to maximize her own reward and the players are not required to run the same algorithm. Can we redefine the notion of reward so the players are better off running the same algorithm? What happens if most players are running the same, standard algorithm but there are some outliers who are selfish and deviate from the standard algorithm? See Boursier and Perchet [","element":"span"},{"href":"#id-11","referenceIndex":12,"text":"12","element":"a"},{"text":"] for recent results in this direction.","element":"span"}],[{"text":"The three algorithms proving Theorem ","element":"span"},{"href":"#id-12","text":"2 ","element":"a"},{"text":"are quite similar. All of our algorithms have the property that, eventually, each player fixates on one arm. This can be viewed as reaching an equilibrium in a game-theoretic framework, where the actions correspond to the arms and the utility of each action is the mean of the arm if no two players choose that action and zero otherwise. Games with the property that “if two or more players choose the same action then their reward is zero” are called ","element":"span"},{"style":{"fontStyle":"italic"},"text":"anti-coordination games","element":"span"},{"text":". Using our techniques for multiplayer bandits, we also provide an algorithm for converging to an approximate Nash equilibrium quickly in such a game.","element":"span"}],[{"text":"More precisely, we define a ","element":"span"},{"style":{"fontStyle":"italic"},"text":"stochastic anti-coordination game ","element":"span"},{"text":"as follows: for each player ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"] and action ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"], there is a parameter ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"∈ [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1] such that, if ","element":"span"},{"text":"player ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"performs action ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"while no other player performs it, she will get a random reward in [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1] with mean ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":", while if two or more players perform the same ac- ","element":"span"},{"text":"tion, all get reward 0. An assignment of players to actions is called an ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε-Nash equilibrium ","element":"span"},{"text":"if no player can improve her expected reward by more than ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε ","element":"span"},{"text":"by switching to another action while other players’ actions are unchanged. Then, we would like to design an algorithm that reaches an ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε","element":"span"},{"text":"-Nash equilibrium quickly. We prove the following theorem in this direction.","element":"span"}],[{"id":"id-13","text":"Theorem 3. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"There is a distributed algorithm that, with probability at least ","element":"span"},{"text":"1 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ, converges to an ε-Nash equilibrium in any stochastic anti-coordination game within O","element":"span"},{"text":"(log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/δ","element":"span"},{"text":")(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/ε","element":"span"},{"text":"2 ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ε","element":"span"},{"text":")) ","element":"span"},{"style":{"fontStyle":"italic"},"text":"many rounds.","element":"span"}],[{"text":"Note that this theorem is proved in the setting in which the players do not observe collisions; in particular, they do not observe the actions of other players. However, we are still making the Assumptions 1–3 (note there is no parameter ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"in this case). Moreover, we assume each player also has the option of choosing a dummy action with zero reward. This is a realistic assumption in most applications.","element":"span"}],[{"text":"In the next section, we review some related work. Theorems ","element":"span"},{"href":"#id-4","text":"1 ","element":"a"},{"text":"and ","element":"span"},{"href":"#id-12","text":"2 ","element":"a"},{"text":"are proved in Sections ","element":"span"},{"text":"3 ","element":"span"},{"text":"and ","element":"span"},{"text":"4","element":"span"},{"text":", respectively. In Section ","element":"span"},{"href":"#id-3","text":"5 ","element":"a"},{"text":"we discuss how to relax Assumptions 1–3 above. Finally, the proof of Theorem ","element":"span"},{"href":"#id-13","text":"3 ","element":"a"},{"text":"appears in Section ","element":"span"},{"text":"6","element":"span"},{"text":".","element":"span"}]]},{"heading":"2 Related work.","paragraphs":[[{"text":"2.1 ","element":"span"},{"text":"Model with collision information.","element":"span"}],[{"text":"Multiplayer multi-armed bandits were introduced by Anantharam, Varaiya, and Walrand [","element":"span"},{"href":"#id-5","referenceIndex":3,"text":"3","element":"a"},{"text":"] and further studied by Komiyama, Honda, and Nakagawa [","element":"span"},{"href":"#id-14","referenceIndex":16,"text":"16","element":"a"},{"text":"]. They studied a centralized setting where there is a single center that observes the rewards of all players and controls the players. The distributed setting was introduced by Liu and Zhao [","element":"span"},{"href":"#id-2","referenceIndex":18,"text":"18","element":"a"},{"text":"], who gave an algorithm with expected regret bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"κ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":", with ","element":"span"},{"style":{"fontStyle":"italic"},"text":"κ ","element":"span"},{"text":"depending on the game parameters, ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":", ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":", and the arm means. They also showed that any algorithm must have regret Ω(log","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":"). The dependence of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"κ ","element":"span"},{"text":"on the parameters was further improved by Anandkumar, Michael, Tang, and Swami [","element":"span"},{"href":"#id-15","referenceIndex":2,"text":"2","element":"a"},{"text":"], Rosenski, Shamir, and Szlak [","element":"span"},{"href":"#id-16","referenceIndex":21,"text":"21","element":"a"},{"text":"], Besson and Kaufmann [","element":"span"},{"href":"#id-7","referenceIndex":6,"text":"6","element":"a"},{"text":"].","element":"span"}],[{"text":"Rosenski et al. [","element":"span"},{"href":"#id-16","referenceIndex":21,"text":"21","element":"a"},{"text":"] introduced a “musical chairs” subroutine to reduce the number of collisions; we have further developed and used this subroutine in our algorithms. Their final algorithm requires the knowledge of ∆ and its expected regret is bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"2 ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK","element":"span"},{"text":"2 ","element":"span"},{"text":"ln(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":") + ","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":"), which is at least as large as the bound of Theorem ","element":"span"},{"href":"#id-4","text":"1","element":"a"},{"text":".","element":"span"}],[{"text":"Let log(·) denote the natural logarithm, and define kl(","element":"span"},{"style":{"fontStyle":"italic"},"text":"x,y","element":"span"},{"text":") ≔ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"x","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"x/y","element":"span"},{"text":")+(1− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"x","element":"span"},{"text":")log((1 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"x","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"(1 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"y","element":"span"},{"text":")). Besson and Kaufmann [","element":"span"},{"href":"#id-7","referenceIndex":6,"text":"6","element":"a"},{"text":"] developed an algorithm whose regret is bounded by","element":"span"}],[{"style":{"width":"55%"},"width":965,"height":164,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/5-0.png","element":"img"}],[{"text":"This bound is not comparable with the bound of Theorem ","element":"span"},{"href":"#id-4","text":"1 ","element":"a"},{"text":"in general; however if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"1 ","element":"span"},{"text":"= ··· = ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"= 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"2 and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"+1 ","element":"span"},{"text":"= ··· = ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"= 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"2 − ∆, then their bound becomes ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"3","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"2 ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":"), which is worse than our bound by a multiplicative factor of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":".","element":"span"}],[{"text":"Since the first version of this paper appeared on arXiv in August 2018, the multiplayer bandits problem has attracted lots of attention and new results have been proved, which improve our bounds in some regimes. One of the main new ideas in some of these algorithms is to use collisions as a means of communication between players.","element":"span"}],[{"text":"Boursier and Perchet [","element":"span"},{"href":"#id-17","text":"11","element":"a"},{"text":", Theorem 1] presented the algorithm SIC-MMAB with expected regret","element":"span"}],[{"style":{"width":"89%"},"width":1541,"height":150,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/6-0.png","element":"img"}],[{"text":"An asymptotic regret lower bound (as ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"→ ∞) of","element":"span"}],[{"id":"id-6","style":{"width":"63%"},"width":1091,"height":126,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/6-1.png","element":"img"}],[{"text":"was proved in Anantharam et al. [","element":"span"},{"href":"#id-5","referenceIndex":3,"text":"3","element":"a"},{"text":", Theorem 3.1]. Assuming all arm means are distinct, Wang, Proutiere, Ariu, Jedra, and Russo [","element":"span"},{"href":"#id-18","referenceIndex":25,"text":"25","element":"a"},{"text":", Theorem 1] presented the algorithm DPE1 achieving this lower bound asymptotically as ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"approaches infin-ity.","element":"span"}],[{"text":"2.2 ","element":"span"},{"text":"Model without collision information.","element":"span"}],[{"text":"The model was introduced by Bonnefoi et al. [","element":"span"},{"href":"#id-19","referenceIndex":9,"text":"9","element":"a"},{"text":"] and further studied by Besson and Kaufmann [","element":"span"},{"href":"#id-7","referenceIndex":6,"text":"6","element":"a"},{"text":"]. These papers introduced an algorithm and studied it empirically but gave no theoretical guarantee.","element":"span"}],[{"text":"Assuming a positive lower bound ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"min ","element":"span"},{"text":"is known for all the arm means, Boursier and Perchet [","element":"span"},{"href":"#id-17","text":"11","element":"a"},{"text":", Theorem 3] presented the algorithm SIC-MMAB2 whose expected regret is","element":"span"}],[{"style":{"width":"58%"},"width":1017,"height":151,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/6-2.png","element":"img"}],[{"text":"Shi, Xiong, Shen, and Yang [","element":"span"},{"href":"#id-20","referenceIndex":22,"text":"22","element":"a"},{"text":", Theorem 2] presented the algorithm EC-SIC with expected regret bound","element":"span"}],[{"style":{"width":"57%"},"width":998,"height":151,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/6-3.png","element":"img"}],[{"text":"where ","element":"span"},{"style":{"fontStyle":"italic"},"text":"E","element":"span"},{"text":"(·) is a certain information-theoretic function called ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Gallager’s error exponent function for the Z-channel","element":"span"},{"text":".","element":"span"}],[{"text":"Assuming the players have access to shared randomness, Bubeck, Budzinski, and Sellke [","element":"span"},{"href":"#id-21","referenceIndex":13,"text":"13","element":"a"},{"text":", Theorem 1.1] gave an algorithm with regret ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK","element":"span"},{"text":"11","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"2","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":") with the additional property that, with probability 1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/T ","element":"span"},{"text":", no collision occurs between players.","element":"span"}],[{"text":"2.3 ","element":"span"},{"text":"Other models.","element":"span"}],[{"text":"Bande and Veeravalli [","element":"span"},{"href":"#id-22","referenceIndex":5,"text":"5","element":"a"},{"text":"] studied a version of the problem in which if more than one players pull an arm, the reward is shared among them.","element":"span"}],[{"text":"Avner and Mannor [","element":"span"},{"href":"#id-23","referenceIndex":4,"text":"4","element":"a"},{"text":"], Rosenski et al. [","element":"span"},{"href":"#id-16","referenceIndex":21,"text":"21","element":"a"},{"text":"], Hanawal and Darak [","element":"span"},{"href":"#id-24","referenceIndex":15,"text":"15","element":"a"},{"text":"], Boursier and Perchet [","element":"span"},{"href":"#id-17","text":"11","element":"a"},{"text":"] studied a dynamic version of the problem, in which the players can leave the game and new players can arrive, and proved sublinear regret bounds.","element":"span"}],[{"text":"In the “heterogeneous” variant of the problem, the arms’ reward distributions can differ across players; for results on this version, see, e.g., Boursier et al. [","element":"span"},{"href":"#id-25","referenceIndex":10,"text":"10","element":"a"},{"text":"] and the references therein.","element":"span"}],[{"text":"Finally, Liu, Ruan, Mania, and Jordan [","element":"span"},{"href":"#id-26","referenceIndex":19,"text":"19","element":"a"},{"text":"] studied a heterogeneous and competitive variant, where the goal is to reach a stable matching as soon as possible.","element":"span"}]]},{"heading":"3 Proof of Theorem 1.","paragraphs":[[{"text":"In this section, we consider only the feedback model in which the collisions are not observed and give an algorithm with regret ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":"). The algorithm outline is simple: first, each player builds estimates for the arm means by random exploration until she detects the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms with high probability. Second, once the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"players have detected the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"best arms, they distribute these among themselves.","element":"span"}],[{"text":"We now explain the details. Each of the players execute the same algorithm, which has four phases, described next. Note that the phases are not synchronized; that is, each phase may have different starting and stopping times for each player. Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"g ","element":"span"},{"text":"≔ 128","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(3","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"2","element":"span"},{"text":").","element":"span"}],[{"text":"Phase 1: The player pulls arms uniformly at random and maintains an estimate for the mean of each arm—the estimate for arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"is the average reward received from arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"divided by (1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1","element":"span"},{"text":". Note that, provided other players are also pulling arms uniformly at random, (1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 ","element":"span"},{"text":"is precisely the probability of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"not ","element":"span"},{"text":"getting a conflict for a random pull, hence the player indeed has an unbiased estimate for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". In other words, for any round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"that","element":"span"}],[{"text":"arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"is pulled and reward ","element":"span"},{"style":{"fontStyle":"italic"},"text":"r","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") is received, since collisions and rewards are independent, we have (recall (","element":"span"},{"href":"#id-27","text":"1","element":"a"},{"text":"))","element":"span"}],[{"style":{"width":"46%"},"width":808,"height":115,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/8-0.png","element":"img"}],[{"text":"For each round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":", the player maintains a sorted list �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"1","element":"span"},{"style":{"fontStyle":"italic"},"text":",t ","element":"span"},{"text":"≥ ··· ≥ �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"style":{"fontStyle":"italic"},"text":",t ","element":"span"},{"text":"of estimated means. Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ ","element":"span"},{"text":"be the first round when �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"style":{"fontStyle":"italic"},"text":",τ ","element":"span"},{"text":"− �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"+1","element":"span"},{"style":{"fontStyle":"italic"},"text":",τ ","element":"span"},{"text":"≥ 3�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/τ","element":"span"},{"text":". The first phase finishes at the end of round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ","element":"span"},{"text":". We will prove that by this time, the player has learned the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms with high probability, and so she has a list ","element":"span"},{"style":{"fontStyle":"italic"},"text":"G ","element":"span"},{"text":"⊆ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"] of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms with the highest means.","element":"span"}],[{"style":{"width":"89%"},"width":1542,"height":47,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/8-1.png","element":"img"}],[{"text":"Phase 3: The player runs a so-called ","element":"span"},{"style":{"fontStyle":"italic"},"text":"musical chairs algorithm ","element":"span"},{"text":"until it occupies an arm. In each round, she pulls a uniformly random arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"∈ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"G","element":"span"},{"text":"; if she gets a positive reward (which means no other player has pulled arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"), we say the player has “occupied” arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":", and this phase is finished for the player. Note that, by construction, at most one player will occupy any given arm.","element":"span"}],[{"style":{"width":"62%"},"width":1083,"height":47,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/8-2.png","element":"img"}],[{"text":"The pseudocode is shown in Algorithm ","element":"span"},{"href":"#id-28","text":"1","element":"a"},{"text":". We next analyze the regret of this algorithm, starting with some preliminary lemmas.","element":"span"}],[{"text":"We will use the following versions of Chernoff-Hoeffding concentration inequalities.","element":"span"}],[{"id":"id-33","text":"Proposition 4 ","element":"span"},{"text":"([","element":"span"},{"href":"#id-29","referenceIndex":20,"text":"20","element":"a"},{"text":", Theorem 2.3]). ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Let the random variables X","element":"span"},{"text":"1","element":"span"},{"style":{"fontStyle":"italic"},"text":",...,X","element":"span"},{"style":{"fontStyle":"italic"},"text":"n ","element":"span"},{"style":{"fontStyle":"italic"},"text":"be independent, with ","element":"span"},{"text":"0 ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"X","element":"span"},{"style":{"fontStyle":"italic"},"text":"k ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"b for each k and some fixed b. Let ","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"= ","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"X","element":"span"},{"style":{"fontStyle":"italic"},"text":"k","element":"span"},{"style":{"fontStyle":"italic"},"text":"/n and µ ","element":"span"},{"text":"= E�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ. Then we have,","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"(a) for any t ","element":"span"},{"text":"≥ 0","element":"span"},{"style":{"fontStyle":"italic"},"text":", ","element":"span"},{"text":"P","element":"span"},{"text":"�","element":"span"},{"text":"|�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"| ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> t","element":"span"},{"text":"� ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"2exp(−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"nt","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/b","element":"span"},{"text":"2","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"(b) and if b ","element":"span"},{"text":"= 1","element":"span"},{"style":{"fontStyle":"italic"},"text":", then for any ε > ","element":"span"},{"text":"0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"}],[{"style":{"width":"37%"},"width":641,"height":58,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/8-3.png","element":"img"}],[{"text":"We start the analysis with Lemma ","element":"span"},{"href":"#id-30","text":"5","element":"a"},{"text":", proving that the mean estimates are close enough to the true means with high probability. Then, in Lemma ","element":"span"},{"href":"#id-31","text":"6 ","element":"a"},{"text":"we prove that with high probability the two first phases will not take too long and once they are finished, all players have learned the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms. Finally, Lemma ","element":"span"},{"href":"#id-32","text":"7 ","element":"a"},{"text":"analyzes the MusicalChairs1 subroutine and shows that with high probability it does not take too long for each player to occupy a distinct good arm.","element":"span"}],[{"id":"id-28","style":{"width":"100%"},"width":1729,"height":2106,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/9-0.png","element":"img"}],[{"text":"1 ","element":"span"},{"text":"while ","element":"span"},{"style":{"fontStyle":"italic"},"text":"true ","element":"span"},{"text":"do","element":"span"}],[{"text":"2 ","element":"span"},{"text":"pull an arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"∈ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A ","element":"span"},{"text":"uniformly at random ","element":"span"},{"text":"3 ","element":"span"},{"text":"if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"positive reward is received ","element":"span"},{"text":"then output ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"// arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"is occupied","element":"span"}],[{"text":"4 ","element":"span"},{"text":"end","element":"span"}],[{"style":{"width":"100%"},"width":1729,"height":298,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/9-1.png","element":"img"}],[{"id":"id-30","text":"Lemma 5. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Consider any fixed player and let ","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"style":{"fontStyle":"italic"},"text":"denote her estimated mean for arm i after t rounds of Phase 1. Then we have","element":"span"}],[{"style":{"width":"69%"},"width":1195,"height":76,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/10-0.png","element":"img"}],[{"style":{"fontStyle":"italic"},"text":"Proof. ","element":"span"},{"text":"Fix an arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"]. Observe that 0 ≤ �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"≤ 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"(1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"(1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"≤ 4, so we have |�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"| ≤ 4 deterministically, so for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"16 we have |�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"| ≤�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/t","element":"span"},{"text":".","element":"span"}],[{"text":"Next, fix some ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t > g/","element":"span"},{"text":"16. Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") denote the number of times this player has pulled arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"by round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":", which is a binomial random variable with mean ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t/K","element":"span"},{"text":", hence Proposition ","element":"span"},{"href":"#id-33","text":"4","element":"a"},{"text":"(b) implies P{","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< t/","element":"span"},{"text":"(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":")} ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"t/","element":"span"},{"text":"8","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"). Thus, the union bound gives","element":"span"}],[{"text":"P�|�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"| ","element":"span"},{"style":{"fontStyle":"italic"},"text":">","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/t","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"t/","element":"span"},{"text":"8","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":") + max","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"≤","element":"span"},{"style":{"fontStyle":"italic"},"text":"s","element":"span"},{"text":"≤","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"P�|�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"| ","element":"span"},{"style":{"fontStyle":"italic"},"text":">","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/t","element":"span"},{"text":"�� ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":") = ","element":"span"},{"style":{"fontStyle":"italic"},"text":"s","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"}],[{"text":"Also, conditioned on any ","element":"span"},{"style":{"fontStyle":"italic"},"text":"s ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"], |�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"| is the difference between an empirical average of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"s ","element":"span"},{"text":"i.i.d. random variables bounded in [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"4] and their expected value, thus Proposition ","element":"span"},{"href":"#id-33","text":"4","element":"a"},{"text":"(a) gives","element":"span"}],[{"style":{"width":"54%"},"width":933,"height":100,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/10-1.png","element":"img"}],[{"text":"giving","element":"span"}],[{"text":"P�|�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"| ","element":"span"},{"style":{"fontStyle":"italic"},"text":">","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/t","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"t/","element":"span"},{"text":"8","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":")+2exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"16","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"128","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":")+2exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"16","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"}],[{"text":"since ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t > g/","element":"span"},{"text":"16. A union bound over ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"] and the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"arms concludes the proof.","element":"span"}],[{"text":"In the next lemma, we prove that with high probability the first two phases will not take too long, and once they are finished, all players have learned the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms.","element":"span"}],[{"id":"id-31","text":"Lemma 6. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"With probability at least ","element":"span"},{"text":"1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT, the following are true.","element":"span"}],[{"style":{"width":"77%"},"width":1333,"height":184,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/10-2.png","element":"img"}],[{"style":{"fontStyle":"italic"},"text":"for all players (where we recall that τ is the round at which phase 1 finishes).","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"(iii) The first two phases are finished for all players after at most ","element":"span"},{"text":"625","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"∆","element":"span"},{"text":"2 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"many rounds.","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Proof. ","element":"span"},{"text":"By the choice of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"g ","element":"span"},{"text":"= 128","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(3","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"2","element":"span"},{"text":"), Lemma ","element":"span"},{"href":"#id-30","text":"5 ","element":"a"},{"text":"and a union bound over the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"players, with probability at least 1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT","element":"span"},{"text":", all players’ mean estimates are off by an additive error of at most�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/t","element":"span"},{"text":", uniformly for all arms and all ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"]. We next explain how the three parts of the lemma follow from this.","element":"span"}],[{"text":"Part (i) follows by noting that a player would stop Phase 1 when she has found a gap of size 3�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/τ ","element":"span"},{"text":"between the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"th the and the (","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"+1)th arm. By this time, she has learned the means of all arms within an additive error of�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/τ","element":"span"},{"text":", therefore by the triangle inequality, she has correctly determined that the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"th mean is larger than the (","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"+ 1)th mean, whence she has learned the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms.","element":"span"}],[{"text":"For part (ii), using the triangle inequality and the definition of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ","element":"span"},{"text":", we have","element":"span"}],[{"style":{"width":"97%"},"width":1690,"height":122,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/11-0.png","element":"img"}],[{"text":"whence ","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ ","element":"span"},{"text":"≥ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":". On the other hand, by time ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"= 25","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":",","element":"span"}],[{"style":{"width":"88%"},"width":1537,"height":122,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/11-1.png","element":"img"}],[{"text":"whence ","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":".","element":"span"}],[{"text":"Part (iii) follows from part (ii) by noting that the duration of Phase 2 is 24","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ ","element":"span"},{"text":"rounds.","element":"span"}],[{"text":"Curious readers may wonder about the role of Phase 2 and ask, “Why cannot a player proceed to Phase 3 right after she has learned the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms?” The answer is that Phase 2 is designed to help other players to find the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms. Indeed, it is possible that a player finishes Phase 1 by round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":", but the algorithm asks her to continue pulling arms at random so other players continue to have unbiased estimators for the means for at least 24","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"∆","element":"span"},{"text":"2 ","element":"span"},{"text":"more rounds, at which point we are guaranteed that all players have finished their Phase 1. Otherwise, if a player switches to Phase 3 too quickly, then this would skew the collision probabilities and other players will not have unbiased mean estimates.","element":"span"}],[{"text":"We now proceed to analyzing Phase 3, the musical chairs subroutine. By this point, all players have learned the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms, hence they just want to share these ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms among themselves as quickly as possible. The next lemma shows that this will not take too long. Note that by definition of the subroutine, once this phase is finished, each player has occupied a distinct arm.","element":"span"}],[{"id":"id-32","text":"Lemma 7. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"With probability at least ","element":"span"},{"text":"1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT, Phase 3 takes at most ","element":"span"},{"text":"4","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"many rounds for all players.","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Proof. ","element":"span"},{"text":"Since each reward ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"text":"takes value in [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1], we have P","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> ","element":"span"},{"text":"0","element":"span"},{"text":"� ","element":"span"},{"text":"≥ E","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y","element":"span"},{"style":{"fontStyle":"italic"},"text":"i,t","element":"span"},{"text":". Fix any player in her Phase 3 who has not occupied an arm, and suppose there are still ","element":"span"},{"style":{"fontStyle":"italic"},"text":"a ","element":"span"},{"text":"unoccupied arms available for her. (There are ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"players, and each occupies at most one arm, hence ","element":"span"},{"style":{"fontStyle":"italic"},"text":"a ","element":"span"},{"text":"≥ 1.) Whenever she tries to occupy an unoccupied arm, her success probability is at least","element":"span"}],[{"style":{"width":"29%"},"width":512,"height":88,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/12-0.png","element":"img"}],[{"text":"Here, ","element":"span"},{"style":{"fontStyle":"italic"},"text":"am ","element":"span"},{"text":"≥ 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/m ","element":"span"},{"text":"is the probability that she pulls an unoccupied arm, ∆ ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"is ","element":"span"},{"text":"a lower bound on the probability that that arm produces a positive reward, and (1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/m","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−","element":"span"},{"style":{"fontStyle":"italic"},"text":"a ","element":"span"},{"text":"≥ 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"4 is the probability that no other player pulls that arm. Hence, the probability that the player has not occupied an arm after ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"attempts can be bounded by (1 − ∆","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"4","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"≤ exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"∆","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"4","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"). Letting ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"= 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆ makes this probability ≤ 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/T m","element":"span"},{"text":"2","element":"span"},{"text":". Applying the union bound over all players completes the proof.","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Proof of Theorem ","element":"span"},{"href":"#id-4","style":{"fontStyle":"italic"},"text":"1","element":"a"},{"style":{"fontStyle":"italic"},"text":". ","element":"span"},{"text":"By Lemma ","element":"span"},{"href":"#id-31","text":"6 ","element":"a"},{"text":"and Lemma ","element":"span"},{"href":"#id-32","text":"7","element":"a"},{"text":", with probability at least 1 − 2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT ","element":"span"},{"text":", the first three phases finish for all players after at most 625","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":"+4","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆ = ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":") many rounds. After this time, each player has occupied one of the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms and different players have occupied distinct arms. During each round, the regret is at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":", hence the total regret incurred during the first three phases is bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":") and the regret afterwards would be 0. On the other hand, with the remaining 2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT ","element":"span"},{"text":"probability, the regret is at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"mT ","element":"span"},{"text":". Therefore, the expected regret is at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":") + 2","element":"span"},{"style":{"fontStyle":"italic"},"text":", ","element":"span"},{"text":"as required. The ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")) can be replaced with ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")), noting that","element":"span"}],[{"style":{"width":"79%"},"width":1371,"height":142,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/12-1.png","element":"img"}]]},{"heading":"4 Proof of Theorem 2.","paragraphs":[[{"text":"Recall that Theorem ","element":"span"},{"href":"#id-12","text":"2 ","element":"a"},{"text":"has three parts focusing on three different settings: in part (a), we do not observe the collision information, but we know a lower bound for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"; in part (b), we observe the collision information, while in part (c), we do not observe the collision information, but we allow the players to leave the game at points of their choice. We start by proving part (a), and then we explain how the algorithm and the analysis can be modified to prove parts (b) and (c).","element":"span"}],[{"text":"4.1 ","element":"span"},{"text":"Algorithm for Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(a).","element":"span"}],[{"text":"We describe the algorithm each player executes, first informally and then formally. Recall that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"is a lower bound for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"that all players know in advance. The algorithm has a parameter ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"which we set it equal to ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"for this part. We say an arm is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν-good ","element":"span"},{"text":"if its mean is at least ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"; otherwise, we say it is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν-bad","element":"span"},{"text":".","element":"span"}],[{"text":"The player maintains estimates �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"1","element":"span"},{"style":{"fontStyle":"italic"},"text":",...,","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"for the means, which approach the actual means as the algorithm proceeds. She also keeps a ","element":"span"},{"style":{"fontStyle":"italic"},"text":"confidence interval ","element":"span"},{"text":"for each arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":", which is centered at �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"and has the property that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"lies in this interval with sufficiently high probability. If arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"has been pulled ","element":"span"},{"style":{"fontStyle":"italic"},"text":"s ","element":"span"},{"text":"times, this interval has length ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(�log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/s","element":"span"},{"text":"). Once the player makes sure that some arm is not among the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms, she marks it as “bad” and puts it in a set ","element":"span"},{"style":{"fontStyle":"italic"},"text":"B","element":"span"},{"text":". This can happen if it is determined that the arm is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-bad or that there are at least ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms whose confidence intervals lie strictly above this arm’s interval (we say interval [","element":"span"},{"style":{"fontStyle":"italic"},"text":"c,d","element":"span"},{"text":"] lies strictly above [","element":"span"},{"style":{"fontStyle":"italic"},"text":"a,b","element":"span"},{"text":"] if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"b < c","element":"span"},{"text":"). On the other hand, once the player makes sure that some arm is within the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms, she marks it as a “golden” arm and puts it in a set ","element":"span"},{"style":{"fontStyle":"italic"},"text":"G","element":"span"},{"text":". This would happen as soon as there are at least ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms that are determined to be bad or whose confidence intervals lie strictly below this arm. Other arms, whose status is yet unknown, are called “silver” arms and kept in a set ","element":"span"},{"style":{"fontStyle":"italic"},"text":"S","element":"span"},{"text":".","element":"span"}],[{"text":"Initially, all arms are silver. The algorithm proceeds in epochs with increasing lengths. In each epoch, the player explores all silver arms and hopes to characterize each silver arm as golden or bad at the end of the epoch. As time proceeds, arms whose means are far away from the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"th arm will be characterized as either golden or bad. Golden arms will be occupied quickly, and bad arms will not be pulled again—this will control the algorithm’s regret.","element":"span"}],[{"text":"Special care is needed to ensure all players explore all silver arms without conflicts; this is done via careful executions of a suitable musical chairs subroutine, called MusicalChairs2, explained in the next paragraph. In each epoch, each player maintains a set ","element":"span"},{"style":{"fontStyle":"italic"},"text":"E ","element":"span"},{"text":"of explored arms, which is empty when the epoch starts. The epoch has ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"+","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 iterations. In each iteration, if there exists some arm in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"S","element":"span"},{"text":"\\","element":"span"},{"style":{"fontStyle":"italic"},"text":"E ","element":"span"},{"text":"(i.e., an unexplored silver arm), the player tries to occupy such an arm; otherwise, the player has finished exploring the arms in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"S","element":"span"},{"text":", and so she will try to occupy and pull an arbitrary arm from ","element":"span"},{"style":{"fontStyle":"italic"},"text":"S","element":"span"},{"text":", while other players are exploring their silver arms. Note that by the assumption that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"≥ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":", any ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-bad arm is bad. The length of the MusicalChairs2 subroutines are chosen such that each ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good arm in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"S ","element":"span"},{"text":"that is not marked as golden by any other player will be explored in each epoch by each player. Thus, if an arm is not explored by the end of an epoch, either the arm is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-bad or the arm is golden and is occupied by another player in the beginning of the epoch. The two cases will be distinguished by checking the empirical reward received from that arm.","element":"span"}],[{"text":"We now describe the MusicalChairs2 subroutine, which is different from MusicalChairs1 from the previous section because different players may have different “target sets” now. (A target set is a subset of the arms that a player wants to explore.) For any target set ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A ","element":"span"},{"text":"of arms and any number ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"of rounds, this subroutine consists of precisely ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"rounds as follows: in each round, the player pulls a uniformly random arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"]. If she gets a positive reward and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"∈ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"text":", then she occupies arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":", pulls arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"for the remaining rounds, and outputs ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":". Otherwise, she tries again. If after ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"rounds she has not occupied any arm, she outputs the dummy index 0. The pseudocode for MusicalChairs2 appears below.","element":"span"}],[{"style":{"width":"100%"},"width":1729,"height":787,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/14-0.png","element":"img"}],[{"text":"The pseudocode for Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(a) appears in Algorithm ","element":"span"},{"href":"#id-34","text":"2 ","element":"a"},{"text":"below. ","element":"span"},{"text":"Note that this algorithm is synchronized—for all players, the epochs and the iterations within the epochs begin and end at the same round.","element":"span"}],[{"text":"To analyze Algorithm ","element":"span"},{"href":"#id-34","text":"2","element":"a"},{"text":", we define two bad events: failure of some Musi-calChairs2 subroutine (handled by Corollary ","element":"span"},{"href":"#id-35","text":"9 ","element":"a"},{"text":"below) or incorrectness of some confidence interval (handled by Lemma ","element":"span"},{"href":"#id-36","text":"10 ","element":"a"},{"text":"below). After proving their unlikeliness, we will bound the regret assuming no bad events happen.","element":"span"}],[{"text":"4.2 ","element":"span"},{"text":"Bounding the failure probability of MusicalChairs2.","element":"span"}],[{"text":"We next prove a lemma bounding the failure probability of this subroutine, but first we formally define the notion of success.","element":"span"}],[{"text":"Definition (","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-successful MusicalChairs2 subroutine). Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"∈ [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1] be arbitrary. Suppose that a subset of players are executing the MusicalChairs2 subroutine simultaneously for some consecutive rounds (call these the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"participating ","element":"span"},{"text":"players), while any other player either pulls uniformly random arms or pulls a fixed arm during these rounds. The participating players may have different target sets. We say a participating player ","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"with target set ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν-successful ","element":"span"},{"text":"if, by the end of the subroutine, either she occupies an arm in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"or all ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good arms in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"are occupied by someone else (participating or otherwise). A player is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν-failed ","element":"span"},{"text":"if she is","element":"span"}],[{"id":"id-34","style":{"width":"100%"},"width":1729,"height":2656,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/15-0.png","element":"img"}],[{"text":"not ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-successful. Moreover, we say the subroutine is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν-successful ","element":"span"},{"text":"if all participating players are ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-successful, and we say the subroutine has ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν-failed ","element":"span"},{"text":"if at least one participating player has ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-failed.","element":"span"}],[{"id":"id-47","text":"Lemma 8. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Let ν ","element":"span"},{"text":"∈ [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1] ","element":"span"},{"style":{"fontStyle":"italic"},"text":"and let α be a positive integer. For MusicalChairs2 of length α, the ν-failure probability of any fixed player is upper bounded by ","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"αν/","element":"span"},{"text":"4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"if m ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K and by ","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"αν ","element":"span"},{"text":"exp(−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"in general.","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Proof. ","element":"span"},{"text":"Fix a player with target set ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"text":". At any round during the subroutine, suppose the player has not occupied an arm and that there are still ","element":"span"},{"style":{"fontStyle":"italic"},"text":"a ","element":"span"},{"text":"≥ 1 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good unoccupied arms in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"A","element":"span"},{"text":". Whenever she tries to occupy one of her target arms, her success probability is at least","element":"span"}],[{"style":{"width":"42%"},"width":734,"height":88,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/16-0.png","element":"img"}],[{"text":"Here, ","element":"span"},{"style":{"fontStyle":"italic"},"text":"a","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"≥ 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K ","element":"span"},{"text":"is the probability that she pulls a ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good unoccupied arm in her ","element":"span"},{"text":"target set, ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"is a lower bound on the probability that that arm produces a positive reward, and (1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 ","element":"span"},{"text":"≥ exp(−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":") is the probability that no other player pulls the same arm. ","element":"span"},{"text":"(Note that her success probability may indeed be larger because she may also occupy ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-bad arms in her target set.) ","element":"span"},{"text":"Hence, the probability that she has not occupied an arm after ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"attempts can be bounded by (1 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"exp(−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"≤ exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"αν ","element":"span"},{"text":"exp(−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":"). If ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":", the argument is identical, but we use the tighter bound (1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> ","element":"span"},{"text":"(1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"≥ 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"4.","element":"span"}],[{"text":"Applying a union bound over the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"players gives the following corollary.","element":"span"}],[{"id":"id-35","text":"Corollary 9. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Let ν ","element":"span"},{"text":"∈ [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1] ","element":"span"},{"style":{"fontStyle":"italic"},"text":"and let α be a positive integer. The ν-failure probability of a MusicalChairs2 subroutine of length α is not more than m","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"αν/","element":"span"},{"text":"4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"if m ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K and m","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"αν ","element":"span"},{"text":"exp(−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"in general.","element":"span"}],[{"text":"4.3 ","element":"span"},{"text":"Proof of Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(a).","element":"span"}],[{"text":"As explained in later subsections, the proofs of Theorems ","element":"span"},{"href":"#id-12","text":"2 ","element":"a"},{"text":"(b, c) differ only in values of the parameters ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν,α,g","element":"span"},{"text":". For this part, we put ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"and define","element":"span"}],[{"id":"id-37","style":{"width":"77%"},"width":1345,"height":57,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/16-1.png","element":"img"}],[{"text":"We first define the two bad events formally. The first bad event is that some MusicalChairs2 subroutines ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-fail, and the second bad event is that some player’s confidence interval is incorrect, i.e., the actual mean does not lie in the confidence interval. We start by bounding the probability of the bad events.","element":"span"}],[{"id":"id-36","text":"Lemma 10. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Let ν ","element":"span"},{"text":"∈ [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1] ","element":"span"},{"style":{"fontStyle":"italic"},"text":"be arbitrary and define α,g as in ","element":"span"},{"text":"(","element":"span"},{"href":"#id-37","text":"4","element":"a"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":". The probability that some bad event happens is at most ","element":"span"},{"text":"1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT .","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Proof. ","element":"span"},{"text":"The probability that some MusicalChairs2 subroutine ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-fails is bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"αν/","element":"span"},{"text":"4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":") by Corollary ","element":"span"},{"href":"#id-35","text":"9","element":"a"},{"text":". By a union bound over the (at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":") epochs and the 1 + 2(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− 1) ≤ 3","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km ","element":"span"},{"text":"times MusicalChairs2 is executed in each epoch, the probability that some MusicalChairs2 subroutine ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-fails is at most 3","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km ","element":"span"},{"text":"× ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"× ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"αν/","element":"span"},{"text":"4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":") ≤ 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"mT ","element":"span"},{"text":", as ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"= 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ν","element":"span"},{"text":".","element":"span"}],[{"text":"Whenever a confidence interval for some arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"is updated in some epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"(Line ","element":"span"},{"href":"#id-34","text":"21","element":"a"},{"text":"), the arm has been pulled precisely 2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"times right before that (Line ","element":"span"},{"href":"#id-34","text":"20","element":"a"},{"text":"). Hence, the probability that some confidence interval is incorrect for some player, say in epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":", is bounded via Proposition ","element":"span"},{"href":"#id-33","text":"4","element":"a"},{"text":"(a) by","element":"span"}],[{"style":{"width":"64%"},"width":1123,"height":125,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/17-0.png","element":"img"}],[{"text":"By a union bound over the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"players, the (at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":") epochs, and the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"+","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km ","element":"span"},{"text":"many updates of the confidence intervals within each epoch, the probability of some incorrect confidence interval is at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"× ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"× ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km ","element":"span"},{"text":"× 2exp(−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"g","element":"span"},{"text":") ≤ 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"mT ","element":"span"},{"text":", as ","element":"span"},{"style":{"fontStyle":"italic"},"text":"g ","element":"span"},{"text":"= log(4","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"3","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"2, completing the proof.","element":"span"}],[{"text":"We are now ready to prove Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(a).","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Proof of Theorem ","element":"span"},{"href":"#id-12","style":{"fontStyle":"italic"},"text":"2","element":"a"},{"style":{"fontStyle":"italic"},"text":"(a). ","element":"span"},{"text":"We bound the regret assuming no bad event happens, and the bound for the expected regret follows as in the proof of Theorem ","element":"span"},{"href":"#id-4","text":"1","element":"a"},{"text":". We first prove four deterministic claims and then bound the regret. ","element":"span"},{"text":"Informally, these claims are:","element":"span"}],[{"text":"1. Any silver arm is explored at least 2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"times by each ","element":"span"},{"style":{"fontStyle":"italic"},"text":"active player ","element":"span"},{"text":"during epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". (An active player is one that has not occupied a golden arm yet.)","element":"span"}],[{"text":"2. No player makes a mistake in marking an arm as golden or bad.","element":"span"}],[{"text":"3. Any arm whose mean is much smaller than ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"will be marked by all players as bad quickly.","element":"span"}],[{"text":"4. Any arm whose mean is much larger than ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"will be marked by all players as golden quickly and occupied by one of them quickly.","element":"span"}],[{"text":"We now proceed to the formal argument. Note that each epoch has two types of rounds: ","element":"span"},{"style":{"fontStyle":"italic"},"text":"estimation rounds ","element":"span"},{"text":"(Line ","element":"span"},{"href":"#id-34","text":"20","element":"a"},{"text":"), in which each arm is pulled by at most one player, during which she updates her estimate of its mean, and other rounds, during which some players are executing MusicalChairs2, hence we call them ","element":"span"},{"style":{"fontStyle":"italic"},"text":"MusicalChairs2 rounds","element":"span"},{"text":".","element":"span"}],[{"text":"Observe that, since there are at least ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"many ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good arms (here we are using the fact ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"), we always have |","element":"span"},{"style":{"fontStyle":"italic"},"text":"G ","element":"span"},{"text":"∪ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"S","element":"span"},{"text":"| ≥ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":", and since the MusicalChairs2 subroutines are always ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-successful, there will be no collision during the estimation rounds.","element":"span"}],[{"text":"The first claim is the following: consider a player that has just executed her Line ","element":"span"},{"href":"#id-34","text":"7 ","element":"a"},{"text":"in epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". Consider also a ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"that is silver, and suppose this arm is not occupied by another player as a golden arm in their Line ","element":"span"},{"href":"#id-34","text":"5","element":"a"},{"text":". Then the claim is that the player will pull arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"at least 2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"times during epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"and will put it in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"E ","element":"span"},{"text":"at the end of the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"+","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 iterations. To prove this, note that the epoch has ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"+","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 iterations. In each iteration, if the player has any unexplored silver arm, in the first ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"rounds she attempts to occupy one of those (Line ","element":"span"},{"href":"#id-34","text":"11","element":"a"},{"text":") while other players pull random arms. By Lemma ","element":"span"},{"href":"#id-38","text":"11 ","element":"a"},{"text":"below and since the MusicalChairs2 subroutines are ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-successful, after the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− 1 iterations, each player has explored any such arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":". Therefore, the confidence interval of each such arm will have length 2�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":".","element":"span"}],[{"text":"The second claim is that the algorithm never makes a mistake in characterizing the arms as golden and bad. First, the characterizations based on confi-dence intervals (Lines ","element":"span"},{"href":"#id-34","text":"31","element":"a"},{"text":"–","element":"span"},{"href":"#id-34","text":"35","element":"a"},{"text":") are correct because all confidence intervals are correct. Now fix an epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"and an arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":", and note that if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"∈ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"S ","element":"span"},{"text":"\\ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"E ","element":"span"},{"text":"on Line ","element":"span"},{"href":"#id-34","text":"24","element":"a"},{"text":", that means ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"is not explored, and that can be for one of two reasons: it may be a golden arm occupied by another player on her Line ","element":"span"},{"href":"#id-34","text":"5 ","element":"a"},{"text":"or its mean may be smaller than ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":".","element":"span"}],[{"text":"Case 1: arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"is a golden arm occupied by another player. Let �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"′","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"be the ","element":"span"},{"text":"average reward received from this arm by the other player. Suppose the arm was marked as golden by the other player in epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"′ ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"− 1. Then we must have had �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"′","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> ν ","element":"span"},{"text":"+ 3","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"′ ","element":"span"},{"text":"(see Line ","element":"span"},{"href":"#id-34","text":"34","element":"a"},{"text":"). This implies","element":"span"}],[{"style":{"width":"54%"},"width":943,"height":92,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/18-0.png","element":"img"}],[{"text":"On the other hand, at the end of epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"− 1, since ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"was silver and the confidence intervals were correct, we have �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"≥ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"−�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"−1 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> ν ","element":"span"},{"text":"+�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"−1","element":"span"},{"text":", hence in epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":", Line ","element":"span"},{"href":"#id-34","text":"26 ","element":"a"},{"text":"is executed and the algorithm correctly marks ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"as golden.","element":"span"}],[{"text":"Case 2: the mean of arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"is smaller than ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":". Because the confidence intervals were correct at the end of epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"− 1, ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"lies in the confidence interval for arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":", which has length�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"−1","element":"span"},{"text":". This means �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"−�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"−1 ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":", so in epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":", Line ","element":"span"},{"href":"#id-34","text":"28 ","element":"a"},{"text":"is executed and the player correctly marks ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"as bad.","element":"span"}],[{"text":"The third claim is that any arm with mean ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− 4�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"will be marked as bad by all players by the end of epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"be such an arm and suppose we are at the end of epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". By Line ","element":"span"},{"href":"#id-34","text":"32 ","element":"a"},{"text":"of the algorithm, it suffices to show that there exists at least ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"such that either ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"∈ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"G ","element":"span"},{"text":"or �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"− �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> ","element":"span"},{"text":"2�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"or both. In fact,","element":"span"}],[{"text":"this holds for all ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"], since for any ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"], if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"� ","element":"span"},{"style":{"fontStyle":"italic"},"text":"G","element":"span"},{"text":", then ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"∈ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"S","element":"span"},{"text":", which implies","element":"span"}],[{"style":{"width":"86%"},"width":1492,"height":92,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/19-0.png","element":"img"}],[{"text":"The fourth claim, whose proof is similar to the third claim, is that any arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"with ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"+ 4�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"will be marked as golden by all players by the end of epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". The only difference is the additional condition �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> ν ","element":"span"},{"text":"+3�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":", which is satisfied by any such arm. Indeed, we have","element":"span"}],[{"style":{"width":"52%"},"width":905,"height":91,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/19-1.png","element":"img"}],[{"text":"by correctness of confidence intervals and since ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":".","element":"span"}],[{"text":"Now, we bound the algorithm’s regret. First, the number of epochs is fewer than log","element":"span"},{"text":"2","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"2log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":"). The number of iterations per epoch is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− 1 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":", whence the total number of MusicalChairs2 rounds can be bounded by 2log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":")(","element":"span"},{"style":{"fontStyle":"italic"},"text":"α","element":"span"},{"text":"+ 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"Kα","element":"span"},{"text":") ≤ 10","element":"span"},{"style":{"fontStyle":"italic"},"text":"Kα ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":"). We next bound the regret of the estimation rounds. The regret of the first epoch can be bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"·(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"+","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1)·2","element":"span"},{"text":"1 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"4","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km","element":"span"},{"text":". Next note that any arm with mean ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"+ 4�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"−1 ","element":"span"},{"text":"has been put in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"G ","element":"span"},{"text":"by the end of epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"− 1 by all players by the fourth claim, and so some player occupies it in the beginning of epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":". During epoch ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":", each active player pulls either a silver or a golden arm, which are at most 8�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"−1 ","element":"span"},{"text":"away from the best available arms by the third and fourth claims. Since the probability that some bad event happens is 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT ","element":"span"},{"text":"(Lemma ","element":"span"},{"href":"#id-36","text":"10","element":"a"},{"text":"), and in this case the total regret can be bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"mT ","element":"span"},{"text":", the total expected regret can be bounded by","element":"span"}],[{"id":"id-39","style":{"width":"101%"},"width":1748,"height":391,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/19-2.png","element":"img"}],[{"text":"Recall that ∆","element":"span"},{"text":"′ ","element":"span"},{"text":"= min{","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":": ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"}. Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"be the smallest integer that 4�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"∆","element":"span"},{"text":"′","element":"span"},{"text":". So, after the first ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"epochs, any silver arm will have mean precisely ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":", and the regret will be zero afterwards. Hence, the total expected regret is alternatively bounded by","element":"span"}],[{"id":"id-40","style":{"width":"100%"},"width":1729,"height":316,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/19-3.png","element":"img"}],[{"text":"Combining (","element":"span"},{"href":"#id-39","text":"5","element":"a"},{"text":") and (","element":"span"},{"href":"#id-40","text":"6","element":"a"},{"text":") gives that the expected regret is upper bounded by","element":"span"}],[{"id":"id-42","style":{"width":"80%"},"width":1391,"height":61,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/20-0.png","element":"img"}],[{"text":"This bound holds for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"= 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ν ","element":"span"},{"text":"and any 0 ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":". Recalling that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"gives Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(a).","element":"span"}],[{"text":"The following lemma is the last piece in completing the proof of Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(a).","element":"span"}],[{"id":"id-38","text":"Lemma 11. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Fix an epoch and suppose that all MusicalChairs2 subroutines of Line ","element":"span"},{"href":"#id-34","style":{"fontStyle":"italic"},"text":"11 ","element":"a"},{"style":{"fontStyle":"italic"},"text":"are ν-successful. Then, during the K ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− 1 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"iterations of the epoch, each player will occupy each ν-good silver arm at least once.","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Proof. ","element":"span"},{"text":"Consider a bipartite graph with one part being the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"players and the other part the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"arms, with an edge between a player and an arm if the arm is silver and unexplored for that player. Say an edge is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"good ","element":"span"},{"text":"if the corresponding arm is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good. Say two edges are ","element":"span"},{"style":{"fontStyle":"italic"},"text":"neighbors ","element":"span"},{"text":"if they share a vertex, and the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"degree ","element":"span"},{"text":"of an edge is its number of neighbors. Initially, the degree of each edge is at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− 2. Whenever the MusicalChairs2 subroutine in Line ","element":"span"},{"href":"#id-34","text":"11 ","element":"a"},{"text":"is executed, the set of edges corresponding to players and their occupied arms forms an edge-matching in this graph, i.e., a set of edges such that no two of them are neighbors. Moreover, since the MusicalChairs2 subroutine is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-successful by assumption, this matching ","element":"span"},{"style":{"fontStyle":"italic"},"text":"M ","element":"span"},{"text":"has the property that, for any good edge ","element":"span"},{"style":{"fontStyle":"italic"},"text":"e","element":"span"},{"text":", either ","element":"span"},{"style":{"fontStyle":"italic"},"text":"e ","element":"span"},{"text":"∈ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"M ","element":"span"},{"text":"or some neighbor of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"e ","element":"span"},{"text":"lies in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"M","element":"span"},{"text":". After the execution of this subroutine, this matching is deleted from the graph, hence the degree of each good edge decreases by 1. In particular, the maximum degree of good edges decrease by 1. Once this maximum degree becomes zero, in the next iteration all good edges will be deleted. Therefore, after at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"+","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− 1 iterations, all good edges will be deleted, which means all ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good silver arms are explored, as required.","element":"span"}],[{"text":"4.4 ","element":"span"},{"text":"Proof of Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(b).","element":"span"}],[{"text":"Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(b) considers the stronger feedback model where we observe the collision information but no lower bound ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"is known. Note that in the algorithm for part (a), the parameter ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"is mainly used to set the length of the MusicalChairs2 subroutines to make sure that each player will succeed in MusicalChairs2 with high probability. For this part, we observe the collision information, so we can modify MusicalChairs2 to use this information and determine its length without knowing ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":".","element":"span"}],[{"text":"More precisely, the algorithm is the same as in part (a), except we set ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"= 0 and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"= 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":") and replace MusicalChairs2 with MusicalChairs3, described next. To obtain MusicalChairs3, we modify MusicalChairs2 such that for a player to occupy an arm, she simply looks at the collision information and occupies the arm if there is no collision. Its pseudocode appears below.","element":"span"}],[{"style":{"width":"100%"},"width":1729,"height":786,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/21-0.png","element":"img"}],[{"text":"The notions of success and failure are defined similarly as before but without a parameter ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"(one can think ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"= 0 in this case: all arms are 0-good). We have the following bound for its failure probability, whose statement and proof are identical to that for Corollary ","element":"span"},{"href":"#id-35","text":"9","element":"a"},{"text":", except there is no parameter ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":".","element":"span"}],[{"id":"id-41","text":"Corollary 12. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Let α be a positive integer. In the stronger feedback model with collision information available, the failure probability of MusicalChairs3 subroutine of length α is not more than m","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"α/","element":"span"},{"text":"4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"if m ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K and m","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"exp(−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"in general.","element":"span"}],[{"text":"The proof of Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(b) is identical to part (a), except we use Corollary ","element":"span"},{"href":"#id-41","text":"12 ","element":"a"},{"text":"instead of Corollary ","element":"span"},{"href":"#id-35","text":"9","element":"a"},{"text":"; we obtain the bound (","element":"span"},{"href":"#id-42","text":"7","element":"a"},{"text":"), which using ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"= 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"Km","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":") proves Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(b).","element":"span"}],[{"text":"4.5 ","element":"span"},{"text":"Proof of Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(c).","element":"span"}],[{"text":"Part (c) considers the case that we do not know ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"and we do not observe the collision information, but the players have the option to leave the game. The trouble is that it is not clear how to choose the lengths of MusicalChairs2 subroutines. To solve this issue, we choose really large lengths for MusicalChairs2 subroutines, and if a player has not occupied an arm at the end of a subroutine, she will leave the game. This can happen only if any remaining unoccupied arm has a really small mean, so we have not lost much by not pulling that arm anyway. We explain the details next.","element":"span"}],[{"text":"We make the following changes to the algorithm for part (a): we choose ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"√","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"and define ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α,g ","element":"span"},{"text":"using (","element":"span"},{"href":"#id-37","text":"4","element":"a"},{"text":") (so Lemma ","element":"span"},{"href":"#id-36","text":"10 ","element":"a"},{"text":"still applies: all Musi-calChairs2 subroutines are ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-successful with high probability), and we add the following line before Line ","element":"span"},{"href":"#id-34","text":"20","element":"a"},{"text":": “if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"= 0 then leave the game.” Namely, if a player has not occupied an arm when she wants to start an estimation period, she would simply leave the game and never pull any arm again. Observe that this could happen only if there are fewer than ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"many ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good arms, so players may fail to find and occupy an arm. Suppose ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"′ ","element":"span"},{"text":"of the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"arms are ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-bad. Once ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"′ ","element":"span"},{"text":"players have left the game, we will have ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"′ ","element":"span"},{"text":"players and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"′ ","element":"span"},{"text":"many ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good arms, so the algorithm will work as in part (a) from that point onward and the same analysis works. We would only lose a reward of at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"′","element":"span"},{"style":{"fontStyle":"italic"},"text":"νT ","element":"span"},{"text":"due to the players who have left the game. The total expected regret can be thus bounded via (","element":"span"},{"href":"#id-42","text":"7","element":"a"},{"text":") by","element":"span"}],[{"style":{"width":"66%"},"width":1155,"height":144,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/22-0.png","element":"img"}],[{"id":"id-3","text":"completing the proof of Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(c).","element":"span"}]]},{"heading":"5 Relaxing the assumptions.","paragraphs":[[{"text":"Recall that all the theorems presented so far made three assumptions:","element":"span"}],[{"style":{"width":"78%"},"width":1362,"height":243,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/22-1.png","element":"img"}],[{"text":"Moreover, for different parts of Theorem ","element":"span"},{"href":"#id-12","text":"2 ","element":"a"},{"text":"we have made additional assumptions. In this section, we discuss how the Assumptions 1–3 can be removed at the expense of getting worse regret bounds. Some assumptions can be removed independently of other assumptions, but some of them cannot be removed unconditionally; we discuss them one by one.","element":"span"}],[{"text":"5.1 ","element":"span"},{"text":"Unknown time horizon.","element":"span"}],[{"text":"The assumption that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"is known can be removed independently of any other assumption, and the regret bound would multiply by at most log","element":"span"},{"text":"2","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":").","element":"span"}],[{"text":"Indeed, if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"is not known, we can apply a simple doubling trick (see [","element":"span"},{"href":"#id-43","referenceIndex":7,"text":"7","element":"a"},{"text":"] for various variants): we execute the algorithm assuming ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"= 1, then we execute it assuming ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"= 2 × 1, and so on, until the actual time horizon is reached. If the expected regret of the algorithm for a known time horizon ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"R","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":"), then the expected regret of the modified algorithm for an unknown time horizon would be","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"R","element":"span"},{"text":"′","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":") ≤ ","element":"span"},{"text":"�","element":"span"},{"text":"⌊log","element":"span"},{"text":"2","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":")⌋","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"=0 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"R","element":"span"},{"text":"(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":") ≤ log","element":"span"},{"text":"2","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")×","element":"span"},{"style":{"fontStyle":"italic"},"text":"R","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":". ","element":"span"},{"text":"For example, if the players have the option of leaving the game, we can apply Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(c) to get the regret upper bound","element":"span"}],[{"style":{"width":"82%"},"width":1427,"height":51,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/23-0.png","element":"img"}],[{"style":{"fontStyle":"italic"},"text":"R","element":"span"},{"text":"′","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":") ≤","element":"span"}],[{"style":{"width":"54%"},"width":933,"height":26,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/23-1.png","element":"img"}],[{"text":"which is within a constant multiplicative factor of the upper bound for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"R","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T","element":"span"},{"text":").","element":"span"}],[{"text":"5.2 ","element":"span"},{"text":"Other reward distributions.","element":"span"}],[{"text":"The assumption that the rewards always lie in [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1] can be relaxed, independently of other assumptions, to the assumption that the rewards have subgaussian distributions with mean lying in a known interval; of course the regret bounds must be re-normalized, and we also get a multiplicative logarithmic factor in some cases.","element":"span"}],[{"text":"In the proofs, we have used this assumption in three ways: first, we used that the expected regret incurred any round can be bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"; second, that the rewards satisfy the Chernoff-Hoeffding concentration inequality (Proposition ","element":"span"},{"href":"#id-33","text":"4","element":"a"},{"text":"(a)); and third, for bounding the failure probability of MusicalChairs2,3 subroutines we used that P{","element":"span"},{"style":{"fontStyle":"italic"},"text":"X > ","element":"span"},{"text":"0} ≥ E","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"for any random variable ","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"∈ [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1].","element":"span"}],[{"text":"A random variable ","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ-sub-Gaussian ","element":"span"},{"text":"if max{P{","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"− E","element":"span"},{"style":{"fontStyle":"italic"},"text":"X < ","element":"span"},{"text":"−","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"}","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"P{","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"− E","element":"span"},{"style":{"fontStyle":"italic"},"text":"X > t","element":"span"},{"text":"}} ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ","element":"span"},{"text":"2","element":"span"},{"text":"); for example, a standard normal random variable is 1-sub-Gaussian. The first two facts hold, with appropriate adjustments, for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ","element":"span"},{"text":"-sub-Gaussian random variables whose means lie in a bounded interval [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",b","element":"span"},{"text":"], see, e.g., [","element":"span"},{"href":"#id-44","referenceIndex":24,"text":"24","element":"a"},{"text":", Chapter 2]. The third fact also holds up to a logarithmic factor, see Lemma ","element":"span"},{"href":"#id-45","text":"13 ","element":"a"},{"text":"below. Hence, after appropriate adjustments, our main theorems can be readily extended to such distributions.","element":"span"}],[{"id":"id-45","text":"Lemma 13. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Let X ","element":"span"},{"text":"≥ 0 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"be a random variable with mean µ that satisfies ","element":"span"},{"text":"P","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"X > µ ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"� ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"t","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ","element":"span"},{"text":"2","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":". Then we have ","element":"span"},{"text":"P{","element":"span"},{"style":{"fontStyle":"italic"},"text":"X > ","element":"span"},{"text":"0} ≥ min{|","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ/","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ/µ","element":"span"},{"text":"))|","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1}","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"99","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Proof. ","element":"span"},{"text":"By dividing ","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ ","element":"span"},{"text":"we may assume ","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ ","element":"span"},{"text":"= 1. Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"≥ 0 be a parameter to be chosen later, and define ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"· 1[","element":"span"},{"style":{"fontStyle":"italic"},"text":"X > t ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"] and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Z ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"· 1[","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"]. Note that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"= E","element":"span"},{"style":{"fontStyle":"italic"},"text":"X ","element":"span"},{"text":"= E","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y ","element":"span"},{"text":"+ E","element":"span"},{"style":{"fontStyle":"italic"},"text":"Z ","element":"span"},{"text":"and E","element":"span"},{"style":{"fontStyle":"italic"},"text":"Z ","element":"span"},{"text":"≤ P{","element":"span"},{"style":{"fontStyle":"italic"},"text":"X > ","element":"span"},{"text":"0}(","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"). We next write E","element":"span"},{"style":{"fontStyle":"italic"},"text":"Y ","element":"span"},{"text":"as","element":"span"}],[{"style":{"width":"100%"},"width":1729,"height":436,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/23-2.png","element":"img"}],[{"style":{"width":"100%"},"width":1729,"height":352,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/24-0.png","element":"img"}],[{"text":"Consequently,","element":"span"}],[{"style":{"width":"66%"},"width":1155,"height":57,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/24-1.png","element":"img"}],[{"text":"which implies","element":"span"}],[{"style":{"width":"46%"},"width":805,"height":118,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/24-2.png","element":"img"}],[{"text":"Now, if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"≤ 0","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"},{"text":"05 then setting ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"= log(1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/µ","element":"span"},{"text":") gives that the right-hand side is greater than ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ/","element":"span"},{"text":"(5log(1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/µ","element":"span"},{"text":")) = |","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ/","element":"span"},{"text":"(5log(1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/µ","element":"span"},{"text":"))|. (Here, we have used the inequality","element":"span"}],[{"style":{"width":"91%"},"width":1586,"height":59,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/24-3.png","element":"img"}],[{"text":"which holds for all 0 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< µ ","element":"span"},{"text":"≤ 0","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"},{"text":"05.)","element":"span"}],[{"text":"On the other hand, if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ > ","element":"span"},{"text":"0","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"},{"text":"05, setting ","element":"span"},{"style":{"fontStyle":"italic"},"text":"t ","element":"span"},{"text":"= 4 gives that the right-hand side is greater than 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"99, as required. (Here, we have used the inequality (98 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"e","element":"span"},{"text":"−8","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ > ","element":"span"},{"text":"4 + 33 × ","element":"span"},{"style":{"fontStyle":"italic"},"text":"e","element":"span"},{"text":"−8","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"8, which holds for any ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ > ","element":"span"},{"text":"0","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"},{"text":"05.)","element":"span"}],[{"text":"5.3 ","element":"span"},{"text":"More players than arms.","element":"span"}],[{"text":"We next consider the assumption that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"≥ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"and explain how and when it can be removed. First, note that if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K < m ","element":"span"},{"text":"then the term ","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"∈[","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"] ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"in the definition of ","element":"span"},{"text":"regret (","element":"span"},{"href":"#id-46","text":"2","element":"a"},{"text":") is not well defined, hence we must redefine the regret. There are two natural ways to do this.","element":"span"}],[{"text":"5.3.1 ","element":"span"},{"text":"Original model.","element":"span"}],[{"text":"In the original model, if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K < m","element":"span"},{"text":", then the best strategy for the players, had they known the means, would be for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"− 1 of them to occupy the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"− 1 arms and for the rest to occupy the worst arm; so the regret in this case can be defined as","element":"span"}],[{"style":{"width":"58%"},"width":1010,"height":121,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/24-4.png","element":"img"}],[{"text":"Let ∆ ≔ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"−1 ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":".","element":"span"}],[{"text":"For this model, we present an algorithm without observing the collision information and without the assumption ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"≥ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"with expected regret ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":")exp(4","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":").","element":"span"}],[{"text":"We assume that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"is known and the rewards lie in [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1]; we have explained in previous subsections how the regret bound will be affected if these are relaxed. The algorithm crucially assumes ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"is known to the players.","element":"span"}],[{"text":"The algorithm is similar to Algorithm ","element":"span"},{"href":"#id-28","text":"1","element":"a"},{"text":". Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"≔ (1−1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 ","element":"span"},{"text":"≥ exp(−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":") be the probability of no-collision when the players pull arms uniformly at random, and let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"g ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"CK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/p","element":"span"},{"text":"2 ","element":"span"},{"text":"for a sufficiently large constant ","element":"span"},{"style":{"fontStyle":"italic"},"text":"C","element":"span"},{"text":". Each player pulls arms randomly until at some round ","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ ","element":"span"},{"text":"she finds a gap of 3�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/τ ","element":"span"},{"text":"between the (","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"− 1)th and the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"th arm, and she continues for 24","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ ","element":"span"},{"text":"more rounds to make sure that all others have also found this gap. ","element":"span"},{"text":"An argument similar to that of Lemma ","element":"span"},{"href":"#id-31","text":"6 ","element":"a"},{"text":"gives that these two phases will take ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/p","element":"span"},{"text":"2","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":") many rounds. Moreover, each player has learned that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"−1 ","element":"span"},{"text":"≥ ∆ ≥�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/τ ","element":"span"},{"text":"and that�","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ/g ","element":"span"},{"text":"≤ 5","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆ (see Lemma ","element":"span"},{"href":"#id-31","text":"6","element":"a"},{"text":"(ii)). Then the player executes MusicalChairs2 on the set of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"− 1 best arms, for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"α ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"CK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")�","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ/g/p ","element":"span"},{"text":"many rounds, for a large enough constant ","element":"span"},{"style":{"fontStyle":"italic"},"text":"C","element":"span"},{"text":". Since ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"αµ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"−1","element":"span"},{"style":{"fontStyle":"italic"},"text":"p/K","element":"span"},{"text":") ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"exp(−","element":"span"},{"style":{"fontStyle":"italic"},"text":"α","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/τp/K","element":"span"},{"text":") ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ","element":"span"},{"text":"1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT ","element":"span"},{"text":", Lemma ","element":"span"},{"href":"#id-47","text":"8 ","element":"a"},{"text":"implies that, with probability at least 1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT ","element":"span"},{"text":", all players will be�","element":"span"},{"style":{"fontStyle":"italic"},"text":"g/τ","element":"span"},{"text":"-successful, meaning that the best ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"− 1 arms are occupied. After MusicalChairs2 is finished, if the player has occupied an arm, she will pull it until the end of game, otherwise she pulls the worst arm for the rest of game. Thus, the regret will be zero after at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/p","element":"span"},{"text":"2","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":")+","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")�","element":"span"},{"style":{"fontStyle":"italic"},"text":"τ/g/p","element":"span"},{"text":") ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/p","element":"span"},{"text":"2","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":") many rounds, giving a total expected regret of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/p","element":"span"},{"text":"2","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":") ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")exp(4","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"∆","element":"span"},{"text":"2","element":"span"},{"text":").","element":"span"}],[{"text":"5.3.2 ","element":"span"},{"text":"Model allowing players to leave.","element":"span"}],[{"text":"Alternatively, if we allow the players to leave the game, the best strategy had they known the means would be for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"players to leave the game and for the rest to occupy distinct arms. The regret in this model can be defined as","element":"span"}],[{"style":{"width":"56%"},"width":981,"height":122,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/25-0.png","element":"img"}],[{"text":"For this model, we present an algorithm without observing collision information and without the assumption ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"≥ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":". We assume that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"is known and the rewards lie in [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1]; we have explained in previous subsections how the regret bound will be affected if these are relaxed. The algorithm crucially assumes ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"is known to the players.","element":"span"}],[{"text":"The algorithm is simple: each player executes the MusicalChairs2 algorithm for a certain number of rounds, and if she has not occupied an arm by that time, she leaves the game.","element":"span"}],[{"text":"The number of rounds they play MusicalChairs2 is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"TK","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"exp(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ν","element":"span"},{"text":") with ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"=�","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"TK","element":"span"},{"text":")exp(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/T ","element":"span"},{"text":". With high probability, ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν","element":"span"},{"text":"-good arms will be occupied, and any other arm contributes a regret of at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"νT ","element":"span"},{"text":". So the total expected","element":"span"}],[{"text":"regret can be bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"TK","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"exp(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ν ","element":"span"},{"text":"+","element":"span"},{"style":{"fontStyle":"italic"},"text":"KνT ","element":"span"},{"text":"), which by the choice of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ν ","element":"span"},{"text":"gives the bound ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"exp(","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")�","element":"span"},{"style":{"fontStyle":"italic"},"text":"mT ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T K","element":"span"},{"text":")) for the expected regret.","element":"span"}],[{"text":"If we make an additional assumption that the players know a lower bound ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"min ","element":"span"},{"text":"for all the arm means, then instead they play MusicalChairs2 for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"exp(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/µ","element":"span"},{"text":"min","element":"span"},{"text":") many rounds, and by Lemma ","element":"span"},{"href":"#id-47","text":"8","element":"a"},{"text":", with probability at least 1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/mT ","element":"span"},{"text":", all the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"arms are occupied, whence the total expected regret is bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":")exp(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/µ","element":"span"},{"text":"min","element":"span"},{"text":").","element":"span"}],[{"text":"Alternatively, if instead of knowing ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"min ","element":"span"},{"text":"the players observe the collision information, they play MusicalChairs3 for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"exp(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")) many rounds, and the total expected regret is upper bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":")exp(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m/K","element":"span"},{"text":")).","element":"span"}],[{"text":"5.4 ","element":"span"},{"text":"Unknown number of players.","element":"span"}],[{"text":"We next consider the assumption that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"is known and explain how it can be removed. We assume that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"is known and the rewards lie in [0","element":"span"},{"style":{"fontStyle":"italic"},"text":",","element":"span"},{"text":"1]; we have explained in previous subsections how the regret bound will be affected if these are relaxed. Crucially, we assume ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":", although if ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"CK ","element":"span"},{"text":"for some known absolute constant ","element":"span"},{"style":{"fontStyle":"italic"},"text":"C","element":"span"},{"text":", then the analysis in this section works after appropriate adjustments and all the derived asymptotic bounds hold.","element":"span"}],[{"text":"In this section, we present two subroutines to estimate ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"in two different settings: when the collision information is observed and when the collision information is not observed but ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":"1 ","element":"span"},{"text":"≥","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"for some known","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":". If ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"is unknown, such a subroutine can be executed at the beginning of the algorithm, and after that we can execute one of the algorithms presented previously; hence the total regret bound would increase by the number of rounds of the subroutine times ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":".","element":"span"}],[{"text":"In the first setting, when the players observe the collision information, [","element":"span"},{"href":"#id-16","referenceIndex":21,"text":"21","element":"a"},{"text":", Lemma 2] presents a simple algorithm, with ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"2 ","element":"span"},{"text":"log(1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/δ","element":"span"},{"text":")) many rounds, using which each player learns ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"with probability ≥ 1 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ","element":"span"},{"text":". Setting ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ ","element":"span"},{"text":"= 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"ensures that this simultaneously holds for all players with probability ≥ 1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/KT ","element":"span"},{"text":". After this estimation, the players can run the algorithm of Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(b). The additional regret due to these estimation rounds is ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT ","element":"span"},{"text":")), which is dominated by the final regret upper bound of Theorem ","element":"span"},{"href":"#id-12","text":"2","element":"a"},{"text":"(b).","element":"span"}],[{"text":"For the setting without the collision information, we assume that the players know that at least one arm has mean at least","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"text":". We present an algorithm with ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"3 ","element":"span"},{"text":"log","element":"span"},{"text":"2","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/µδ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/µ","element":"span"},{"text":"2","element":"span"},{"text":") many rounds such that if all players execute it, each will learn ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"with probability 1−","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ","element":"span"},{"text":". Setting ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ ","element":"span"},{"text":"= 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"ensures that this simultaneously holds for all players with probability ≥ 1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/KT ","element":"span"},{"text":", and after this estimation, the players can execute Algorithm 1 or Algorithm 2. The additional regret due to estimation is bounded by ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"3","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"log","element":"span"},{"text":"2","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"KT /µ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"}],[{"text":"Here is the algorithm each player executes: let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε ","element":"span"},{"text":"≔","element":"span"}],[{"text":"and observe that, since ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"≥ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"≥ 2,","element":"span"}],[{"style":{"width":"75%"},"width":1306,"height":387,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/27-0.png","element":"img"}],[{"text":"First, the player pulls random arms for 8","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"9","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ε","element":"span"},{"text":"2 ","element":"span"},{"text":"rounds and estimates the quantities ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"(1−1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 ","element":"span"},{"text":"for all ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"]. By an argument similar to that of Lemma ","element":"span"},{"href":"#id-30","text":"5","element":"a"},{"text":", she obtains estimates {","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"}","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"∈[","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"] ","element":"span"},{"text":"such that","element":"span"}],[{"id":"id-49","style":{"width":"71%"},"width":1232,"height":64,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/27-1.png","element":"img"}],[{"text":"for all players, uniformly with probability 1−","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ/","element":"span"},{"text":"3. Let ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"be the arm with maximum ","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ ","element":"span"},{"text":"value. We claim that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"≥","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ/","element":"span"},{"text":"2. To prove this, note that","element":"span"}],[{"style":{"width":"88%"},"width":1534,"height":57,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/27-2.png","element":"img"}],[{"text":"whence ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"≥","element":"span"}],[{"text":"Then the player tries to estimate ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"itself and then uses the ratio ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ","element":"span"},{"style":{"fontStyle":"italic"},"text":"/σ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"for estimating ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":". For this, she tries 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/µδ","element":"span"},{"text":") times to occupy the arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ","element":"span"},{"text":", using a musical chairs subroutine: divide the time horizon into 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/µδ","element":"span"},{"text":") blocks of length log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"/δ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ε","element":"span"},{"text":"2","element":"span"},{"text":". For each block, she chooses an arm uniformly at random and pulls it for all the rounds in the block. If this arm was arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"and she receives a positive reward at least once during the block, then, by taking the average of received rewards in the block, she obtains an unbiased estimate �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ","element":"span"},{"text":". In any case, she repeats this procedure for the next blocks. Using an analysis similar to that of MusicalChairs2, after 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/µδ","element":"span"},{"text":") iterations, with probability at least 1− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ/","element":"span"},{"text":"3, all players have explored their arm ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ","element":"span"},{"text":". The pseudocode appears in Algorithm ","element":"span"},{"href":"#id-48","text":"3 ","element":"a"},{"text":"below.","element":"span"}],[{"text":"For each player, since the estimate �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"is based on log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"/δ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ε","element":"span"},{"text":"2 ","element":"span"},{"text":"pulls, with probability 1 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ/","element":"span"},{"text":"3 she obtains an estimate �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"such that |�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ","element":"span"},{"text":"| ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε","element":"span"},{"text":". Therefore, we have ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"∈ [�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε,","element":"span"},{"text":"�","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε","element":"span"},{"text":"] and also ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ","element":"span"},{"text":"(1 − 1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"σ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"− ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε,σ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ℓ ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε","element":"span"},{"text":"] by (","element":"span"},{"href":"#id-49","text":"8","element":"a"},{"text":"). Given the two intervals, we want to recover ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":". Since ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε < µ/","element":"span"},{"text":"4×(1−1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":"−1 ","element":"span"},{"text":"× ","element":"span"},{"text":"(1−1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"text":"−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"5","element":"span"},{"text":"−1","element":"span"},{"text":"(1−1","element":"span"},{"style":{"fontStyle":"italic"},"text":"/K","element":"span"},{"text":")","element":"span"},{"text":"−2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"5","element":"span"},{"text":"+1","element":"span"},{"text":", we have","element":"span"}],[{"style":{"width":"89%"},"width":1550,"height":123,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/27-3.png","element":"img"}],[{"text":"hence Lemma ","element":"span"},{"href":"#id-50","text":"14 ","element":"a"},{"text":"below shows that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"m ","element":"span"},{"text":"can be recovered uniquely.","element":"span"}],[{"id":"id-48","style":{"width":"100%"},"width":1729,"height":1170,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/28-0.png","element":"img"}],[{"id":"id-50","text":"Lemma 14. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Let a,b,c,d,p > ","element":"span"},{"text":"0","element":"span"},{"style":{"fontStyle":"italic"},"text":". Consider intervals ","element":"span"},{"text":"[","element":"span"},{"style":{"fontStyle":"italic"},"text":"a,b","element":"span"},{"text":"] ","element":"span"},{"style":{"fontStyle":"italic"},"text":"and ","element":"span"},{"text":"[","element":"span"},{"style":{"fontStyle":"italic"},"text":"c,d","element":"span"},{"text":"] ","element":"span"},{"style":{"fontStyle":"italic"},"text":"with ","element":"span"},{"text":"max{","element":"span"},{"style":{"fontStyle":"italic"},"text":"b/a,d/c","element":"span"},{"text":"} ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"p","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"5","element":"span"},{"style":{"fontStyle":"italic"},"text":", and suppose there exist x ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"a,b","element":"span"},{"text":"] ","element":"span"},{"style":{"fontStyle":"italic"},"text":"and y ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"c,d","element":"span"},{"text":"] ","element":"span"},{"style":{"fontStyle":"italic"},"text":"such that xp","element":"span"},{"style":{"fontStyle":"italic"},"text":"z ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"y for some integer z. Then there exists a unique integer n such that ","element":"span"},{"text":"[","element":"span"},{"style":{"fontStyle":"italic"},"text":"ap","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"style":{"fontStyle":"italic"},"text":",bp","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"text":"] ∩ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"c,d","element":"span"},{"text":"] � ∅","element":"span"},{"style":{"fontStyle":"italic"},"text":".","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Proof. ","element":"span"},{"text":"The existence of such an ","element":"span"},{"style":{"fontStyle":"italic"},"text":"n ","element":"span"},{"text":"follows from existence of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"x ","element":"span"},{"text":"and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"y ","element":"span"},{"text":"and that ","element":"span"},{"style":{"fontStyle":"italic"},"text":"xp","element":"span"},{"style":{"fontStyle":"italic"},"text":"z ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"y ","element":"span"},{"text":"for some integer ","element":"span"},{"style":{"fontStyle":"italic"},"text":"z","element":"span"},{"text":". For the uniqueness, note that we have [","element":"span"},{"style":{"fontStyle":"italic"},"text":"ap","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"style":{"fontStyle":"italic"},"text":",bp","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"text":"] ∩ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"c,d","element":"span"},{"text":"] � ∅ if and only if [log","element":"span"},{"style":{"fontStyle":"italic"},"text":"a/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"n,","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"b/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"text":"] ∩ [log","element":"span"},{"style":{"fontStyle":"italic"},"text":"c/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p,","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"d/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p","element":"span"},{"text":"] � ∅. Now note that the interval [log","element":"span"},{"style":{"fontStyle":"italic"},"text":"c/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p,","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"d/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p","element":"span"},{"text":"] has length ≤ 2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"5. Each interval ","element":"span"},{"style":{"fontStyle":"italic"},"text":"I","element":"span"},{"style":{"fontStyle":"italic"},"text":"n ","element":"span"},{"text":"= [log","element":"span"},{"style":{"fontStyle":"italic"},"text":"a/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"n,","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"b/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"text":"] also has length ≤ 2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"5, hence, for each ","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"text":", ","element":"span"},{"style":{"fontStyle":"italic"},"text":"I","element":"span"},{"style":{"fontStyle":"italic"},"text":"n ","element":"span"},{"text":"and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"I","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"text":"+1 ","element":"span"},{"text":"are at least 3","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"5 apart from each other, so [log","element":"span"},{"style":{"fontStyle":"italic"},"text":"c/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p,","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"d/ ","element":"span"},{"text":"log","element":"span"},{"style":{"fontStyle":"italic"},"text":"p","element":"span"},{"text":"] can intersect at most one ","element":"span"},{"style":{"fontStyle":"italic"},"text":"I","element":"span"},{"style":{"fontStyle":"italic"},"text":"n","element":"span"},{"text":".","element":"span"}],[{"text":"To bound the number of rounds of the algorithm, note that","element":"span"}],[{"style":{"width":"81%"},"width":1404,"height":111,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/28-1.png","element":"img"}],[{"text":"thus ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε ","element":"span"},{"text":"≥","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ/","element":"span"},{"text":"120","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":". So the number of rounds of the algorithm is 8","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/","element":"span"},{"text":"9","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ε","element":"span"},{"text":"2 ","element":"span"},{"text":"+ 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/µδ","element":"span"},{"text":")log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"/δ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ε","element":"span"},{"text":"2 ","element":"span"},{"text":"= ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"3 ","element":"span"},{"text":"log","element":"span"},{"text":"2","element":"span"},{"text":"(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/","element":"span"}]]},{"heading":"6 Proof of Theorem 3.","paragraphs":[[{"text":"In this section, we present a distributed algorithm that, with probability at least 1−","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ","element":"span"},{"text":", converges to an ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε","element":"span"},{"text":"-Nash equilibrium in any stochastic anti-coordination game within ","element":"span"},{"style":{"fontStyle":"italic"},"text":"O","element":"span"},{"text":"(log(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/δ","element":"span"},{"text":")(","element":"span"},{"style":{"fontStyle":"italic"},"text":"K/ε","element":"span"},{"text":"2 ","element":"span"},{"text":"+ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ε","element":"span"},{"text":")) many rounds.","element":"span"}],[{"text":"Note that the players do not observe collisions, and in particular, they do not observe the actions of other players, but we assume each player has the option of choosing a dummy action, which is given index 0 and produces no reward. We are still making the Assumptions 1–3 stated on page ","element":"span"},{"href":"#id-46","text":"4 ","element":"a"},{"text":"(but there is no parameter ","element":"span"},{"style":{"fontStyle":"italic"},"text":"T ","element":"span"},{"text":"here).","element":"span"}],[{"text":"We describe the algorithm each player executes. First, the player pulls arms uniformly at random and maintains an estimate for the arm means. An argument similar to that of Lemma ","element":"span"},{"href":"#id-30","text":"5 ","element":"a"},{"text":"gives that, after 512","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(6","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK/δ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ε","element":"span"},{"text":"2 ","element":"span"},{"text":"rounds, with probability at least 1 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ/","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":"m","element":"span"},{"text":", all estimated means are within distance ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε/","element":"span"},{"text":"2 of the actual means. By a union bound over all players, this is true uniformly over all players with probability at least 1 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ/","element":"span"},{"text":"2.","element":"span"}],[{"text":"The player then sorts the �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"as �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"1 ","element":"span"},{"text":"≥ ··· ≥ �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":". Then for ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"= 1","element":"span"},{"style":{"fontStyle":"italic"},"text":",...,K","element":"span"},{"text":", she runsMusicalChairs2 on {","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"} (in this order) for 4","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"log(2","element":"span"},{"style":{"fontStyle":"italic"},"text":"mK/δ","element":"span"},{"text":")","element":"span"},{"style":{"fontStyle":"italic"},"text":"/ε ","element":"span"},{"text":"many rounds. If during any of these subroutines she occupies an arm, she chooses that action. Otherwise, she chooses the dummy action 0. The pseudocode is given as Algorithm ","element":"span"},{"href":"#id-51","text":"4","element":"a"},{"text":".","element":"span"}],[{"id":"id-51","style":{"width":"100%"},"width":1729,"height":1188,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/29-0.png","element":"img"}],[{"text":"By Corollary ","element":"span"},{"href":"#id-35","text":"9 ","element":"a"},{"text":"and a union bound over the ","element":"span"},{"style":{"fontStyle":"italic"},"text":"K ","element":"span"},{"text":"iterations, all the MusicalChairs2 subroutines for all players are ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε","element":"span"},{"text":"-successful with probability at least 1−","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ/","element":"span"},{"text":"2. We now show that if the estimation errors are ≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε/","element":"span"},{"text":"2 and all the MusicalChairs2 subroutines are ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε","element":"span"},{"text":"-successful (with probability 1 − ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ ","element":"span"},{"text":"both these good events happen), then the resulting assignment is an ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε","element":"span"},{"text":"-Nash Equilibrium. Fix any player ","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"and recall that, for each action ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"], ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"p","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"denotes the average reward player ","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"would receive if she ","element":"span"},{"text":"plays action ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i ","element":"span"},{"text":"solely. First, suppose that she has output a non-dummy action ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":". This means all actions ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"1","element":"span"},{"style":{"fontStyle":"italic"},"text":",i","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":",...,i","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"−1 ","element":"span"},{"text":"were either occupied by other players or had mean ","element":"span"},{"style":{"fontStyle":"italic"},"text":"< ε ","element":"span"},{"text":"or both. On the other hand, since the estimated means are within ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε/","element":"span"},{"text":"2 of the actual means, for any ","element":"span"},{"style":{"fontStyle":"italic"},"text":"s ","element":"span"},{"text":"� {","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"text":"1","element":"span"},{"style":{"fontStyle":"italic"},"text":",i","element":"span"},{"text":"2","element":"span"},{"style":{"fontStyle":"italic"},"text":",...,i","element":"span"},{"style":{"fontStyle":"italic"},"text":"j","element":"span"},{"text":"−1","element":"span"},{"text":"} we have �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"s ","element":"span"},{"text":"≤ �","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"so","element":"span"}],[{"style":{"width":"86%"},"width":1493,"height":76,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/30-0.png","element":"img"}],[{"text":"hence the player cannot increase her outcome by more than ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε ","element":"span"},{"text":"by switching to action ","element":"span"},{"style":{"fontStyle":"italic"},"text":"s","element":"span"},{"text":". Finally, if player ","element":"span"},{"style":{"fontStyle":"italic"},"text":"p ","element":"span"},{"text":"has chosen the dummy action 0, it means that for each ","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"∈ [","element":"span"},{"style":{"fontStyle":"italic"},"text":"K","element":"span"},{"text":"], either action ","element":"span"},{"style":{"fontStyle":"italic"},"text":"i","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"is occupied or ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"p","element":"span"},{"style":{"fontStyle":"italic"},"text":"j ","element":"span"},{"text":"≤ ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε ","element":"span"},{"text":"or both. Thus, there is no unoccupied ","element":"span"},{"text":"action ","element":"span"},{"style":{"fontStyle":"italic"},"text":"s ","element":"span"},{"text":"with ","element":"span"},{"style":{"fontStyle":"italic"},"text":"µ","element":"span"},{"style":{"fontStyle":"italic"},"text":"p","element":"span"},{"style":{"fontStyle":"italic"},"text":"s ","element":"span"},{"style":{"fontStyle":"italic"},"text":"> ε","element":"span"},{"text":", so again the player cannot increase her outcome by more than ","element":"span"},{"style":{"fontStyle":"italic"},"text":"ε ","element":"span"},{"text":"by switching.","element":"span"}],[{"text":"The total number of rounds is","element":"span"}],[{"style":{"width":"95%"},"width":1650,"height":57,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/30-1.png","element":"img"}],[{"text":"and the failure probability is at most ","element":"span"},{"style":{"fontStyle":"italic"},"text":"δ","element":"span"},{"text":", as required.","element":"span"}]]},{"heading":"Acknowledgments.","paragraphs":[[{"text":"We thank the referees of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Mathematics of Operations Research ","element":"span"},{"text":"for detailed feedback, which resulted in significant improvements in the presentation. G´abor Lugosi was supported by the Spanish Ministry of Economy and Competitiveness, Grant PGC2018-101643-B-I00 “Predicc´on, inferencia y computaci´on en modelos estructurados - Ayudas Fundaci´on BBVA a Equipos de Investigaci´on Cientifica 2017” and by “Google Focused Award Algorithms and Learning for AI.” Abbas Mehrabian was supported by an IVADO-Apog´ee-CFREF postdoctoral fellowship. This work started during the Mathematics of Machine Learning program sponsored by the Centre de Recherches Math´ematiques (CRM) held at Universit´e de Montr´eal in April 2018.","element":"span"}]]},{"heading":"References","paragraphs":[[{"id":"id-9","text":"[1] Alatur ","element":"span"},{"text":"P, ","element":"span"},{"text":"Levy ","element":"span"},{"text":"KY, ","element":"span"},{"text":"Krause ","element":"span"},{"text":"A ","element":"span"},{"text":"(2020) ","element":"span"},{"text":"Multi-player ","element":"span"},{"text":"bandits: ","element":"span"},{"text":"The ","element":"span"},{"text":"adversarial ","element":"span"},{"text":"case. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Journal ","element":"span"},{"style":{"fontStyle":"italic"},"text":"of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Machine ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Learning ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Research ","element":"span"},{"text":"21(77):1–23, ","element":"span"},{"text":"URL ","element":"span"},{"href":"http://jmlr.org/papers/v21/19-912.html","text":"http://jmlr.org/papers/v21/19-912.html","element":"a"},{"text":".","element":"span"}],[{"id":"id-15","text":"[2] Anandkumar ","element":"span"},{"text":"A, ","element":"span"},{"text":"Michael ","element":"span"},{"text":"N, ","element":"span"},{"text":"Tang ","element":"span"},{"text":"AK, ","element":"span"},{"text":"Swami ","element":"span"},{"text":"A ","element":"span"},{"text":"(2011) ","element":"span"},{"text":"Distributed ","element":"span"},{"text":"algorithms ","element":"span"},{"text":"for ","element":"span"},{"text":"learning ","element":"span"},{"text":"and ","element":"span"},{"text":"cognitive ","element":"span"},{"text":"medium ","element":"span"},{"text":"access ","element":"span"},{"text":"with ","element":"span"},{"text":"logarithmic ","element":"span"},{"text":"regret. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"IEEE Journal on Selected Areas in Communications ","element":"span"},{"text":"29(4):731–745, URL ","element":"span"},{"href":"https://ieeexplore.ieee.org/document/5738217","text":"https://ieeexplore.ieee.org/document/5738217","element":"a"},{"text":".","element":"span"}],[{"id":"id-5","text":"[3] Anantharam V, Varaiya P, Walrand J (1987) Asymptotically e","element":"span"},{"text":"fficient allocation rules for the multiarmed bandit problem with multiple plays—part I: IID ","element":"span"},{"text":"rewards. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"IEEE ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Transactions ","element":"span"},{"style":{"fontStyle":"italic"},"text":"on ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Automatic ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Control ","element":"span"},{"text":"32(11):968–976, ","element":"span"},{"text":"URL ","element":"span"},{"href":"https://ieeexplore.ieee.org/document/1104491","text":"https://ieeexplore.ieee.org/document/1104491","element":"a"},{"text":".","element":"span"}],[{"id":"id-23","text":"[4] Avner ","element":"span"},{"text":"O, ","element":"span"},{"text":"Mannor ","element":"span"},{"text":"S ","element":"span"},{"text":"(2014) ","element":"span"},{"text":"Concurrent ","element":"span"},{"text":"bandits ","element":"span"},{"text":"and ","element":"span"},{"text":"cognitive ","element":"span"},{"text":"radio ","element":"span"},{"text":"networks. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Joint ","element":"span"},{"style":{"fontStyle":"italic"},"text":"European ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Conference ","element":"span"},{"style":{"fontStyle":"italic"},"text":"on ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Machine ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Learning ","element":"span"},{"style":{"fontStyle":"italic"},"text":"and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Knowledge ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Discovery ","element":"span"},{"style":{"fontStyle":"italic"},"text":"in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Databases","element":"span"},{"text":", ","element":"span"},{"text":"66–81 ","element":"span"},{"text":"(Springer), ","element":"span"},{"text":"URL ","element":"span"},{"href":"https://link.springer.com/chapter/10.1007/978-3-662-44848-9_5","text":"https://link.springer.com/chapter/10.1007/978-3-662-44848-9_5","element":"a"},{"text":".","element":"span"}],[{"id":"id-22","text":"[5] Bande ","element":"span"},{"text":"M, ","element":"span"},{"text":"Veeravalli ","element":"span"},{"text":"VV ","element":"span"},{"text":"(2019) ","element":"span"},{"text":"Multi-user ","element":"span"},{"text":"multi-armed ","element":"span"},{"text":"bandits ","element":"span"},{"text":"for uncoordinated ","element":"span"},{"text":"spectrum ","element":"span"},{"text":"access. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"2019 ","element":"span"},{"style":{"fontStyle":"italic"},"text":"International ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Conference ","element":"span"},{"style":{"fontStyle":"italic"},"text":"on Computing, ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Networking ","element":"span"},{"style":{"fontStyle":"italic"},"text":"and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Communications ","element":"span"},{"style":{"fontStyle":"italic"},"text":"(ICNC)","element":"span"},{"text":", ","element":"span"},{"text":"653–657, ","element":"span"},{"text":"URL ","element":"span"},{"href":"https://ieeexplore.ieee.org/document/8685615","text":"https://ieeexplore.ieee.org/document/8685615","element":"a"},{"text":".","element":"span"}],[{"id":"id-7","text":"[6] Besson ","element":"span"},{"text":"L, ","element":"span"},{"text":"Kaufmann ","element":"span"},{"text":"E ","element":"span"},{"text":"(2018) ","element":"span"},{"text":"Multi-player ","element":"span"},{"text":"bandits ","element":"span"},{"text":"revisited. ","element":"span"},{"text":"Janoos ","element":"span"},{"text":"F, Mohri M, Sridharan K, eds., ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Algorithmic Learning Theory","element":"span"},{"text":", volume 83 of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Machine Learning ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Research","element":"span"},{"text":", ","element":"span"},{"text":"56–92 (PMLR), URL ","element":"span"},{"href":"http://proceedings.mlr.press/v83/besson18a.html","text":"http://proceedings.mlr.press/v83/besson18a.html","element":"a"},{"text":".","element":"span"}],[{"id":"id-43","text":"[7] Besson L, Kaufmann E (2018) What doubling tricks can and can’t do for multi-armed ","element":"span"},{"text":"bandits, URL ","element":"span"},{"href":"https://hal.inria.fr/hal-01736357","text":"https://hal.inria.fr/hal-01736357","element":"a"},{"text":".","element":"span"}],[{"id":"id-8","text":"[8] Besson ","element":"span"},{"text":"L, ","element":"span"},{"text":"Kaufmann ","element":"span"},{"text":"E ","element":"span"},{"text":"(2019) ","element":"span"},{"text":"Lower ","element":"span"},{"text":"bound ","element":"span"},{"text":"for ","element":"span"},{"text":"multi-player ","element":"span"},{"text":"bandits: ","element":"span"},{"text":"Erratum ","element":"span"},{"text":"for ","element":"span"},{"text":"the ","element":"span"},{"text":"paper ","element":"span"},{"text":"multi-player ","element":"span"},{"text":"bandits ","element":"span"},{"text":"revisited, ","element":"span"},{"text":"URL ","element":"span"},{"href":"http://chercheurs.lille.inria.fr/ekaufman/BK19_Erratum_LB.pdf","text":"http://chercheurs.lille.inria.fr/ekaufman/BK19_Erratum_LB.pdf","element":"a"},{"text":".","element":"span"}],[{"id":"id-19","text":"[9] Bonnefoi R, Besson L, Moy C, Kaufmann E, Palicot J (2018) Multi-armed ","element":"span"},{"text":"bandit ","element":"span"},{"text":"learning ","element":"span"},{"text":"in ","element":"span"},{"text":"IoT ","element":"span"},{"text":"networks: ","element":"span"},{"text":"Learning ","element":"span"},{"text":"helps ","element":"span"},{"text":"even ","element":"span"},{"text":"in ","element":"span"},{"text":"non-stationary settings. ","element":"span"},{"text":"Marques ","element":"span"},{"text":"P, ","element":"span"},{"text":"Radwan ","element":"span"},{"text":"A, ","element":"span"},{"text":"Mumtaz ","element":"span"},{"text":"S, ","element":"span"},{"text":"Noguet ","element":"span"},{"text":"D, ","element":"span"},{"text":"Rodriguez ","element":"span"},{"text":"J, Gundlach ","element":"span"},{"text":"M, ","element":"span"},{"text":"eds., ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Cognitive ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Radio ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Oriented ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Wireless ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Networks","element":"span"},{"text":", ","element":"span"},{"text":"173–185 (Cham: ","element":"span"},{"text":"Springer ","element":"span"},{"text":"International Publishing), ","element":"span"},{"text":"ISBN ","element":"span"},{"text":"978-3-319-76207-4, ","element":"span"},{"text":"URL ","element":"span"},{"href":"https://link.springer.com/chapter/10.1007/978-3-319-76207-4_15","text":"https://link.springer.com/chapter/10.1007/978-3-319-76207-4_15","element":"a"},{"text":".","element":"span"}],[{"id":"id-25","text":"[10] Boursier E, Kaufmann E, Mehrabian A, Perchet V (2020) A practical algorithm for ","element":"span"},{"text":"multiplayer bandits when arm means vary among players. Chiappa S, Calandra R, eds., ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of the Twenty Third International Conference on Artificial Intelligence and Statistics","element":"span"},{"text":", volume 108 of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Machine Learning Research","element":"span"},{"text":", 1211–1221 (Online: PMLR), URL ","element":"span"},{"href":"http://proceedings.mlr.press/v108/mehrabian20a.html","text":"http://proceedings.mlr.press/v108/mehrabian20a.html","element":"a"},{"text":".","element":"span"}],[{"id":"id-17","style":{"width":"120%"},"width":2075,"height":258,"src":"https://cdn.bytez.com/mobilePapers/v2/arxiv/1808.08416/images/31-0.png","element":"img"}],[{"id":"id-11","text":"[12] Boursier E, Perchet V (2020) Selfish robustness and equilibria in multi-player ban- ","element":"span"},{"text":"dits. Abernethy J, Agarwal S, eds., ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Thirty Third Conference on Learning","element":"span"}],[{"style":{"fontStyle":"italic"},"text":"Theory","element":"span"},{"text":", volume 125 of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Machine Learning Research","element":"span"},{"text":", 530–581 (PMLR), URL ","element":"span"},{"href":"http://proceedings.mlr.press/v125/boursier20a.html","text":"http://proceedings.mlr.press/v125/boursier20a.html","element":"a"},{"text":".","element":"span"}],[{"id":"id-21","text":"[13] Bubeck S, Budzinski T, Sellke M (2020) Cooperative and stochastic multi-player ","element":"span"},{"text":"multi-armed bandit: Optimal regret with neither communication nor collisions. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"arXiv ","element":"span"},{"text":"URL ","element":"span"},{"href":"https://arxiv.org/abs/2011.03896","text":"https://arxiv.org/abs/2011.03896","element":"a"},{"text":".","element":"span"}],[{"id":"id-10","text":"[14] Bubeck S, Li Y, Peres Y, Sellke M (2020) Non-stochastic multi-player multi-armed ","element":"span"},{"text":"bandits: Optimal rate with collision information, sublinear without. Abernethy J, Agarwal S, eds., ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Thirty Third Conference on Learning Theory","element":"span"},{"text":", volume 125 of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Machine Learning Research","element":"span"},{"text":", 961–987 (PMLR), URL ","element":"span"},{"href":"http://proceedings.mlr.press/v125/bubeck20c.html","text":"http://proceedings.mlr.press/v125/bubeck20c.html","element":"a"},{"text":".","element":"span"}],[{"id":"id-24","text":"[15] Hanawal MK, Darak SJ (2018) Multi-player bandits: A trekking approach. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"arXiv ","element":"span"},{"text":"URL ","element":"span"},{"href":"https://arxiv.org/abs/1809.06040","text":"https://arxiv.org/abs/1809.06040","element":"a"},{"text":".","element":"span"}],[{"id":"id-14","text":"[16] Komiyama J, Honda J, Nakagawa H (2015) Optimal regret analysis of Thompson sam- ","element":"span"},{"text":"pling in stochastic multi-armed bandit problem with multiple plays. Bach F, Blei D, eds., ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of the 32nd International Conference on Machine Learning","element":"span"},{"text":", volume 37 of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Machine Learning Research","element":"span"},{"text":", 1152–1161 (Lille, France: PMLR), URL ","element":"span"},{"href":"http://proceedings.mlr.press/v37/komiyama15.html","text":"http://proceedings.mlr.press/v37/komiyama15.html","element":"a"},{"text":".","element":"span"}],[{"id":"id-1","text":"[17] Lattimore T, Szepesv´ari C (2020) ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Bandit Algorithms ","element":"span"},{"text":"(Cambridge University Press), draft available at ","element":"span"},{"href":"https://tor-lattimore.com/downloads/book/book.pdf","text":"https://tor-lattimore.com/downloads/book/book.pdf","element":"a"},{"text":".","element":"span"}],[{"id":"id-2","text":"[18] Liu K, Zhao Q (2010) Distributed learning in multi-armed bandit with multi- ","element":"span"},{"text":"ple players. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"IEEE Trans. Signal Process. ","element":"span"},{"text":"58(11):5667–5681, ISSN 1053-587X, URL ","element":"span"},{"href":"http://dx.doi.org/10.1109/TSP.2010.2062509","text":"http://dx.doi.org/10.1109/TSP.2010.2062509","element":"a"},{"text":".","element":"span"}],[{"id":"id-26","text":"[19] Liu LT, Ruan F, Mania H, Jordan MI (2020) Bandit learning in decentralized matching ","element":"span"},{"text":"markets. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"arXiv ","element":"span"},{"text":"URL ","element":"span"},{"href":"https://arxiv.org/abs/2012.07348","text":"https://arxiv.org/abs/2012.07348","element":"a"},{"text":".","element":"span"}],[{"id":"id-29","text":"[20] McDiarmid C (1998) Concentration. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Probabilistic methods for algorithmic discrete mathematics","element":"span"},{"text":", volume 16 of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Algorithms Combin.","element":"span"},{"text":", 195–248 (Springer, Berlin), URL ","element":"span"},{"href":"http://dx.doi.org/10.1007/978-3-662-12788-9_6","text":"http://dx.doi.org/10.1007/978-3-662-12788-9_6","element":"a"},{"text":".","element":"span"}],[{"id":"id-16","text":"[21] Rosenski J, Shamir O, Szlak L (2016) Multi-player bandits: ","element":"span"},{"text":"A musical chairs approach. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48","element":"span"},{"text":", 155–163, ICML’16 (JMLR.org), URL ","element":"span"},{"href":"http://proceedings.mlr.press/v48/rosenski16.html","text":"http://proceedings.mlr.press/v48/rosenski16.html","element":"a"},{"text":".","element":"span"}],[{"id":"id-20","text":"[22] Shi C, Xiong W, Shen C, Yang J (2020) Decentralized multi-player multi-armed ban- ","element":"span"},{"text":"dits with no collision information. Chiappa S, Calandra R, eds., ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of the Twenty Third International Conference on Artificial Intelligence and Statistics","element":"span"},{"text":", volume 108 of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Machine Learning Research","element":"span"},{"text":", 1519–1528 (Online: PMLR), URL ","element":"span"},{"href":"http://proceedings.mlr.press/v108/shi20a.html","text":"http://proceedings.mlr.press/v108/shi20a.html","element":"a"},{"text":".","element":"span"}],[{"id":"id-0","text":"[23] Slivkins ","element":"span"},{"text":"A ","element":"span"},{"text":"(2019) ","element":"span"},{"text":"Introduction ","element":"span"},{"text":"to ","element":"span"},{"text":"multi-armed ","element":"span"},{"text":"bandits. ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Foundations ","element":"span"},{"style":{"fontStyle":"italic"},"text":"and ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Trends ","element":"span"},{"style":{"fontStyle":"italic"},"text":"in ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Machine ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Learning ","element":"span"},{"text":"12(1-2):1–286, ","element":"span"},{"text":"ISSN ","element":"span"},{"text":"1935-8237, URL ","element":"span"},{"href":"http://dx.doi.org/10.1561/2200000068","text":"http://dx.doi.org/10.1561/2200000068","element":"a"},{"text":", ","element":"span"},{"text":"draft ","element":"span"},{"text":"available ","element":"span"},{"text":"at ","element":"span"},{"href":"https://arxiv.org/abs/1904.07272","text":"https://arxiv.org/abs/1904.07272","element":"a"},{"text":".","element":"span"}],[{"id":"id-44","text":"[24] Vershynin R (2018) ","element":"span"},{"style":{"fontStyle":"italic"},"text":"High-dimensional probability: ","element":"span"},{"style":{"fontStyle":"italic"},"text":"An introduction with applications in data science","element":"span"},{"text":", volume 47 of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Cambridge Series in Statistical and Probabilistic Mathematics ","element":"span"},{"text":"(Cambridge University Press, Cambridge), ISBN 978-1-108-","element":"span"}],[{"text":"41519-4, URL ","element":"span"},{"href":"http://dx.doi.org/10.1017/9781108231596","text":"http://dx.doi.org/10.1017/9781108231596","element":"a"},{"text":", ","element":"span"},{"text":"draft available at ","element":"span"},{"href":"https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.html","text":"https://www.math.uci.edu/˜rvershyn/papers/HDP-book/HDP-book.html","element":"a"},{"text":".","element":"span"}],[{"id":"id-18","text":"[25] Wang PA, Proutiere A, Ariu K, Jedra Y, Russo A (2020) Optimal algorithms for ","element":"span"},{"text":"multiplayer multi-armed bandits. Chiappa S, Calandra R, eds., ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of the Twenty Third International Conference on Artificial Intelligence and Statistics","element":"span"},{"text":", volume 108 of ","element":"span"},{"style":{"fontStyle":"italic"},"text":"Proceedings of Machine Learning Research","element":"span"},{"text":", 4120–4129 (Online: PMLR), URL ","element":"span"},{"href":"http://proceedings.mlr.press/v108/wang20m.html","text":"http://proceedings.mlr.press/v108/wang20m.html","element":"a"},{"text":".","element":"span"}]]}],"_version":"3.3.2"},"paperNode":"$28:props:children:props:children:0:props:product"}]]