J'ai deux aspects distincts à la modélisation: prévoir la diffusion de points tout au long de la semaine et prédire le score du jeu. Pour les deux processus, j'ai essayé différentes approches de la modélisation et choisi le modèle le plus performant en fonction des performances sur les ensembles de données de test.
3.Modèle de prévision de propagation à 1 point
J'ai prévu le point de répartition tout au long de la semaine en traitant cet objet comme une série chronologique. J'ai exploré les données dans le but de trouver la meilleure approche de la modélisation, avant de passer à la procédure de modélisation. Le modèle le plus performant était un modèle de régression linéaire dynamique bayésien variant dans le temps qui utilisait des méthodes ARIMA (moyenne intégrée mobile autorégressive) pour prévoir les paramètres variant dans le temps qui sont utilisés pour prévoir la propagation ponctuelle dans le modèle de régression linéaire dynamique. De plus, pour utiliser le modèle, je devais déterminer le nombre de points de données dans la série. J'ai utilisé un modèle de régression linéaire mixte à cet effet.
3.1.1 Analyse des données exploratoires
figure 3.1: Histogrammes de spreads ponctuels et score des différences par rapport aux jeux
Le premier aspect à examiner lors de la prévision des écarts est la distribution des écarts. Il est également important d'examiner la distribution des résultats du jeu que ces diffusions se comportent. figure 3.1 montre ces deux distributions. Les deux ont plusieurs pics. Ces multiples pics surviennent parce que dans le football, presque tous les scores valent \ (3 \) ou \ (7 \). Lors de la prévision de la différence entre deux équipes, de nombreux jeux se retrouveront avec une propagation prévue près de ces nombres clés, et les résultats de ces jeux tomberont souvent à ces chiffres. De plus, il y a quelques zones mortes - principalement entre \ (0 \) et \ (3 \) . Les résultats des jeux reflètent cependant la distribution des diffusions de prévisions avec une distribution beaucoup plus large. Il est difficile de prévoir un jeu d'éruption, mais ils se produisent, c'est pourquoi il y a des queues beaucoup plus longues pour les différences de score réelles.
figure 3.2: Histogramme des résultats du jeu contre la propagation
figure 3.2 montre une distribution du résultat du jeu contre la propagation. Le résultat de \ (0 \) indiquerait que le jeu s'est terminé avec le même résultat que la propagation, et le résultat du jeu serait un coup de pouce, ce qui signifie que personne ne gagne et que le pieu du parieur est renvoyé au mieux. Pour démontrer l'exactitude de celle du bookmaker, il est évident que la distribution est relativement normalement distribuée autour de \ (0 \), avec un deuxième pic à \ (- 3 \) indiquant que bon nombre des jeux ont entraîné l'équipe à domicile qui bat la propagation par \ (3 \) points.
figure 3.3: Transformations des variables clés des paris statistiques
La recherche 1 suggère que les casinos ajustent la ligne en fonction du montant du pari en espèces de chaque côté, afin qu'ils puissent même sortir le montant d'argent parier à chaque fois et se garantir un retour. L'examen des variables en espèces peut aider à évaluer cette recherche. figure 3.3 démontre l'asymétrie des variables de numéros de trésorerie et de billets, ainsi que des distributions mises à jour après les transformations. La variable en espèces est très droite. Pour la modélisation et l'interprétabilité, il fait partie intégrante de transformer cette variable dans le journal du pari en espèces. Le nombre de paris de chaque côté est également biaisé. Les \ (\ log (\ text) \) et \ (\ log (\ text) \) sont tous deux significativement plus proches de normalement distribués.
poker texas holdemfigure 3.4: Différence de ligne par rapport aux variables clés
figure 3.4 montre la différence de ligne par rapport au moment où le casino a répertorié la propagation pour la première fois à la propagation lorsque le jeu a commencé par rapport au pourcentage de trésorerie et au \ (\ log (\ text) \) . Research 2 suggère qu'avec plus de pari en espèces sur l'équipe à l'extérieur, le casino voudrait rendre la propagation moins favorable à l'équipe à l'extérieur, dans le but d'obtenir plus d'argent placé dans l'équipe à domicile et d'atteindre une scission de 50/50.
Ici, bien que l'effet ne soit pas majeur, pour le pourcentage de trésorerie à l'extérieur et les variables de montant en espèces, à mesure qu'ils augmentent, la différence de ligne pour l'extérieur a tendance à devenir plus négative. Cela signifie que lorsque plus d'argent est dans l'équipe à l'extérieur, la propagation a tendance à devenir plus favorable à l'équipe à domicile. Par exemple, une différence de ligne de -2 signifie que la propagation initiale aurait pu être l'équipe à l'extérieur est privilégiée par 6 points (-6), mais la propagation s'est déplacée pour rendre l'équipe extérieure favorisée par 8 points (-8). L'équipe à l'extérieur doit maintenant gagner de plus de 8 points pour couvrir la propagation, opposée au point précédent où l'équipe extérieure n'avait besoin que de gagner de plus de 6 points.
Il y a quelques valeurs aberrantes où la différence de ligne est supérieure à 5 points. Ce genre de mouvement extrême ne peut se produire qu'en raison des actualités des gros joueurs. Par exemple, s'il y a des nouvelles le vendredi précédant le jeu que Tom Brady est blessé et ne peut pas jouer, cela entraînerait un swing massif dans la ligne qui ne serait pas lié aux pourcentages de trésorerie et de billets.
1. Codere | BONUS DE BIENVENUE CODERE CASINO - 100 % DE DÉPÔT JUSQU'À 200 € |
2. Legend Play | de 100 % jusqu'à 500 € + 200 tours gratuits |
3. Vulkan Vegas | Få bonus opptil 150 000 kroner + 270 gratisspinn! |
4. Mystake | Bonus de bienvenue du casino de 150 % jusqu'à 200 EUR et 100 % jusqu'à 1 000 EUR, cashbacks, tours gratuits, et plus encore |
5. Viggoslots | BONUS DE BIENVENUE 100% + 70 bonus de dépôt FS |
3.1.2 Modélisation de la propagation ponctuelle
Après l'analyse des données exploratoires, la prochaine étape consiste à trouver le meilleur modèle pour prévoir la propagation future. Le modèle doit prévoir quelle sera la propagation d'un certain point de décision. Ce premier point de décision est le premier point où les paris seront placés. Le point de décision choisi est après les deux tiers des observations dans chaque série temporelle. Le cadre de données contenant les observations pour chaque jeu est coupé à la barre des deux tiers, et le modèle prévoit ensuite l'écart de point pour le tiers final des observations, en utilisant uniquement les informations jusqu'à ce point des deux tiers. Je considère une approche bayésienne et fréquentiste pour modéliser la propagation ponctuelle. Après avoir prévu l'écart de point pour les dernières observations d'un tiers, je calcule l'erreur pour chaque modèle en trouvant la différence entre l'écart de point prévu et la répartition du point réelle pour chaque observation. J'utilise les prévisions du modèle avec l'erreur moyenne la plus basse dans toutes mes séries chronologiques dans mes stratégies de paris.
L'approche bayésienne de la modélisation est un modèle de régression aléatoire de séries chronologiques et de régression du bruit. Le processus commence par placer un précédent pour les paramètres de mon modèle avant de mettre à jour ces paramètres avec la moyenne postérieure en trouvant le MLE des paramètres de ce modèle de régression. Les régresseurs du modèle sont le \ (\ log (\ text) \), le nombre loin de paris (numéro de billette), \ (\ log (\ text) \) et le nombre de paris (numéro de billet d'accueil).
Le processus complet de création du modèle linéaire dynamique est démontré à travers l'exemple de la semaine 2, 2018 entre les Vikings du Minnesota et les Packers de Green Bay.
Équations (3.1) et (3.2) Exprimer un modèle de régression linéaire dynamique avec des paramètres variant dans le temps.
Le vecteur d'observations jusqu'au temps \ (t \) est \ (y ^ = (y_1, . yt)\) . L'équation d'observation (équation ??) décrit le vecteur d'observations \ (y_ \) (la propagation au temps \ (t \)) à travers son vecteur d'état \ (\ theta_ \) (les variables prédictives au temps \ (t \)) et le vecteur du bruit de les observations \ (v_t \) . L'équation de l'évolution (équation ??) décrit l'évolution du vecteur d'état au fil du temps avec une structure Markov. \ (\ theta_ \) est le vecteur d'état des paramètres de régression variant dans le temps (de nombre \ (p \)); \ (\ theta_ = (\ alpha_ \; \ beta _) ^ \) avec dimension \ (p \ fois 1 \) . \ (\ alpha_ \) et \ (\ beta_ \) sont les coefficients de régression \ (\ textbf _ ^ \) est le vecteur de ligne des covariables au temps t de dimension \ (1 \ fois p \) . \ (w_t \) est la variance des vecteurs d'état-espace. \ (G_ \) est une matrice d'évolution de la dimension \ (p \ fois p \). C'est la matrice d'évolution car elle permet l'évolution du vecteur d'espace d'état en correspondant aux dimensions des paramètres. \ (G_ \) est généralement, et dans ce modèle, une matrice d'identité.
Ceci est la configuration générale pour un modèle de régression linéaire dynamique. Équations (3.3) - (3.5) Montrez l'expansion de l'équation (3.1).
\ [\ begin y_ = \ alpha_ + \ beta_ \ \ textbf ^ _ + v_ \ hspace v_ & \ sim & n (0, v_t) \ tag \\ \ alpha_ = \ alpha_ + \ epsilon_ ^ \ hspace \ epsilon_ ^ & \ sim & n (0, \ sigma ^ _) \ tag \\ \ beta_ = \ beta_ + \ epsilon_ ^ \ hspace \ epsilon_ ^ & \ sim & n (0, \ sigma ^ _) \ tag \ end \]
Il y a trois paramètres qui doivent être définis, et c'est la variance des observations \ (v_t \), puis les variances des coefficients de régression pour le vecteur d'espace d'état - \ (\ Sigma ^ _ \) et \ ( \ Sigma ^ _ \) .
Cela peut être fait via une méthode bayésienne, où les valeurs de démarrage du paramètre initial sont définies, puis en trouvant le MLE du DLM en utilisant le dlmmle, Ces paramètres sont mis à jour avec la moyenne postérieure. J'ai utilisé l'échantillon de variance d'observation de la propagation jusqu'au premier point de décision comme valeur de départ de la variance d'observation \ (v \) . J'ai utilisé un plat à plat pour les variances des paramètres de régression ont un plat avant. Tableau 3.1 montre les valeurs pour les moyens antérieurs et postérieurs des paramètres de variance.
Paramètres antérieurs | Paramètres postérieurs | |
---|---|---|
\ (V \) | 0.5261619 | 0.0040991 |
\ (\ Sigma ^ _ \) | 0.0000000 | 0.0996949 |
\ (\ Sigma ^ _ \) | 0.0000000 | 0.0000000 |
La moyenne postérieure pour les valeurs \ (\ Sigma ^ _ \) et \ (\ Sigma ^ _ \) est utilisée en diagonale dans la matrice \ (\ omega_t \). En regardant en arrière les équations (3.1) et (3.2), \ (\ theta_t \) pour chaque observation se trouve en utilisant des valeurs \ (\ alpha_t \) et \ (\ beta_t \), qui sont dessinées via \ (\ sigma ^ _ \) et \ (\ Sigma ^ _ \) . Les valeurs du vecteur de conception \ (\ textbf ^ _ \) proviennent directement des prédicteurs et la variance pour \ (v \) est définie. Ainsi, tous les paramètres nécessaires à la modélisation sont définis, et j'utilise un modèle de régression linéaire dynamique via la fonction dlmmodreg Pour calculer mes valeurs pour les valeurs d'observation (\ (y_t \)) et les paramètres d'état-espace (\ (\ theta_t \)). Cela se fait via la méthode de filtrage.
La distribution de filtrage prend le DLM et renvoie une série de prévisions en une étape pour les observations. Ces prévisions en une étape sont créées en filtrant toutes les informations jusqu'au temps \ (t \) . La première étape de la distribution de filtrage a une valeur de départ \ (\ theta_0 \ sim n (m_0, c_0) \) . \ (m_0 \) et \ (c_0 \) sont les moyennes et les variances de pré-échantillon pour \ (\ theta \) .
- \ (\ theta_0 \ sim n (m_0, c_0) \) .
- Prévisions en une étape pour l'état: \ [\ begin \ theta_t \ mid y ^ \ sim n (a_t, r_t) \ end \] pour \ (a_t = g_t \ cdot m_ \) et \ (r_t = g_t \ cdot c_ \ cdot g_ ^ + w_t \) .
- Prévisions en une étape pour l'observation: \ [\ begin y_t \ mid y ^ \ sim n (f_t, q_t) \ end \] pour \ (f_t = f_t \ cdot a_t \) et \ (q_t = f_t \ cdot r_ \ cdot f_ ^ + v_t \) .
Création d'une distribution filtrée avec le dlmfilter La fonction renvoie une série de prévisions et de variances en une étape pour les observations, ainsi que les mêmes informations pour le vecteur d'état-espace.
Pour un modèle linéaire dynamique invariant dans le temps, il n'y aurait pas de travail supplémentaire pour trouver une prévision pour les observations après un point donné \ (t \) . Mais, pour un modèle variant dans le temps, comme celui-ci, les valeurs \ (\ textbf ^ _ \) sont également inconnues au-delà du point donné \ (t \) . La méthode de filtrage de Kalman étend les séries chronologiques avec de nouvelles valeurs de prédicteur futures, mais ne saisit pas les valeurs futures pour les valeurs d'observation. Une fois les valeurs de prédicteur futures entrées, je crée une distribution filtrée avec ce nouvel ensemble - en utilisant les valeurs filtrées des valeurs d'observation étendues comme prévision.
Il existe quelques méthodes courantes pour trouver de nouvelles méthodes pour les valeurs prédictives, telles que la saisie de la dernière observation connue, la moyenne ou la médiane. Cependant, puisque mes valeurs de prédicteur continuent de croître, ces méthodes ne s'appliquent pas à ce modèle. Donc, au point de décision, j'adapte des modèles Arima pour chacune de mes nouvelles valeurs de prédicteur. J'ai utilisé le Auto Arima Méthode pour générer ces nouvelles valeurs pour chacune de mes variables prédictives. L'utilisation de la méthode ARIMA est une approche fréquentiste d'une prévision des séries chronologiques. J'ai utilisé cette approche car pour deux raisons: il n'est pas réaliste de construire un DLM bayésien séparé pour chaque paramètre et ces paramètres se développent simplement sans fluctuation (contrairement à la propagation de points), il n'est donc pas aussi nécessaire de construire comme complexe d'un modèle. Il y a trois paramètres qui entrent dans cette méthode Arima: p est le nombre d'observations de décalage dans le modèle, d est le degré de différence et q est l'ordre de la moyenne mobile.
Le auto.Arima La fonction choisit automatiquement le meilleur P, D et q valeurs qui minimiseront l'AIC et le BIC du modèle. Cependant, en définissant le paramètre saisonnier sur «False», j'ai veillé à ce qu'aucun modèle qui incorporait une tendance saisonnière ne soit choisi car cela ne correspondait pas à ces données. figure 3.5 est le nombre prévu de billets par rapport au véritable nombre de billets pour le jeu Green Bay Packers contre Minnesota Vikings. Bien que ces prévisions ne soient certainement pas parfaites, elle suit généralement un chemin similaire à la vraie valeur. Il s'agit certainement d'une méthode imparfaite et d'un domaine d'amélioration de cette facette du modèle.
figure 3.5: Numéro de billet prévu contre vrai
Ce modèle de prévision pour le nombre de billets est un modèle Arima (1, 2, 2) qui est exprimé dans les équations (3.6) et (3.7).
\ [\ begin \ hat = & \ hat + 2y_ - y_ \ tag \\ \ hat = & \ mu + ar1 \ cdot y_ - ma1 \ cdot e_ - ma2 \ cdot e_ \ tag \ end \]
Tableau 3.2 affiche les coefficients du modèle Arima (1, 2, 2).
Coefficient | |
---|---|
AR1 | -0.9895154 |
MA1 | 0.1705304 |
Ma2 | -0.4278727 |
figure 3.6: Modèles de diagnostic pour Arima (1, 2, 2) Modèle pour le numéro de billette
figure 3.6 est les parcelles de diagnostic pour le auto.Arima Méthode pour prévoir le nombre de billets pour l'équipe extérieure. Les parcelles montrent que ce modèle est un assez bon ajustement pour les données, car les résidus standardisés ressemblent généralement à du bruit blanc, bien que les valeurs de p pour l'autocorrélation deviennent significatives lorsque le facteur de décalage atteint des valeurs élevées telles que 9. Comme ces modèles sont automatiquement ajustés pour décrire au mieux les données à portée de main, elles s'adaptent généralement assez bien aux données.
Il est important de noter que l'ARIMA automatique est adaptée à chaque nouvelle variable différente de chaque série temporelle (opposée à l'utilisation du même modèle ARIMA pour le Bet Cash pour toutes les séries) car les tendances ne sont pas les mêmes dans toutes les séries. Alors que les bookmakers cherchent généralement à obtenir 50/50 en espèces sur chaque jeu, ce n'est certainement pas toujours le cas, car les bookmakers prendront un poste sur de nombreux jeux. Ainsi, le modèle ARIMA automatique s'adaptera le mieux au modèle aux données pour chacune des variables prédictives.
Enfin, après avoir généré de nouvelles valeurs pour les variables prédictives dans mon DLM, la méthode de filtrage de Kalman peut être utilisée pour trouver des prédictions pour la propagation. Cette méthode suit exactement la même approche que ci-dessus, cependant, les prévisions en une étape pour le dernier tiers des observations remplaceront le NAS.
De plus, à titre de comparaison, la propagation est également modélisée avec le auto.Arima Prévisions, en utilisant les mêmes variables prédictives que le DLM bayésien que les régresseurs. Ceci est une approche fréquentiste pour la modélisation à chaque série temporelle. La précision de chaque approche est déterminée en examinant l'erreur moyenne dans les valeurs d'écart prévues par rapport aux vrais valeurs de propagation.
Pour cet exemple de jeu entre les Packers de Green Bay et les Vikings du Minnesota, le auto.Arima La méthode ajuste un modèle ARIMA (1, 0, 0), qui est un modèle autorégressif de premier ordre.
Équation (3.8) exprime ce modèle. \ [\ begin y_t = c + \ phi_
Y_ + \ epsilon_t \ hspace \ epsilon_t \ sim n (0, \ sigma ^ _) \ tag \ end \]
\ (c \) est l'interception ou la constante dans l'équation et \ (\ phi_
\) est le vecteur de coefficients pour le terme autorégressif (AR), ainsi que tous les prédicteurs. Tableau 3.3 montre les coefficients de ce modèle et le paramètre de variance \ (\ Sigma _ ^ \) = \ (0.00595 \) .
Coefficient | |
---|---|
AR1 | 0.8548193 |
Intercepter | -2.4132144 |
Enregistrez-vous en espèces | -0.0153527 |
Log Home Cash | 0.0008310 |
Numéro de billet à l'extérieur | -0.0543334 |
Numéro de billet d'accueil | 0.0022097 |
figure 3.7: Tread contre les prévisions pour les Vikings du Minnesota à Green Bay Packers Week 2, 2018
figure 3.7 compare le DLM bayésien et les prédictions du modèle fréquentiste Arima avec les véritables valeurs finales du jeu entre les Vikings du Minnesota et les Packers de Green Bay. La ligne bleue représente la véritable propagation, tandis que les lignes rouges et vertes représentent respectivement les prévisions bayésiennes et fréquentistes. Les deux prévisions prédisent correctement la propagation. Cependant, l'approche bayésienne fait un meilleur travail, dans ce scénario, d'être plus proche des vraies valeurs de propagation.
figure 3.8: Prévisions de propagation contre les Vikings du Minnesota à Green Bay Packers Week 2, 2018 avec un intervalle de confiance de 80%
figure 3.8 montre les prévisions de DLM bayésien avec un intervalle de confiance de 80%. J'ai choisi une confiance de 80% sur la base d'essais et d'erreurs. Ici, alors que la propagation au point de décision se situe dans l'intervalle de 80%, il y a un point où la propagation atteint les Vikings (-1) lorsque la propagation est hors de l'intervalle de 80%. Ce sera une distinction clé à faire en ce qui concerne les stratégies de paris. En fait, c'est pourquoi j'ai choisi une confiance de 80%, par opposition à un intervalle de confiance plus standard de 95%. Avec l'intervalle de confiance à 95% plus large, il est plus rare pour moi d'avoir une valeur en dehors de cet intervalle. Puisque je prends des décisions de paris en fonction de la question de savoir si la propagation se trouve dans l'intervalle sélectionné, j'utilise un intervalle qui me permet d'incorporer plus de cas d'attente pour parier jusqu'à ce que la propagation future passe à une position plus avantageuse. De plus, alors que l'intervalle de confiance à 95% est plus standard, le choix est aussi arbitraire qu'un intervalle de confiance de 80%.
figure 3.9: Terrain QQ normal pour les résidus de la propagation prévue du DLM
figure 3.9 montre le tracé résiduel de la distribution filtrée. Les résidus ne semblent pas être complètement distribués. Cela est dû au fait que la vraie propagation ne peut se déplacer que par incréments de 0.5, qui est une quantité massive en termes de sauts dans les valeurs filtrées. Cependant, lorsque vous regardez les valeurs arrondies de la propagation, les résidus sont plus susceptibles d'être normalement distribués.
figure 3.10: Diagnostic-tracés pour DLM de Min au jeu GB
figure 3.10 est les parcelles de diagnostic du modèle filtré de Kalman des Vikings du Minnesota au jeu Green Bay Packers. Les valeurs P pour l'autocorrélation sont toutes extrêmement élevées, indiquant qu'il n'y a pas d'autocorrélation. Les résidus ressemblent généralement à du bruit, à quelques exceptions près de la nature de ces données, et l'ACF est dans les limites de tous les facteurs du décalage.
Après avoir construit deux modèles, j'ai choisi d'utiliser les prévisions du modèle le plus performant. Pour chaque série temporelle, l'erreur est la somme de la différence entre chaque vraie propagation et la propagation prévue. Chaque méthode avait un vecteur d'erreurs de 414 erreurs.
Lorsque je regarde les vecteurs d'erreur, j'ai supprimé 5 valeurs aberrantes où chaque modèle Avait des sommes d'erreur supérieures à 100 points au total. Il est intéressant de noter que les deux modèles avaient les mêmes prévisions pour certaines séries »- en particulier celles avec les plus grandes erreurs. Ces erreurs massives que les deux modèles trouvées sont probablement dues à des jeux qui ont été affectés des circonstances extraordinaires pour lesquelles mon modèle ne peut pas rendre compte. Je n'ai pas utilisé les prédictions de la série temporelle pour ces 5 jeux pour mes simulations non plus.
identifiant de jeu | Semaine | Année |
---|---|---|
Phivjac | 8 | 2018 |
Gbvdet | 5 | 2018 |
Carvatl | 2 | 2018 |
Larve | 16 | 2017 |
Lacvjac | dix | 2017 |
Tableau 3.4 montre les cinq matchs exclus. Après avoir pris un bref aperçu de ces matchs, il convient de noter que le jeu Phivjac a été joué à Londres à 9h30 HE (6h30 PT) un dimanche. L'heure de début étrange aurait pu provoquer des modèles de paris étranges où il y avait beaucoup moins de paris dans le dernier tiers des observations que la normale. Généralement, le montant de la trésorerie augmente plus linéairement. Cependant, avec une heure de début aussi tôt un dimanche matin, combinée au fait que les gens ont souvent des plans le samedi soir, il peut y avoir un afflux massif d'argent très proche du jeu, alors que les gens se réveillent juste avant le Le jeu commence - opposé à avoir quelques heures pour placer des paris avant le début du match.
figure 3.11: Parit en espèces total sur GB vs. Min (à gauche) par rapport à phi vs. Jac (à droite) tout au long de la semaine
figure 3.11 représente le montant du pari en espèces tout au long de la semaine. La ligne pointillée est le point de décision. Les graphiques montrent que les jeux d'heure de début étrange ont une augmentation exponentielle beaucoup plus massive du montant d'argent parié directement après le point de décision. Cela rend ces jeux difficiles à modéliser. De plus, en regardant le GB vs. Det Game qui a été une valeur aberrante massive, le quart-arrière des Packers Green Bay Star, Aaron Rodgers, était discutable de jouer tout au long de la semaine en raison d'une blessure. Il a finalement été annoncé en bonne santé à la fin de la semaine. Il n'est pas clair les circonstances pour les trois autres valeurs aberrantes.
Min. | 1er q | Médian | Moyenne | 3e Q | Max | |
---|---|---|---|---|---|---|
Erreurs DLM | -11.81761 | -0.5605623 | 0 | 0.0519290 | 0.4935073 | 38.05709 |
Erreurs Auto Arima | -11.81761 | -0.5544576 | 0 | 0.0690394 | 0.4947444 | 38.05709 |
DLM | Auto Arima | |
---|---|---|
Abdos médian. Erreur | 0.5468115 | 0.7686323 |
Abs moyen. Erreur | 1.4152842 | 3.4088224 |
Tableau 3.5 affiche les statistiques sommaires pour mes deux vecteurs. Ces données montrent que le modèle DLM a une erreur moyenne plus faible. De plus, en regardant simplement une erreur absolue, l'approche DLM bayésienne a fourni une erreur moyenne absolue médiane inférieure, comme le montre le tableau 3.6, j'ai donc utilisé les prévisions de ce modèle pour incorporer les valeurs futures de mon point de décision.
3.1.3 Modélisation Nombre d'observations
Pour prédire le nombre de points futurs à prévoir à partir d'un certain temps \ (t \), j'ai construit un modèle de régression linéaire simple. J'ai rassemblé dix points de données également espacés de chacun de mes ensembles de données. Chaque point de données contient des informations sur le montant de l'argent total, le nombre total de billets et le nombre d'observations jusqu'au temps \ (t \), ainsi que sur le nombre de points de données finaux dans cette série. Une ligne de ce cadre de données est affichée dans la section 6.2 de l'annexe. J'ai ensuite construit un modèle de régression linéaire mixte simple pour prévoir le nombre de points de données totaux dans la série, afin que je puisse trouver le nombre de points \ (h \) que je devrais utiliser pour les prévisions à mon point de décision. Alors que j'ai envisagé d'utiliser la régression de Poisson car le nombre d'observations est un certain nombre d'occurrences, le modèle linéaire et simple de Poisson n'a pas adapté les données ainsi que le modèle mixte linéaire, basé sur les diagnostics du modèle. Équations (3.9) - (3.11) est l'équation de ce modèle mixte simple, avec \ (n_i \) représentant la quantité d'observations finales dans la série, tandis que \ (n_t \) est la quantité d'observations jusqu'au temps \ (t \) . La semaine est un facteur et un effet aléatoire (les séries éliminatoires sont traitées ici comme la semaine 0), car certaines semaines attirent plus de parieurs que d'autres semaines.
\ [\ begin \ notag & \ text \ j \ in \ 0 \, \ . . . \, \ 17 \\ & \ hat = \ beta_ + \ beta_ \ cdot \ log (\ text) + \ beta_ \ cdot \ log (\ text) + \ beta_ \ cdot \ text_t + \ alpha_j ^> + \ epsilon_i \ Tag \ \ \ \\ & \ epsilon_i \ sim n (0, \ Sigma ^ 2_>) \ tag \\ & \ alpha_j ^> \ sim n (0, \ sigma ^ 2_>) \ tag \ end \]
Les coefficients et diagnostics de ce modèle sont également présentés dans la section 6.2 de l'annexe, car c'est une partie moins essentielle du plus grand objectif de cette thèse.
3.Prédiction des résultats de 2 jeux
3.2.1 Aperçu des décisions
figure 3.12: Aperçu des décisions de paris
figure 3.12 montre un graphique de flux détaillant les différents scénarios possibles et combien je parierais dans chaque scénario. J'utilise «l'attribution» pour décrire le montant des paris car les nombreuses stratégies de paris différentes parieront des montants différents pour les mêmes scénarios. Les bookmakers ouvrent les paris sur le jeu en plaçant une diffusion initiale généralement environ une semaine avant le début du jeu. J'attends ensuite mon point de décision, je prévois la propagation pour le reste de la semaine jusqu'au moment du match et fournissent une estimation de probabilité pour chaque équipe qui bat la propagation. Si les paris sur le jeu fournissent une valeur attendue négative en fonction de l'estimation du point de probabilité, je ne parie pas sur le jeu, mais je laisse l'occasion ouverte à parier plus tard dans la semaine si une nouvelle propagation prévue rendrait l'avantage à parier sur. Si le jeu a une valeur attendue positive, je place mon pari sur le jeu au point de décision. Cependant, si la propagation future prévue projette une nouvelle propagation encore plus avantageuse sur laquelle parier, je ne ferai qu'une partie de mon pari au point de décision et attendre pour placer le reste de mon pari. Si la propagation se déplace en fait comme prévu, je place alors le reste du pari au moment où la propagation frappe mes projections.
3.2.2 Analyse des données exploratoires
figure 3.13: Résultat du jeu contre l'écart vs. Spread - Le rouge indique que l'équipe a battu la propagation et le noir indique que l'équipe n'a pas battu la propagation
Certaines décisions clés déterminent si la propagation réelle elle-même était un facteur majeur dans la prévision des performances de l'équipe contre la propagation. Dans la figure 3.13, la variable y est le différentiel de score pendant le jeu soustrait par la propagation, afin de normaliser les scores. Par exemple, si l'équipe à l'extérieur gagne de 11 points, et que l'écart avait l'équipe à l'extérieur privilégiée par 10 points, la variable en y dans ce scénario serait 1, car l'équipe à l'extérieur a joué un point mieux que la propagation. La variable x est la propagation. Les points rouges sont les observations où l'équipe à l'extérieur a couvert la propagation et les points noirs sont les observations où l'équipe à domicile a couvert la propagation.
La propagation ne semble pas avoir un impact sur les performances de l'équipe contre la propagation. Cela signifie que les bookmakers n'ont pas de zones mortes dans la fabrication de spreads où une certaine équipe est beaucoup plus susceptible de battre la propagation à un certain moment. Il ne semble pas y avoir de biais (ce qui rend les écarts trop petits ou trop grands), en ce qui concerne la propagation et les performances.
figure 3.14: Résultat contre la propagation vs. Différence de pourcentage de caisse - le rouge indique que l'équipe a battu la propagation et que le noir indique que l'équipe n'a pas réussi à battre la propagation
figure 3.14 examine la relation entre les pourcentages de trésorerie et de billets et le résultat contre la propagation. Lorsqu'il y a un pourcentage significativement plus élevé de paris en espèces sur une équipe, par rapport au nombre de paris sur une équipe, l'une des équipes reçoit des paris plus importants. C'est généralement un indicateur que les paris professionnels parient sur une équipe. Ceux qui parient sur les sports pour la vie ont tendance à parier beaucoup plus que ceux qui parient récréatifs, et les meilleurs biens ont tendance à être corrects plus souvent que les meilleurs recréations.
De la figure 3.14, lorsque le pourcentage de trésorerie augmente, par rapport au pourcentage de billets, l'équipe a tendance à fonctionner un peu mieux, en ce qui concerne la propagation. Ceci est une indication que la différence de caisse peut être un indicateur utile des performances.
figure 3.15: Résultat du jeu contre l'écart vs. Pourcentage de victoire à l'extérieur - le rouge indique que l'équipe a battu la propagation et que le noir indique que l'équipe n'a pas réussi à battre la propagation
figure 3.16: pourcentage en espèces vs. Pourcentage de victoire - le rouge indique que l'équipe a battu la propagation et que le noir indique que l'équipe n'a pas réussi à battre la propagation
figure 3.17: Résultat versus Spread by Away Team
figure 3.15 montre la performance d'une équipe contre la propagation par rapport à son pourcentage de victoire actuel. Les données montrent que lorsque le pourcentage de victoire augmente pour une équipe, ses performances contre la propagation s'aggrave. Cela indique le fait que de nombreux parieurs réagissent de manière excessive aux performances passées - surtout en ce qui concerne les équipes invaincues ou sans victoire, donc les bookmakers «déclencheront» les lignes contre l'équipe la plus populaire. Par exemple, si une équipe est de 2-0, de nombreux parieurs réagiront de manière excessive à une petite taille d'échantillon, et pour que les bookmakers atteignent une somme d'argent égale à chaque équipe pour se garantir un profit, les bookmakers déplaceront la ligne contre la équipe invaincue. Les phénomènes opposés se produisent pour les équipes sans victoire.
figure 3.16 montre qu'à mesure que le pourcentage de victoire augmente, le pourcentage de trésorerie a tendance à augmenter. Sur les bords avec des pourcentages de victoires de 0% et 100%, cette tendance semble inverser légèrement. Cela est probablement dû au fait que les bookmakers ombragent les lignes à une quantité aussi extrême pour ces pourcentages de victoires extrêmes, où ils sont capables d'atteindre une action presque égale.
figure 3.17 montre le résultat contre la propagation pour chaque équipe à l'extérieur. Il y a une grande variation entre toutes les équipes, et bien que certaines équipes semblent mieux fonctionner contre la propagation, comme les Saints de la Nouvelle-Orléans, le traitement de l'équipe comme un effet aléatoire dans la modélisation semble convenir aux données.
3.2.3 approche du modèle
Il y avait quelques approches différentes de la modélisation qui méritaient une considération. Parce que les scores ne sont que dans des unités entières, un modèle de régression ordinale semblait être approprié. Cependant, parce qu'il y a une quantité illimitée de niveaux, ainsi que le fait qu'il y a tant de niveaux - dont beaucoup ont peu de points de données - cette approche n'aurait pas donné de résultats appropriés. Un modèle linéaire mixte est une bonne approche pour modéliser ces données avec de nombreux groupes différents (les différentes équipes). La chute de cette approche est qu'elle ne donne pas de poids supplémentaire aux pics dans les différences de score entre les jeux à 3 et 7, mais les prédictions de score seraient toujours plus précises qu'un modèle de régression ordinale utilisé de manière inappropriée. Peut-être qu'il y avait des dizaines de milliers de points de données où chaque niveau serait représenté à plusieurs reprises, une régression ordinale serait plus appropriée.
Pour évaluer d'abord les meilleurs modèles linéaires mixtes, les modèles ont été réduits en fonction de la minimisation du BIC sur l'ensemble de données complet. Après avoir trouvé deux modèles avec des BIC similaires mais des prédicteurs différents, les modèles ont été comparés par une validation K-Fold. Il y avait quelques mesures utilisées dans cette utilisation: le taux d'erreur entre les résultats prévus pour l'ensemble de test et les résultats réels, puis les performances de paris (et de banque) sur chacune des simulations. La validation K-Fold a utilisé 100 simulations afin d'obtenir une grande distribution des montants de banque. Mais, si cette validation K-Fold était effectuée comme d'habitude, cela laisserait les ensembles de données de test avec seulement 4 points de données. Au lieu de cela, les données ont été mélangées au hasard pour chacune des 100 itérations, puis divisées en 7 fois - avec un pli utilisé comme ensemble de données de test et le reste comme ensemble de données d'entraînement.
3.2.4 simulations
Pour générer les probabilités simulées de battre la propagation pour chaque jeu dans l'ensemble de données de test, j'ai généré 500 tirages de sa distribution prédictive postérieure pour chaque modèle.
figure 3.18: Résultats simulés pour NYG @ Den Semaine 6, 2017
figure 3.18 est un histogramme représentant les résultats des 500 tirages de la distribution prédictive postérieure du meilleur modèle de performance globale (comme nous le verrons dans la section 3.2.5) Pour un exemple de jeu dans un ensemble de données de test pour les Giants de New York aux Denver Broncos pendant la semaine 6, 2017. La ligne noire verticale représente la médiane des 500 tirages de la distribution prédictive postérieure, et la ligne rouge verticale représente l'écart de point réel. La médiane des résultats simulés (la ligne noire verticale) est placée à -11.8, ce qui signifie que l'équipe extérieure, les Giants, devrait perdre ce match par 11.8 points. Cependant, la propagation (la ligne rouge verticale) à notre premier point de décision a les Giants +12.5 points, signifiant battre la propagation, les Giants doivent perdre de 12 points ou moins, ou gagner. Ainsi, à première vue, il semble y avoir un léger avantage sur les paris sur les Giants de New York +12.5 Parce que la propagation fait perdre les géants de 12.5 points, mais le modèle prévoit que les Giants ne perdent que par 11.8 points.
figure 3.19: Distribution cumulative empirique des résultats simulés pour NYG @ Den Semaine 6, 2017
figure 3.19 est la distribution cumulative empirique (ECDF) des 500 tirages de la distribution prédictive postérieure. Le bleu représente où la propagation du point tombe dans l'ECDF. Être au-dessus ou en dessous des deux lignes rouges signifie que les paris sur ce jeu générent une valeur attendue positive. Si le point est en dessous de la ligne rouge inférieure, il est avantageux de parier sur l'équipe extérieure, et si le point est au-dessus de la ligne rouge supérieure, il est avantageux de parier sur l'équipe à domicile. L'intervalle de ces lignes rouges est (0.4762, 0.5238). Si l'ECDF est inférieur à 0.5, la probabilité de succès est 1 - ECDF (propagation ponctuelle). Parce que le casino ne donne pas de cotes équitables et offre -110 cotes, où un parieur doit enjurer 1.1 unités pour gagner 1 unités, cet intervalle de probabilités génère une valeur attendue négative. Les bords de la probabilité fournissent une valeur attendue de 0. La valeur attendue est calculée en ajoutant la probabilité de défaillance multipliée par -1.1 (le montant des unités perdues si le BET perd) et la probabilité de succès multipliée par 1 (le montant des unités gagnées si le pari gagne). Équation (3.12) est l'équation de la valeur attendue.
Maintenant, pour trouver la probabilité de succès pour chaque jeu, j'ai trouvé où sur l'ECDF des tirages de la distribution prédictive postérieure, la propagation actuelle tombe. Par exemple, l'ECDF pour ce point de répartition des géants (+12.5) est \ (0.478 \), donc la probabilité que les géants battent la propagation est \ (1 - 0.478 = 0.522 \) . Le modèle s'attend à ce que les Giants battent la propagation avec une proportion de \ (0.522 \) . Le modèle s'attend à ce que les Broncos battent la propagation avec une proportion de 0.478. Depuis la propagation, dans ce scénario, est 12.5, et pas un nombre complet, il n'y a aucune probabilité de poussée, ou de nouer la propagation.
Après avoir généré une probabilité de succès, la valeur attendue peut être calculée. Puisque il faut parier 1.1 unités pour gagner 1 unité, la valeur attendue est \ (0.522 - ((1-0.522) \ cdot 1.1) = -0.0038 \) . Les paris sur les Broncos sont encore plus désavantageux, car leur valeur attendue est \ (0.478 - ((1-0.478) \ cdot 1.1) = -0.0962 \) .
Dans ce scénario, le modèle suggère une valeur négative attendue des paris sur les géants avec cette propagation de -0.0038 unités perdues par pari unité. Il y a une valeur négative prévue pour les paries sur les deux équipes! Donc, en raison de la valeur négative attendue, il n'y aura pas de pari sur le jeu à ce stade. Cependant, la propagation prévue a un impact sur la question de savoir s'il peut y avoir un pari à un moment futur.
figure 3.20: diffusion prévue pour la semaine 6, 2017 de NYG @ den avec 80%
figure 3.20 montre la diffusion prévue jusqu'à l'heure du jeu projetée pour le jeu Giants et Broncos. L'intervalle de 80% utilise une propagation arrondie, à la moitié la plus proche, pour calculer mon intervalle. L'écart prévu prédit un intervalle de confiance de 80% de (13.0, 14.5) Pour cette diffusion, environ 20 points de données dans les prévisions de 32 points. Le point de décision actuel se propage de 12.5 est en dehors de cet intervalle. La valeur attendue change une fois que la propagation entre dans mon intervalle. La distribution cumulative empirique pour les géants lorsque la propagation est des géants (+13) est 0.47 signifie que la probabilité simulée est \ (1 - 0.47 = 0.53 \) . La nouvelle valeur attendue est \ (0.53 - ((1-0.53) \ Times 1.1) = 0.013 \) . Ainsi, si la propagation se déplace dans mon intervalle à tout moment, je parierai.
C'est un avantage extrêmement petit. Cependant, la propagation se déplace réellement à 13.0, donc il y aurait un pari sur les géants. Cependant, l'intervalle de 80% se déplace encore plus tard à (13.5, 15.5) environ 30 points d'indice dans les prévisions. Le nouvel ECDF des géants (+13.5) est 0.45, ce qui signifie que la nouvelle probabilité simulée est 0.55 et la nouvelle valeur attendue est 0.055. Le niveau de confiance que la propagation se déplacera vers les géants (+13.5) n'est que 80%, mais \ (0.055 \ Times 0.8> 0.013 \), donc au premier point de la valeur attendue positive, je choisis que mon pari n'est qu'un tiers de l'attribution totale. Par exemple, si l'attribution de pari pour ce jeu est de 15 unités, je placerais un pari de 5 unité sur les Giants (+13). Les deux autres tiers de l'attribution seront placés si la propagation entre dans mon intervalle et frappe 13.5. En réalité, la propagation se déplace vers les géants (+13.5). Ainsi, les deux tiers de l'attribution de pari - ou 10 unités - est placé chez Giants (+13.5).
Cela a fini par être extrêmement important parce que les Giants ont en fait perdu le match de 13 points, donc un pari sur les Giants à (+12.5) aurait perdu de l'argent, tandis que le pari de 5 unités sur les Giants +13 est une poussée, ce qui signifie que l'argent est retourné, et le pari de 10 unités sur Giants +13.5 gagne et renvoie un bénéfice de \ (10/1.1) = 9.09 \) unités!
C'était le processus que j'ai suivi pour chaque jeu dans l'ensemble de données de test pour chaque modèle, car il y avait différentes probabilités de battre la propagation des deux modèles différents. À titre de comparaison, j'ai utilisé une méthode simple à partir d'une régression linéaire multiple simple, où l'estimation ponctuelle a été générée directement en utilisant la moyenne et la variance de la valeur prédite à partir de la formule pour calculer la valeur t de la propagation ponctuelle et l'utilisation du T -Distribution pour trouver une estimation de probabilité. Une ligne de mon ensemble de données de test avec les probabilités incluses est affichée dans la section 6.3 de l'annexe.
3.2.5 Sélection du modèle
Il y avait deux modèles qui fournissaient des résultats similaires de BIC sur les ensembles de données complets. Les deux modèles ont utilisé l'équipe extérieure comme effet aléatoire et ont utilisé la propagation du point de décision comme prédicteur. Mais, le premier modèle plonge dans plus de statistiques spécifiques à l'équipe, telles que les pourcentages de victoires, le nombre de victoires et le DVOA pondéré, afin de prédire au mieux qui gagnera. Je qualifierai ce modèle de modèle «spécifique à l'équipe». Le deuxième modèle a tendance à examiner davantage les tendances de paris, telles que le journal des billets et de la pari en espèces pour l'équipe extérieure et à domicile, et la différence entre le pourcentage de trésorerie et de billets (ce modèle utilise également la différence entre les équipes ' DVOA pondéré). pour ses prédicteurs. Le deuxième modèle utilise également l'année comme effet aléatoire. Ce modèle sera appelé le modèle des «tendances de paris» lorsque vous cherchez à incorporer certaines variables supplémentaires dans les autres modèles, le BIC augmente.
Le modèle spécifique à l'équipe est présenté dans les équations (3.13) - (3.15).
\ [\ begin & \ notag \ text \ i \ \ \ text \ 1 \, \ . \, \ 414 \ \ text \ j \ \ text \ 1, \ . \, \ 32 \\ & \ hat_i> = \ alpha _ ^> + \ boldsymbol ^ \ cdot \ textbf_i + \ epsilon_i \ tag \\ & \ epsilon_i \ sim n (0, \ sigma ^ 2_>) \ tag \\ & \ alpha ^> _ \ sim n (0, \ Sigma ^ _>) \ tag \ end \]
Variable dépendante: | |
Score à l'extérieur - Score de la maison | |
poly (maison.gagne, 2) 1 | 174.093 |
(113.876) | |
poly (maison.gagne, 2) 2 | 116.674 |
(68.643) | |
Poly (loin.gagne, 2) 1 | -90.551 |
(100.298) | |
Poly (loin.gagne, 2) 2 | -106.191 |
(62.894) | |
first_decision_point_spread | -0.790 |
(0.179) | |
maison.vigilant | -5.878 |
(5.919) | |
loin.vigilant | -13.392 |
(5.983) | |
Away_wei.dvoa | 0.197 |
(0.070) | |
poly (maison.gagne, 2) 1: maison.vigilant | -292.348 |
(150.945) | |
poly (maison.gagne, 2) 2: Accueil.vigilant | -73.081 |
(79.646) | |
Poly (loin.gagne, 2) 1: loin.vigilant | 182.016 |
(141.167) | |
Poly (loin.gagne, 2) 2: loin.vigilant | 86.750 |
(82.067) | |
Constant | 9.993 |
(3.839) |
figure 3.21: parcelles résiduelles pour le modèle spécifique à l'équipe
figure 3.22: parcelles résiduelles pour le modèle spécifique à l'équipe
Tableau ?? est les paramètres de sortie pour le modèle spécifique à l'équipe. Figures 3.21 et 3.22 est les graphiques de diagnostic pour ce premier modèle, et le modèle semble passer tous les tests de diagnostic. Les résidus ont tendance à être aléatoires et non corrélés; Les parcelles résiduelles basées sur les groupes sont indiquées dans la section 6.4 de l'annexe, mais il n'y a pas d'erreurs flagrantes.
Le modèle axé sur les tendances des paris est montré dans les équations (3.16) - (3.19):
\ [\ begin & \ notag \ text \ i \ \ \ text \ 1 \, \ . \, \ 414 \ text \ j \ \ text \ 1, \ . \, \ 32 \ \ text \ m \ \ text \ 2017, 2018 \\ & \ hat_i> = \ alpha _ ^> + \ alpha _ ^> + \ boldsymbol ^ \ cdot \ textbf_i + \ epsilon_i \ tag \\ & \ epsilon_i \ sim n (0, \ sigma ^ 2_>) \ tag \\ & \ alpha ^> _ \ sim n (0, \ sigma ^ _>) \ tag \\ & \ alpha ^ _ \ sim n (0, \ Sigma ^ _>) \ tag \ end \]
Variable dépendante: | |
Score à l'extérieur - Score de la maison | |
log_away_cash_bet | 17.360 |
(11.854) | |
log_home_cash_bet | -21.420 |
(11.946) | |
log_away_tic_num | -13.576 |
(11.148) | |
log_home_tic_num | 19.662 |
(11.332) | |
Wei_away.difficulté | 0.105 |
(0.054) | |
first_decision_point_spread | -0.719 |
(0.276) | |
Away_total.dvoa | -0.069 |
(0.036) | |
Cash_tic_diff | -63.509 |
(50.684) | |
Constant | 5.371 |
(22.890) |
figure 3.23: Modèles résiduels pour les tendances de paris
figure 3.24: Modèles résiduels pour les tendances de paris
Tableau ?? Affiche les paramètres du modèle de tendance de paris. Ce modèle semble également passer tous les tests de diagnostic, illustrés dans les figures 3.23 et 3.24, car les résidus ont tendance à être aléatoires et non corrélés. Les parcelles résiduelles basées sur les groupes sont indiquées dans la section 6.4 de l'annexe, mais il n'y a pas d'erreurs flagrantes.
Les modèles linéaires mixtes conviennent à la modélisation de ces données, et la validation de Kmol à l'aide de 100 ensembles de données de test est utilisée pour évaluer les modèles. Il est possible que les modèles aient des forces et des faiblesses différentes, en termes de risque et de récompense, et cela peut être examiné en examinant la distribution des gains.
- https: // www.thesportsgeek.com / sports-betting / stratégie / ponctual-spread / ↩
- https: // www.thesportsgeek.com / sports-betting / stratégie / ponctual-spread / ↩
Partenaires de casino associés