高端学术
您当前的位置:核心期刊咨询网理工论文》基于数据驱动与数据包络分析的运动队成绩预测

基于数据驱动与数据包络分析的运动队成绩预测

来源:核心期刊咨询网时间:12

摘要:摘要:提出一种基于数据包络分析方法和数据驱动多元逻辑回归的运动队成绩预测方法。首先进行多元逻辑回归分析,以检查运动队获胜概率与比赛结果之间的关系。其次利用基于数据包络分析的球员组合效率分析,从而最优的选择球员并安排场上球员的比赛时间。然后利用球员和

  摘要:提出一种基于数据包络分析方法和数据驱动多元逻辑回归的运动队成绩预测方法。首先进行多元逻辑回归分析,以检查运动队获胜概率与比赛结果之间的关系。其次利用基于数据包络分析的球员组合效率分析,从而最优的选择球员并安排场上球员的比赛时间。然后利用球员和球队的历史数据来进行训练,从而获得预测结果。最后,将提出的成绩预测方法应用于美国国家篮球协会,并以金州勇士队为例来说明其有效性。结果表明基于数据包络分析的多元逻辑回归方法可以很好地预测运动队的成绩,并且还可以提供与成绩相关的决策策略。

  关键词:数据包络分析;多元逻辑回归;成绩预测;数据驱动;运动队

  现如今,对未来的绩效准确预测可以使各种行动和目标受益,例如资源分配、生产调整、收入管理等。此外,绩效预测对于为这些生产部门设定发展目标也至关重要。例如,制造商将基于各个方面的生产效率预测来制定生产计划;一个国家可以通过进行良好的生产分析和预测,很好地起草和管理国家经济计划。而集体运动的成绩预测近年来引起了越来越多的关注,可用于设计训练和比赛计划。在真正的管理应用程序中所有这些成绩预测应用程序中,最重要的领域之一是体育行业。成绩预测和分析与相关教练、球员、体育科学家、投资者和成绩分析师利益攸关。

  在过去的几十年中,全世界的体育运动越来越引起人们的关注。体育产业在全球范围内赢得了巨大的价值和收入,其中美国国家篮球协会(NBA)是最有价值的联赛之一,在该联盟中,2019年NBA球队的平均特许经营价值仅为19.23亿美元。NBA凭借其转播权、广告和商品销售已成为最大的体育业务之一。为此,经理或教练将专注于对未来可能表现的分析,并相应地调整团队设置。

  运动队成绩研究中通常使用回归方法和贝叶斯推理以及神经网络等方法,例如,杨若愚集成了贝叶斯推理,基于规则推理和比赛时间序列方法来预测足球比赛的结果。AMATRIA M等分析了评估运动参与者能力和获胜概率的几种不同方法,并将这些方法进一步整合到一个通用框架中,以预测2008年欧洲足球锦标赛的结果。ARABI B等基于1908年至2012年的21 639名运动员的样本,应用了逻辑回归模型来检验相对年龄对运动表现的影响。刘天彪等使用多项式逻辑回归来确定与中超联赛球队质量相关的技术成绩变量。所有这些方法都解决了性能预测问题,但是运动成绩可能会受到鲜为人知的事件或极端事件的影响。

  数据包络分析,这是一种用于性能评估的非参数生产前沿方法,该方法考虑了可变规模收益假设,因此获得了不受规模效应影响的纯技术效率,由于其有效性,在医学、体育、教育、金融等领域得到了广泛的应用。数据包络分析方法学擅长处理多个输入和多个输出;其次,它考虑了各种投入和产出之间的权衡;另外,这种非参数方法不使用任何主观权重,这在开发成绩预测方法时显示出极大的灵活性。许多学者开发了基于数据包络分析的方法来评估NBA球队和球员的表现,因为球员交易在NBA中非常普遍,而數据包络分析方法提供了考虑不同球员组合的预测比赛结果的机会,这非常适合教练处理此类工作的NBA运作。此外,可以进行基于数据包络分析的实验和模拟来找到可以确定最大获胜概率的最佳球员组合,这个因素无法被忽略,因此可以很好地预测NBA球队的表现。例如,GOMEZ M等使用网络数据包络分析方法评估了NBA球队的效率,并且作者还计算了可能减少的球队预算和球队赢得的比赛。KOSTER J等还评估了网络环境下NBA的球队效率,并且作者使用了附加的两阶段分解框架来估计工资效率和场上效率。LEE BL等使用动态网络数据包络分析模型来解决篮球比赛的效率,并且作者考虑了主场球队和客队之间的差异。几乎所有数据包络分析模型都是为基于预先指定的输入和输出数据进行事后效率分析而设计的,很少有研究着眼于未来的性能预测。数据驱动的提出,从正在考虑的大量数据到数据背后的知识和信息,高度评价了数据的价值,如何充分挖掘大数据下隐藏的可用信息也逐渐成为研究热点。

  在本文中,基于数据包络分析与方法开发一种数据驱动多元逻辑回归的运动队成绩预测方法,提出的方法將应用于美国国家篮球协会,以验证其有用性和有效性。

  1问题与方法

  1.1问题设定

  对于任何一支NBA球队,假设下赛季将列出n名球员。为了简化研究,假设不存在参与者交易。此外,假设没有球员受伤,可以分配所有球员的上场时间和下赛季的比赛。对于预先指定的数据样本,此NBA球队记录了q场比赛,且第pp=1,…,q场比赛的比赛时间tp>1,比赛结果xpr≥0r=1,…,s。此外,对于每一位球员j=1,…,n,他在第p场比赛的总时间tpj≥0内,所获得的输出数据xprj≥0。

  在一个赛季中,教练将在所有球员之间分配比赛时间,并预测每位球员获得相应的胜利贡献值。然后,将其参与者汇总的总结果转换为可能的获胜概率。因此如何在球员之间分配上场时间,从而在下一个常规赛中使得所有82场比赛的获胜概率和预期获胜次数最大化。

  对于常规的篮球比赛,将有四节比赛,每节持续12 min,因此t0=12*4。同时,场上允许同时有5名球员,即n0=5。因此,总共的比赛时间n0*t0=240将分配给这n名球员,每名球员将通过在场上比赛获得一些结果。最后可以通过将单个球员的结果相加,可以预测整个团队的量化总结果。此外,总收益将根据比赛结果与获胜概率之间的数量关系转换为可能的获胜概率,并且这种获胜概率可以作为考虑的NBA球队的未来表现预测结果。可以通过一种有效的方式分配上场时间最大化某个目标函数f,这个基本的预测模型可以表述为模型(1):

  maxf=f(t1,L,tn)

  s.t.∑nj=1tj=n0×t0(1)

  0≤tj≤t0,j=1,L,n.

  目标函数f是球员比赛时间的函数,通过适当分配总比赛时间no·t0,目标函数f可以最大化。如果f是单个目标函数,则最佳预测结果将仅与一个球员的比赛时间有关。但是,像NBA这样运动中,影响结果的因素很多,因此需要使用回归方法来获得多目标函数的公式,该公式可以显示获胜概率与分配给个人球员的上场时间之间的数量关系。进一步通过数据包络分析的生产前沿方法将上场时间tj(j=1,…,n)转换为各种输出xrjr=1,…,s;j=1,…,n,因此只需要估计获胜概率和各种结果之间的数量关系即可。

  1.2DEA数学建模

  为了解决性能预测问题,需要指定在预定的时间段内可能的效率或低效率状态。为此,应该首先对球员和整个球队进行效率评估。效率分析的方法有很多种,本文基于一种称为数据包络分析的生产层方法提出了效率分析的方法。该方法利用历史数据构建一个效率边界,在此边界上对所有决策单元进行预测,并将实际单元与这些预测进行比较,以评估它们的相对效率。该模型具有内生方向矢量的基于松弛的方向距离函数(DDF)模型,以最大化期望的输出并且同时最小化不期望的输出。此时只考虑基于输出的基于松弛的方向,因为:(1)只有一个输入(即比赛时间);(2)可以很容易地证明,如果只考虑一个输入,则基于最优输出余量的低效率DMU的投影将非常有效;(3)最优方向向量是非径向的,因此模型在存在非零松弛的情况下不会高估效率。对于最佳方向矢量,可以参考文献。因此可以根据不期望的输出的可行的减少和期望的输出的可行的增长来估计最大的效率低下。根据文献\计算球员jj=1,…,n的每个度量的无效率比ρ+orj,ρ-orj。

  尽管在预测期间球队和球员的可能效率未知,并且充满不确定性,但效率的可能近似值是过去几个赛季中的平均效率得分,因此可以得到每种度量的加权平均无效率,其中以第oo∈Pj场比赛的比赛时间作为每个独立无效率比的权重ρ+rj,ρ-rj。

  为了进行基于数据包络分析的性能预测,认为平均无效率比ρ+rj,ρ-rj和ρ+r,ρ-r是球员和团队分别在预测期内的无效率状态的良好代表。这个假设可以与以下观察结果相联系:基于对手的表现,表现良好的球员和球队在比赛中的表现可能要好于对手。

  在预测模型中,决策变量tj是球员j的比赛时间,xrj是其相应的最优结果,λkj是用于构建每个球员j(j=1,…,n)的效率边界的强度变量。第一个约束意味着所有球员分配的上场时间与单个比赛的总比赛时间精确相加,而随后的4个约束则确保预测期内每个球员的计划投入产出在生产可能集(PPS)内,它是在变量回归比例(VRS)假设下,利用历史数据构建的。这里,计划投入产出和加权无效率比的乘积给出了一个无效率松弛,这可以被描述为在预测期内采用的无效率状态。约束条件x^r=∑nj=1xrj表示团队的输出仅来自所有球员的输出。另外,剩下的3个约束被用来确保预期的输出在团队的生产可能性集合内。同样,团队的平均低效率比率也被强加给了团队。为方便研究,消除对团队比赛时间的限制,因为考虑的是一个正常的比赛环境,并且团队比赛时间对于所有比赛都是相同的。

  预测模型开发了一个基本框架来处理预测,但是仍然可以添加额外的约束。通过保持每个度量的加权平均无效率,可以计算最大可能的获胜概率P。假设每个常规赛季每队有N场比赛,则预期的获胜次数将被统计为N·P。 特别是,在NBA常规赛中,预期的比赛获胜次数将表示为82P。

  数据包络分析方法是运筹学、管理科学与数理经济学交叉研究的一个新领域。DEA评价结构框图如图1所示。

  2应用实例

  2.1数据描述

  在本节中,使用金州勇士队从2011—2012赛季到2014—2015赛季的数据来预测下一个2015—2016常规赛季的理想表现。此外,出于以下两个原因,将删除那些超时的比赛:一方面,将为虚拟比赛分配240 min的总比赛时间,而这些超时的比赛的总比赛时间将超过该值。另一方面,在标准比赛时间(即240 min)内,由于这些比赛以平局结束,因此很难将这些加时赛的输赢结果量化为一或零。另外,本文忽略了进行了48 min以上的比赛。

  推荐阅读:大数据背景下信息通信网络安全管理策略研究

转载请注明来自:http://www.qikan2017.com/lunwen/lig/22641.html

相关论文阅读

论文发表技巧

期刊论文问答区

优质科技期刊

最新期刊更新

精品推荐