原标题:《纸上篮球》第三章第2节:休赛期应该怎么利用

我们上一节说到,休赛期是总结过去预测未来最好的时间点。那么具体可以怎么做呢?把球员们的录像找来看一看肯定是有帮助的。除此之外我今天想分享的,是整理数据的方法。

整理数据分成两部分。球队部分相对简单一些,按照攻守数据分开呈现,各自排名的原则,把百回合得失分、四要素和投篮分布都整理到表格里就可以了。另外synergy每种type的比重和得分率也可以做,这块不是一定要去synergy的网站付费买,官网有相对简化的版本。

球员数据会更麻烦一些,需要分成几个步骤:

1.整理一份出场时间达标的球员名单,我的习惯是把标准设置为500分钟。如果你觉得官网顶部的筛选器用起来还是有些复杂,可以直接去BBR的赛季名单里根据时间排个序即可,比如2019-20赛季的网址是https://www.basketball-reference.com/leagues/NBA_2020_totals.html。

2.按照时间筛出来的球员大概会有300多人,根据位置放进5个工作表里。有条件参考CTG的主要位置最好,没条件的话根据BBR也行,尽量是不要自己凭印象划分。凭印象除了可能不准外,或许还会导致某个位置人数特别多或者特别少。

3.选择你认为比较重要的数据(怎么选参考前面的章节),包括但不限于身高、体重、年龄、真实命中率、回合占有率、助攻率、失误率、投篮分布数据、synergy数据、各类一体化数据等等,手动填进表格里;加一些色块或者图标来更清楚地显示高低。其中部分涉及每36分钟的数据,需要做二次运算。

最后这一步大家可能会觉得有点蠢,300多人,每个人几十项数据手动填?接下来我来说说原因。

1.昨天说了,休赛期是NBA停下来等你4个月,最不缺的应该就是时间。如果考虑到这块整理的是常规赛数据,其实还会多出两个月。半年每天十几分钟的工作量,正常人都能完成。

2.少数人有利用爬虫抓数据的技术。这个技术你留到赛季期间用就好,和休赛期手动整理并不冲突。抓数据是为了最快效率地得出结果,但倘若这个结果的生成速度严重超出你的感知速度,它的实际优势非常有限。

我个人是觉得“记”比“看”会让人更加印象深刻一些。当然把数据全爬下来以后,每天花十几分钟看几个球员的效果是差不多的,还能一开始就有完整的排名。反正大家在这里要理解的是,整理数据不是单纯为了得到结果,而是为了在过程中感知结果,求快是没用的。

3.CTG自带分位置量化的功能,能否取代休赛期的手动记数据?部分可以,但它不能完全覆盖需求。比如各位置的出手频率,synergy数据,各类一体化数据。

而在这个过程里,你有可能学到的东西包括:

1.每个球员的特点。要知道每个位置的人数在六七十人左右,当数据门类足够丰富的时候,几乎每个球员——哪怕是平时看起来都差不多的配角——也会有相对独特的,特别靠前或者靠后的数据。你把它记住以后,对球员的优缺点了解就会立体得多,不会再是“射手”、“蓝领”这种模糊的分类。如果个别人完全没有特别靠前或者靠后的数据,Mr.Average也是一种特点。

2.我上一章花了很多篇幅,来说每个位置各项数据多少算高多少算低。但哪怕我把各种门槛说得比四分位值更细,也不如你自己做一遍去感受要来得印象深刻。这项技能get到以后,在赛季中看球员的数据(主要是官网和BBR这种没有分位置量化功能网站的数据)时也用得到。

3.由于部分数据之间存在关联,反复记会有助于理解。这句话看起来不太好懂,我举个例子。真实命中率是一项普及度很高的数据,懂得它的算法以及多少算高多少算低并不难。但很多人对它还是会有一种雾里看花的距离感,这是看到数据结果却没有反复感受计算过程所导致的。如果把球员的真实命中率和投篮分布数据都对照着仔细看一遍,距离感会小得多。

4.整理球员数据,对建立球队的预期值也有很大帮助。假设一套新阵容里没有回合占有率超过25%的球员,你肯定就会带着“谁来扛球权”这个疑问来关注该队的新赛季表现。我知道由于轮换细节的关系,由于防守数据更特殊的关系,把球员数据捏合起来展望球队仍然有难度。但至少一些更简单的问题,比如各队空间好不好,是可以通过整理球员数据来得到更精准的答案的。

比较遗憾的是,ESPN最近几年已经砍掉了给每个球员撰写报告的环节了,不然大家既可以练英文,又可以借此“验收”一下夏天自己的整理成果。这个工作相当于打地基,地基打扎实了,开赛就是继续添砖加瓦而已。

最后几段我有些犹豫该不该写。就是其实我自己也不太清楚这篇文章的具体受众是谁。对于业余爱好者而言,哪怕是每天十几分钟,做起来还是有些超纲了,可能只有少数真的乐在其中的硬核球迷会(或者有必要)去尝试。对于从业者而言,我自己会认为这是值得花时间的工作。但现状就是大部分的从业者是带着一种“骄傲”的,不会觉得吸收知识的方式有什么需要改进的地方,“观点各有不同”嘛。

圈哥以前也说过类似的事情,大意就是从业者出的问题并不在于努力程度,而在于努力方向,大部分人就没有数据分位置标准化的概念。当时那条微博我只是在底下评论说“这种话你讲可以,我讲就变成目中无人了”。关键是没有概念是因为不知道方法,还是压根儿不觉得它重要?后者是我做再多的科普,都很难改变的。具体受众是谁,也只能随缘就好了。

下一节会开始聊赛季期间的信息更新。系列文章微博“旋猫”首发,每天晚上6点日更。

原标题:《纸上篮球》第三章第2节:休赛期应该怎么利用

我们上一节说到,休赛期是总结过去预测未来最好的时间点。那么具体可以怎么做呢?把球员们的录像找来看一看肯定是有帮助的。除此之外我今天想分享的,是整理数据的方法。

整理数据分成两部分。球队部分相对简单一些,按照攻守数据分开呈现,各自排名的原则,把百回合得失分、四要素和投篮分布都整理到表格里就可以了。另外synergy每种type的比重和得分率也可以做,这块不是一定要去synergy的网站付费买,官网有相对简化的版本。

球员数据会更麻烦一些,需要分成几个步骤:

1.整理一份出场时间达标的球员名单,我的习惯是把标准设置为500分钟。如果你觉得官网顶部的筛选器用起来还是有些复杂,可以直接去BBR的赛季名单里根据时间排个序即可,比如2019-20赛季的网址是https://www.basketball-reference.com/leagues/NBA_2020_totals.html。

2.按照时间筛出来的球员大概会有300多人,根据位置放进5个工作表里。有条件参考CTG的主要位置最好,没条件的话根据BBR也行,尽量是不要自己凭印象划分。凭印象除了可能不准外,或许还会导致某个位置人数特别多或者特别少。

3.选择你认为比较重要的数据(怎么选参考前面的章节),包括但不限于身高、体重、年龄、真实命中率、回合占有率、助攻率、失误率、投篮分布数据、synergy数据、各类一体化数据等等,手动填进表格里;加一些色块或者图标来更清楚地显示高低。其中部分涉及每36分钟的数据,需要做二次运算。

最后这一步大家可能会觉得有点蠢,300多人,每个人几十项数据手动填?接下来我来说说原因。

1.昨天说了,休赛期是NBA停下来等你4个月,最不缺的应该就是时间。如果考虑到这块整理的是常规赛数据,其实还会多出两个月。半年每天十几分钟的工作量,正常人都能完成。

2.少数人有利用爬虫抓数据的技术。这个技术你留到赛季期间用就好,和休赛期手动整理并不冲突。抓数据是为了最快效率地得出结果,但倘若这个结果的生成速度严重超出你的感知速度,它的实际优势非常有限。

我个人是觉得“记”比“看”会让人更加印象深刻一些。当然把数据全爬下来以后,每天花十几分钟看几个球员的效果是差不多的,还能一开始就有完整的排名。反正大家在这里要理解的是,整理数据不是单纯为了得到结果,而是为了在过程中感知结果,求快是没用的。

3.CTG自带分位置量化的功能,能否取代休赛期的手动记数据?部分可以,但它不能完全覆盖需求。比如各位置的出手频率,synergy数据,各类一体化数据。

而在这个过程里,你有可能学到的东西包括:

1.每个球员的特点。要知道每个位置的人数在六七十人左右,当数据门类足够丰富的时候,几乎每个球员——哪怕是平时看起来都差不多的配角——也会有相对独特的,特别靠前或者靠后的数据。你把它记住以后,对球员的优缺点了解就会立体得多,不会再是“射手”、“蓝领”这种模糊的分类。如果个别人完全没有特别靠前或者靠后的数据,Mr.Average也是一种特点。

2.我上一章花了很多篇幅,来说每个位置各项数据多少算高多少算低。但哪怕我把各种门槛说得比四分位值更细,也不如你自己做一遍去感受要来得印象深刻。这项技能get到以后,在赛季中看球员的数据(主要是官网和BBR这种没有分位置量化功能网站的数据)时也用得到。

3.由于部分数据之间存在关联,反复记会有助于理解。这句话看起来不太好懂,我举个例子。真实命中率是一项普及度很高的数据,懂得它的算法以及多少算高多少算低并不难。但很多人对它还是会有一种雾里看花的距离感,这是看到数据结果却没有反复感受计算过程所导致的。如果把球员的真实命中率和投篮分布数据都对照着仔细看一遍,距离感会小得多。

4.整理球员数据,对建立球队的预期值也有很大帮助。假设一套新阵容里没有回合占有率超过25%的球员,你肯定就会带着“谁来扛球权”这个疑问来关注该队的新赛季表现。我知道由于轮换细节的关系,由于防守数据更特殊的关系,把球员数据捏合起来展望球队仍然有难度。但至少一些更简单的问题,比如各队空间好不好,是可以通过整理球员数据来得到更精准的答案的。

比较遗憾的是,ESPN最近几年已经砍掉了给每个球员撰写报告的环节了,不然大家既可以练英文,又可以借此“验收”一下夏天自己的整理成果。这个工作相当于打地基,地基打扎实了,开赛就是继续添砖加瓦而已。

最后几段我有些犹豫该不该写。就是其实我自己也不太清楚这篇文章的具体受众是谁。对于业余爱好者而言,哪怕是每天十几分钟,做起来还是有些超纲了,可能只有少数真的乐在其中的硬核球迷会(或者有必要)去尝试。对于从业者而言,我自己会认为这是值得花时间的工作。但现状就是大部分的从业者是带着一种“骄傲”的,不会觉得吸收知识的方式有什么需要改进的地方,“观点各有不同”嘛。

圈哥以前也说过类似的事情,大意就是从业者出的问题并不在于努力程度,而在于努力方向,大部分人就没有数据分位置标准化的概念。当时那条微博我只是在底下评论说“这种话你讲可以,我讲就变成目中无人了”。关键是没有概念是因为不知道方法,还是压根儿不觉得它重要?后者是我做再多的科普,都很难改变的。具体受众是谁,也只能随缘就好了。

下一节会开始聊赛季期间的信息更新。系列文章微博“旋猫”首发,每天晚上6点日更。

发表于:2020-04-07 02:22
今日头条
  • NBA
  • CBA
  • 英超
  • 欧冠
  • 西甲
  • 意甲
  • 德甲
  • 法甲
  • 中超
  • 亚冠
  • 名次球员球队场均
栏目热门