订阅博客
收藏博客
微博分享
QQ空间分享

千字文,想开饭馆?或许你能够找大数据和机器学习帮助,一点点

频道:平安彩票app下载安装 标签:王敏彤星咲 时间:2019年06月04日 浏览:228次 评论:0条

假定你正在南加州攻读(计量)经济学博士,不只早早完结了博士论文,并且学有余力,想在业余时刻开家饭店挣点奶粉钱,你会考虑哪些问题?

或许你会想:饭店开在哪里最好?是人流如潮的旧金山湾区仍是七扭八拐的圣何塞小街?假如你现已选好了方位,那么做哪类生意?是遵从潮流开家辛辣火爆的烧烤店仍是做家精美小众又贵重的明星同款桐寿司?假如开烧烤店,你得与附近的Pig BBQ坚持多远的间隔以保证自己的生意不会被他家抢走?

图1: Pig BBQ, 530 Newhall Dr, San Jose Tel:(408) 289-1510)

图2: 王源热搜同款消费水平

刘老根大舞台 千字文,想开饭店?或许你可以找大数据和机器学习协助,一点点

想答复这些问题,你得知道顾客怎么想。此刻,身为经济学博士(提名人)又学过机器学习的你或许会想到,用离散挑选模型不就可以拟合顾客行为,然后对顾客的偏好和挑选进行猜测,然后处理和自己相同的准饭店老板的苦恼吗?

但这些触及产品设计、区位挑选的问题,因为实践世界的纷杂而难以用简略的离散模型答复。门客们的品尝和对间隔的灵敏程度各有不同:在北京,有人愿意为美食从海淀远征三里屯,有人只想趿拉着拖鞋吃楼下的小面馆,饭店的许多特征又影响着门客的挑选;此外,在北京的你或许喜爱豆浆,但在上海的平行世界的你还会喜爱吗?

在大数据和机器学习年代,以上都不是问题。斯坦福大学技能经济学教授Susan Athey和她的合作者在最近宣布的文章中,搭建了一个“路程时刻因子分化”模型(Travel-Time Factorization Model, TTFM),运用数据公司搜集的许多南加州顾客的面板数据,很好地阐明晰顾客对饭店和就餐路程时刻的异质性需求问题。

1

模型概略

TTFM运用规范的离散挑选模型来模仿每个顾客关于饭店的挑选行为。该模型与传统的离散挑选模型不同,包含的潜变量个数许多,比方与饭店本身特点相关的潜变量个数到达80个,与间隔相关的潜变量个数也有16个:TTFM既包含了每个顾客关于饭店特性的潜在异质性偏好、每家饭店的潜在特性,也包含了顾客随饭店而变的、关于就餐间隔的异质性偏好,其他,模型中还参加了时刻改动效应,以期捕捉时节和假日关于顾客行为的影响。终究,TTFM是一个分级模型(hierarchical model),可调查的饭店特点会影响饭店的潜变量的散布。

2

实证模型与估量

模型详解

作者运用了一个面板的离散挑选模型来模仿决议在外用午饭的顾客对饭店的挑选行为。文章中作者将其称为TTFM(Travel-Time Factorization Model,路程时刻因子分化模型)。模型的结构如下,下标u代表顾客,i代表饭店,t代表顾客是第几次用餐。

其间,Uuit代表顾客u第t次去饭店i用餐所的取得的功效。i是饭店i的固定效应,其经济学含义是饭店的受欢迎程度,该项越大,顾客从饭店i取得的功效越高,去那里就餐的或许性越大。u是一个k1单位长的列向量,代表顾客u(对饭店)的偏好,i标明饭店i与本身特点(如类型、评级、消费水平等)相关的潜变量,其长度也为k1(标明饭店i与本身特点相关的潜变量个数为k1)。dui被界说为顾客u上午的方位与饭店i之间的间隔,u是一个k2单位长的列向量,代表顾客u对就餐间隔的灵敏程度,i代表饭店i与间隔相关的潜变量,后两者的内积标明顾客u对饭店i的间隔灵敏度。i代表饭店i随时刻而变的潜变量,wut代表顾客u的第t次用餐发作的那个星期,两者内积代表时刻改动效应。

uit是差错项,作者假定差错项遵守Gumbel散布。Gumbel散布又称为第一类Fisher-Tippett极值散布,其概率密度函数和累积散布函数如下:

这使得这个面板RUM又可以被称为软盒模型(softbox model,相似于probit model和logit model的叫法),经过与logit模型相似的数学推导可以证明,顾客u在第t次就餐时挑选饭店i的概率与exp(Uuit-uit)成正比。

TTFM与课上学习的RUM不同,是一个分级模型:饭店千字文,想开饭店?或许你可以找大数据和机器学习协助,一点点的i和i两类潜变量并非直接由可调查的特点xi组成,因此可调查的特点不会直接影响功效巨细,而是影响i和i散布的均值。详细来讲,模型中参加的分级的高斯先验散布有如下方法:

其间,H和H是所谓的“潜矩阵”(latent matrix),即不同的可调查特点对潜变量的影响的权重矩阵,此处,作者设定餐厅的可调查特点包含消费水平、评级和类型。为核算简洁起见,作者假定各有四分之一的潜变量别离只受饭店i的类型、评级和消费水平影响,剩下四分之一的潜变量则独立于可调查的变量,这样权重矩阵中就会呈现一些为零的分块。文中没有详细描述权重矩阵的核算进程,仅仅抽象地说权重矩阵是从数据中“学习”得来的,咱们估测是在做cross-validation时一起调试了k1、k2、H和H等参数。其他,作者还为每个变量设置了先验方差。其间2=2=1. 因为潜矩阵中包含了一切饭店的潜变量的信息,运用分级模型答应饭店之间同享核算强度,因此可以使得对较少被光临(样本量较小)的饭店的潜变量的揣度变得更为精确。

从以上设定可见,在TTFM中,要进行回归系数的估量,有必要确认潜变量的后验(条件)散布函数。可是因为在大多数贝叶斯模型中,无法取得可调查变量的边沿散布,导致无法在封闭型中取得潜变量的精确条件后验散布(回想一下贝叶斯公式),因此接下来的使命便是对潜变量的后验散布做估量。文中选用了变分揣度(variational inference)的办法。

变分揣度的基本思想是经过最优化取得一个更简略、更易于处理的散布来估量原条件后验散布。详细做法是先树立一族潜变量的估量散布Q,然后在这一族散布里挑选一个和原条件后验散布在KL散度(Kullback-Leibler divergence)的含义上最近似的散布,终究用这一散布来估量原散布。用数学语言表达如下:

可是因为KL散度的界说中含有不可得的可调查变量的边沿散布,因此考虑这个最小化问题的对偶问题,即最大化evidence lower乐教乐学 bound (ELBO)。因为p(x)关于q(z)是一个常数,因此ELBO是可以核算的。

更详细地说,文中选用的是均匀场变分揣度(mean-field variational inference),即假定TTFM中不同饭店的潜变量之间彼此独立,中餐厅之万能巨星并运用高斯变分因子(Gaussian variational factor)操控这些潜变量(注意到先验散布假定的便是高斯散布的方法)。因此,在做最优化时,需求选取这些高斯散布的均值和方差来最大化ELBO。最优化选用的详细办法是梯度随机最优化(gradient-based stochastic optimization),优化细节此处不再赘述,感爱好的可以参阅Bottou, Curtis and Nocedal(2016)。

取得了潜变量的(估量的)后验散布之后,就可以对TTFM的系数进行估量,并运用软盒模型的定论核算顾客u去饭店i用餐的概率巨细。

文章还用TTFM和多项logit模型(MNL)的猜测成果做了比照。

比较于TTFM模型,MNL更为简略:截距项i对一切饭店为相同的常数,i直接设定为饭店的可以调查的特点, u对一切顾客为常数,间隔灵敏度对一切顾客和饭店为常数,以标明,疏忽时刻效应。读者将在后续章节中看到,TTFM的猜测精确度远超MNL。这是因为TTFM中含有更多顾客和饭店的异质性信息。

数据

原始数据来自一家名叫SafeGraph的公司,这家公司搜集赞同共享定位的手机用户的匿名方位信息。样本集由一大串来自于顾客手机的脉冲信号组成,每个观测点包含脉冲发射的日期、时刻、经纬度和精度,还包含一个设备辨认器,可以将脉冲和宣布它的手机以及背面的顾客对应起来。因此样本中蕴含了许多顾客在某个时刻地址的方位信息。取样时刻为2017年一月至十月,采样地址包含从旧金山南到圣何塞南的走廊地带中的41座城市。

风趣的问题是怎么经过这些脉冲数据确认顾客上午地址的方位和正午用餐的饭店。作者将前者界说为顾客在作业日上午9:00至11:15最常呈现的方位,即同一台设备宣布的脉冲呈现次数最多的方位;后者的确认则比较复杂:在上午11:30至下午1:30之间,假如发现同一台设备在某个可以确认为饭店的方位宣布了至少两次间隔三分钟以上的脉冲,则可以确认该顾客在该饭店用午饭。饭店的方位经过相似于国内“群众点评”的Yelp网(https://www.yelp.com/,主打旧金山片区)的饭店地址信息确认,该网站一起还供给了饭店的评级、消费水平、类型(如披萨、中国菜或印度菜)等信息。

终究,为了保证用于核算的顾客和饭店有满足的样本量(顾客去过满足数量的饭店用餐,饭店接待了满足数量的顾客),作者对原始数据集进行了一系列挑选,终究得到的数据集包含9,188位顾客在4,924家饭店的106,889次用餐。详细的挑选规范和进程此处不再赘述,有爱好的读者可以拜见原文附录A2。经过挑选终究得到的用于核算的数据集汇总见下表。

模型千字文,想开饭店?或许你可以找大数据和机器学习协助,一点点拟合度

运用机器学习的思路,作者将数据分为Training,Validation以及Testing三部分,别离占有70.6%、5.0%、以及24.4%的权重。Training部分英文名大全用于习得模型;valid辛夷ation数据用于调整模型中的参数(例如前文中提及的k1、k2,即潜变量向量的长度,或者说潜变量向量包含详细潜变量的个数);testing data用于模型的比较和挑选。经过这一套流程,文章终究选定的k1、k2分比为80、16。

作者意在树立模型以尽或许模仿出顾客的挑选行为,然后对顾客行为进行猜测,然后回答“餐厅老板们的苦恼”。测验数据标明,TTFM模型的猜测能n0666力优于其简化版别,即前文提及的规范的多项挑选模型MNL。如下表所示,precision@5 标明测验数据中,一个顾客实践挑选的餐厅落入模型猜测的最或许15万左右买什么车好被挑选的前五名餐厅里的次数占该顾客挑选总次数的比例(与Test error rate的概念相似),TFM和MNL的这一比例别离是35.5%和11%。

如下图所示,依据顾客呈现频率的非常位数进行分组,作者发现,在测验数据中,关于高频呈现的顾客和餐厅(这些组其他数据量以及所供给的信息愈加丰厚),TTFM的猜测成果相关于低频组有了显着改进;而MNL模型则没有显着提高。

相关于MNL模型,TTFM的模型设定中包容了更多的异质性,这使得TTFM模型得以从大数据里习得顾客的个人偏好,因此可以做出更精确的猜测。

下图进一步展现出了TTFM模型在显现个性化偏好方面的优越性。图2中,横轴标明顾客与餐厅的间隔,而纵轴则标明顾客在该餐厅就餐的概率。此刻,TTFM和MNL模型对实践状况的拟合都很优异。但在图3中,作者将餐厅以被顾客光临的频率分组,天屿湖世界休闲社区由此来近似顾客所面对的“不同的餐厅”,作为横轴;纵轴则标明顾客对“不同餐厅“的光临频率。此刻,TTFM模型对实践状况的拟合显着优于MNL模型,也便是说,TTFM比MNL模型能更好地捕捉到顾客的特定挑选。

估量成果

下表展现了TTFM模型中,顾客对餐厅间隔灵敏度的估量参数弹性的散布。该弹性在一切顾客和餐厅中的均匀值为-1.41,这意味着,间隔的确显着影响了顾客对餐厅的挑选。这也与上文描述性核算中,60%顾客的午饭场所挑选都在其地址方位的两英里规模以内这一现实相吻合。

但这种弹性在顾客间的异质性也很杰出。TTFM模型估量弹性的全体规范差到达了0.68,以顾客信息区分、餐厅信息区分的均匀组间规范差则别离到达0.30、0.60,与MNL模型均低于0.01的量级构成显着比照。弹性散布图则更直观地展现了这一定论。

这一定论也文h与咱们的简略直觉相吻合。幻想你在二教上课,正午12点烈日当空,浑身发软饥不择食,虽然勺园有你心爱的沙茶牛肉面,但一步之遥的农园总是看起来更”性感”一些;但关于写下这段话的我来说,勺园的荒芜悠远何足挂齿,跋金币山涉水只为沙茶。

作者进一步展现了间隔灵敏度弹性在不同餐厅类型和不同城市之间的散布。以价格规模对餐厅进行区分,文章发现,关于消费水平在10美元以下(price range:1)标明的餐厅,间隔灵敏度弹性为-1.45;关于消费水平在11美元到30美元之间的餐厅(price range:2),间隔灵敏度弹性为-1.37。这意金姝妹味着,当咱们想“吃顿好的”时,多走几步路也是可接受的。

分餐厅类型来看,方便快捷、口味群众化的墨西哥餐厅、pizza餐厅的弹性均为-1.50,三明治、热狗餐厅的弹性为-1.43、-1.40;而相对更小众的中餐、日料则别离为-1.35、-1.2,诱惑人们为食物而奔波。

分城市来看,具有更多会集商业区(作业场所紧邻零售卖场和商铺现在时刻)的城市如San Jos e、Sunnyvale、Mountain View(三者是硅谷的首要组成部分)的居民,比日子场景更涣散的城市居民(如Daly City, Buenthusiamrlingame, San Bruno)对间隔更灵敏:顾客的收入、作业、时刻价值和所在状况(比方正疲于作业或是赋闲在家)会影响其关于就餐具间隔的灵敏度。

3

猜测

饭店的经营和歇业关于商场比例的影响

Athey 运用TTFM模型猜测了饭店歇业和经营两个状况下,商场比例的改动,并将TTFM模型的猜测成果和实践状况进行了脑炎比对。着眼于221次开业和190次歇业状况,作者金华交警并对其状况改动前后的500次顾客光临进行了剖析。

剖析商场比例再分配的一个问题是,关于任何经营或歇业的方针餐厅,因为附近饭店的敞开状况发作改动,估量竞赛餐厅的商场比例会有一些基线水平的改动。

作者在初始测验中经过以下方法处理了这个问题,坚持了竞赛环境。关于每个改动状况的方针餐厅,文章首要构建“经营”和“歇业”两个状况之间的每个其他餐厅的商场比例的猜测差异(不管哪个先发作),然后减去方针餐厅在两个时段都歇业时发作的比例改动。终究,他们将不同组中饭店的改动相加,这些组由这些餐厅与方针餐厅的间隔决议。定论如表5所示:50%的商场比例的影响限制在方针餐厅的2英里规模之内。

和实践数据的比对显现,TTFM的拟合成果很高。

饭店类型的最佳挑选

文章还剖析了针对某特定地址的餐厅类型的最佳挑选,运用的是歇业或经营的饭店在它们状况改动前后的需求改动。

为了更伊瓜因好地模仿餐厅状况改动的状况,作者们构建了一个反现实(counterfactual)来完结需求上的比较:首要,关于每个方针饭店,他们选取了一组200个代替餐厅,其间100个来自与方针餐厅相同的类别,100个来自不同类别。然后,将方针餐厅的估量商场比例与该组代替品的均匀需求进行比较。

在表6中,可以看到开设餐厅和封闭餐厅在均匀上猜测需求都高于任何一组代替品。作为进一步的比较,本文依据是否与开设或封闭的餐厅归于同一类别,将这组代替品分红几组。发现与方针相同类其他代替饭店均匀体现优于不同类其他代替饭店。

详细的核算办法如下:

假如餐厅i’ 坐落现在由千字文,想开饭店?或许你可以找大数据和机器学习协助,一点点餐厅i占有的方位,估量会有多少次拜访。 这里有一个中心假定:i’ 的一切特征,不管是调查到的仍是潜在的都坚持不变,除了在核算i'的每个顾客的功效时,会运用i的方位。

跑得快

对每个开设或歇业的饭店重复此核算。Isame是从与i相同的类别随机挑选的100家饭店,而Idiff是从与i不在同一类其他饭店中随机挑选的100家饭店。 在表6中,作者比较了翻开或封闭地址的猜测需求,Demandi; i,以及Isame和Idiff中i'的均匀反现实猜测,即:

抱负的地址和抱负的餐厅类型

作者考虑了餐厅特征和方位之间的匹配。在每个网格中,作者随机挑选一个餐厅方位,并运用TTFM模型来猜测假如在其方位放置不同的餐厅,总需求量千字文,想开饭店?或许你可以找大数据和机器学习协助,一点点将是多少。随后挑选这套代替饭店,包含样本中每个首要类其他一家餐厅。

鄙人图中,作者查看了哪些地址被猜测为每个饭店类别供给午饭商场的最大需求。例如,咱们可以看到越南饭店估量在地图东南部的密布区域中需求最高。对菲律宾餐厅的需求相对较为涣散,而对三明治的需求则以需求相对较pencil小但密布为特征。

在图A10中,文章依据价格规模和菜肴类型将饭店类别分组为大略组,并在每个组内查看哪个类别在每个方位的总需求最高。作者发现了相当大的空间异质性,其间餐厅类别估量在每个方位体现最佳。

4

定论与含义

在数据运用方面,作者在本文里运用了新颖的移动方位数据。在实证层面,前文所述上海移动网上经营厅的TTFM模型答应顾客在餐厅特征和移动时刻的偏好上存在异质性,且该偏好又随餐厅而变,然后使得模型得以包容许多信息。这使得该模型相较于传统的多项挑选模型优越性显着。在运用难易度上,经过结合贝叶斯模型和变分揣度的最新进展,TTFM模型的估量也比较简单处理。在应用上,该模型可以对餐厅开业和歇业所形成的商场比例的影响进行反现实剖析,并评价餐厅特征的挑选怎么影响商场比例。

本文是结构模型和大数据年代海量信息结合的典例。在未来,越发丰厚的数据和更能包容、攫取数据信息又千字文,想开饭店?或许你可以找大数据和机器学习协助,一点点不失一般性的模型将更好地对微观主体行为和咱们极富异质性的实践日子进行模仿,然后有助于处理企业在产品和战略挑选上的许多不确认性。

参阅资料:

Athey, Susan, David M. Blei, Ro千字文,想开饭店?或许你可以找大数据和机器学习协助,一点点bert Donnelly, Francisco Ruiz and Tobias Schmidt. 2018. “Estimating Heterogeneous Consumer Preferences for Restaurants and Travel Time Using Mobile Location Data.” Unpublished. Papers 1801.07826, arXiv.org.(点击“阅览原文”以获取原文索引及链接)

Blei, David M., Alp Kucukelbir, and Jon D. McAuli_e. 2017. Variational Inference: A Review for Statisticians." Journal of the American Statistical Association, 112(518): 859-877.

Wolfram MathWorld, “Gumbel Distribution” item

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。