如何找到纽约最差停车点——使用大数据
-
0:01 - 0:04六千英里的公路,
-
0:04 - 0:06六百英里的铁路,
-
0:06 - 0:07四百英里的自行车道,
-
0:07 - 0:09以及半英里的电车轨道,
-
0:09 - 0:11如果你曾经去过罗斯福岛就会知道。
-
0:11 - 0:14上述数据构成了纽约的基础设施网络。
-
0:14 - 0:16这些是我们基础设施的统计数据。
-
0:16 - 0:20这些数据你们都可以在
市政机关的报告中找到。 -
0:20 - 0:22比如,交通部可能会告诉你
-
0:22 - 0:24他们维修了多少英里的路。
-
0:24 - 0:27MTA(大纽约交通运输管理局)
会吹嘘纽约有多少英里的铁路。 -
0:27 - 0:29多数的市政机关会给我们一些统计数据。
-
0:29 - 0:31这是来自今年出租车与轿车
-
0:31 - 0:32委员会的一个报道,
-
0:32 - 0:37从中我们可以知道纽约一共有
13500辆出租车。 -
0:37 - 0:38很有趣,对吧?
-
0:38 - 0:41但是你们有没有想过这些数据从哪里来的?
-
0:41 - 0:44因为这些数据的存在,市政机关的某个人
-
0:44 - 0:47可能会想:嗯,这个数据也许会有人想要知道。
-
0:47 - 0:49这个数据我们的市民想要了解。
-
0:49 - 0:51于是他们找出原始数据
-
0:51 - 0:53计数,做补充,再计算,
-
0:53 - 0:55并且将它们放在报告里。
-
0:55 - 0:57于是这些报告就会包含这些数据。
-
0:57 - 1:00不过问题是,
他们要怎么知道我们所有感兴趣的问题? -
1:00 - 1:01我们有很多的疑问。
-
1:01 - 1:04事实上,关于我们的城市,
-
1:04 - 1:06我们有无数的问题要问。
-
1:06 - 1:08政府部门当然没办法全部回答。
-
1:08 - 1:12所以现有模式不是十分有效,
并且我认为决策人也意识到了这个问题。 -
1:12 - 1:16因为在2012年,彭博市长签署了一项法令,
他称之为 -
1:16 - 1:20“全国最有雄心以及最综合性的
开放数据法案”。 -
1:20 - 1:21在很多方面,他的决定是对的。
-
1:21 - 1:25在最近两年,
纽约已经在公开的数据门户上 -
1:25 - 1:26发布了1000组数据库,
-
1:26 - 1:28非常了不起。
-
1:28 - 1:29因此你们可以直接得到这些数据,
-
1:29 - 1:32除了能够计算出租车的数量,
-
1:32 - 1:33我们不妨问一些不一样的问题。
-
1:33 - 1:35我有一个问题。
-
1:35 - 1:36纽约的交通高峰期是哪个时间段?
-
1:36 - 1:39这个问题可能令人厌烦。
交通高峰期具体指哪个时间段? -
1:39 - 1:41我在想,
这些出租车不仅仅是一些数据, -
1:41 - 1:44它们是行驶在城市街道的
GPS(全球定位系统)记录器, -
1:44 - 1:46记录下每一段它们行驶的路线。
-
1:46 - 1:49这里有一些数据,我处理了一下,
-
1:49 - 1:52将纽约出租车全天的
平均速度做了一个图表。 -
1:52 - 1:56你会发现从午夜到凌晨5点18分,
-
1:56 - 2:00速度在增加,到了这个点后,
接下来就不一样了, -
2:00 - 2:04速度越来越慢直到早上8点35分,
-
2:04 - 2:06这时候出租车的时速
只有每小时11.5英里。 -
2:06 - 2:10我们城市街道上的出租车
平均时速是每小时11.5英里, -
2:10 - 2:12并且最终保持这个速度
-
2:12 - 2:15一整天。
-
2:15 - 2:16(笑)
-
2:16 - 2:19所以我心说,
纽约并没有什么交通高峰时间段。 -
2:19 - 2:22只有“高峰日”。
-
2:22 - 2:24这个结论是有意义的,
因为以下几个原因: -
2:24 - 2:28如果你是交通运输系统的规划人,
你可能有兴趣知道这些。 -
2:28 - 2:29如果你想要快速到达某个地方,
-
2:29 - 2:33你现在就知道只要将闹钟设在早上4点45分,
估计就没问题了。 -
2:33 - 2:34在纽约嘛,这样做很合理是吧?
-
2:34 - 2:35但是在这些数据背后有一个故事,
-
2:35 - 2:38这些数据不是现成的。
-
2:38 - 2:41它实际上来自一个叫
”信息自由法案申请“的东西, -
2:41 - 2:42或者称为”FOIL 申请“。
-
2:42 - 2:46这个表格你可以在出租车
与轿车管理委员会的网站上找到。 -
2:46 - 2:48要拿到这些数据,你必须拿到这个表格,
-
2:48 - 2:50填写表格,然后他们会通知你,
-
2:50 - 2:53有一个叫克里斯·王的人就是这样做的。
-
2:53 - 2:55克里斯去了那里,他们告诉他,
-
2:55 - 2:58“只要带一个新的硬盘到我们办公室,
-
2:58 - 3:01我们会将数据拷贝到里面,
过5个小时你就可以拿回去了。” -
3:01 - 3:03这就是这些数据怎么得来的。
-
3:03 - 3:06现在,克里斯想将这些数据公开,
-
3:06 - 3:10这些数据最终被上传到网络上供大家使用,
这就是这个图表背后的故事。 -
3:10 - 3:14这一切真的很不可思议,
这些GPS记录器实在太酷了。 -
3:14 - 3:16但是实际上市民为了使数据公开,
-
3:16 - 3:18需要带着装有市政部门数据的
硬盘走来走去—— -
3:18 - 3:20这已经是一种公开性质的,
你们都可以得到, -
3:20 - 3:23不过它虽说是“公开”的,
但并不是真正意义上的“公开”。 -
3:23 - 3:25我们作为一个城市可以做得更好。
-
3:25 - 3:27我们不需要市民带着硬盘走来走去。
-
3:27 - 3:31另外,不是每一组数据都需要
填写信息自由法案的申请。 -
3:31 - 3:34这是一张我根据自行车事故数据绘制出的
-
3:34 - 3:36纽约最危险十字路口的地图。
-
3:36 - 3:39红色区域是最危险的。
-
3:39 - 3:41首先显示的是曼哈顿的东区,
-
3:41 - 3:45特别曼哈顿的下城区,
发生过很多自行车车祸。 -
3:45 - 3:46这可能说得通,
-
3:46 - 3:48因为很多自行车都是从桥上过来的。
-
3:48 - 3:50不过还有其他值得研究的热点区域。
-
3:50 - 3:53这里是威廉斯堡。
这里是皇后区的罗福斯大道。 -
3:53 - 3:55这些正是Vision Zero
(跨国道路交通安全项目)所需要的数据。 -
3:55 - 3:58这正是我们所要找的。
-
3:58 - 4:00在这些数据的背后也有一个故事。
-
4:00 - 4:02它们也不是现成的。
-
4:02 - 4:04有多少人知道这个标志?
-
4:04 - 4:06我看到有些人点头。
-
4:06 - 4:08你们是否曾要复制和黏贴
PDF里的内容, -
4:08 - 4:10并且搞清楚这些数据的意义?
-
4:10 - 4:11我看到更多的人在点头。
-
4:11 - 4:14比起知道这个标志,有更多的人
试过复制和黏贴。很不错。 -
4:14 - 4:17所以你们刚才看到的
数据确实是来自一个PDF。 -
4:17 - 4:21事实上,有不计其数的PDF文档
-
4:21 - 4:23都是通过纽约警察局公布的,
-
4:23 - 4:25为了得到这些数据,
你要么需要花几百个小时 -
4:25 - 4:27复制和黏贴,
-
4:27 - 4:29或者像约翰·克劳斯那样做。
-
4:29 - 4:30他是这样做的:
-
4:30 - 4:33我不想复制黏贴这些数据,
我要写一个程序。 -
4:33 - 4:36这个程序被称为:”纽约警察局事故数据创可贴“
(NYPD Crash Data Band-Aid), -
4:36 - 4:39这个程序先进入纽约警察局的网站,
然后下载PDF文件。 -
4:39 - 4:42每天进行搜索,如果发现PDF文件,
就会下载下来, -
4:42 - 4:44然后它会运行PDF解码程序,
-
4:44 - 4:46就可以将文本拷出来,
-
4:46 - 4:49然后上传到网络上,
大家就可以做出这样的地图了。 -
4:49 - 4:53只要数据在这里,
我们就可以使用这些数据—— -
4:53 - 4:55每个事故都是这个
表格里的一行数据。 -
4:55 - 4:57你门可以想象得有多少个PDF文件。
-
4:57 - 4:59我们可以使用这些数据当然非常棒,
-
4:59 - 5:01但是不要用PDF的格式公开这些数据,
-
5:01 - 5:04因为还需要我们的市民写PDF解码程序。
-
5:04 - 5:05这是在浪费市民的时间,
-
5:05 - 5:08我们作为一个城市可以做得更好。
-
5:08 - 5:11有一个好消息,
白思豪(纽约市长)的行政办公室 -
5:11 - 5:13几个月前公开了这些数据。
-
5:13 - 5:15现在我们可以直接使用这些数据了,
-
5:15 - 5:18但是依然有很多数据隐藏在PDF里。
-
5:18 - 5:21比如,与犯罪相关的数据
依然只能在PDF里才能看到。 -
5:21 - 5:25不仅仅是与犯罪相关的数据,
还有我们城市的预算。 -
5:25 - 5:29我们城市的预算只能
在PDF格式的文件里才能看到。 -
5:29 - 5:31不仅仅是我们无法分析这些数据——
-
5:31 - 5:34我们为预算投票的立法者
-
5:34 - 5:36也只能通过PDF得到这些数据。
-
5:36 - 5:40因此我们的立法者也无法
分析他们要投票的预算方案。 -
5:40 - 5:43我认为我们作为一个
城市同样可以做得更好。 -
5:43 - 5:46有许多没有被隐藏在PDF文件里的数据。
-
5:46 - 5:47我做的地图就是一个例子,
-
5:47 - 5:50这是纽约最脏的水沟。
-
5:50 - 5:52我怎么判断肮脏的程度呢?
-
5:52 - 5:54可能有点奇怪,
-
5:54 - 5:56我是根据粪便菌群数的水平来判断的,
-
5:56 - 5:59就是测量每一个水沟粪便物的指标。
-
5:59 - 6:03圆圈越大,表示水越脏。
-
6:03 - 6:06所以大圆圈代表脏水,
小圆圈代表较干净的水。 -
6:06 - 6:08你们看到的是内陆地区的水沟。
-
6:08 - 6:11这些是过去五年城市取样的所有数据。
-
6:11 - 6:14内陆地区的水沟普遍更脏。
-
6:14 - 6:15有道理,是吧?
-
6:15 - 6:17圆圈越大表示越脏。
我从中了解到几件事。 -
6:17 - 6:23第一:不要在任何名字末尾有
“小溪”、“运河”的地方游泳。 -
6:23 - 6:26第二:经过一次测量我就发现了
-
6:26 - 6:28纽约最脏的水沟。
-
6:28 - 6:31就是康尼岛小溪,
幸运的是这并不是你们去游泳的康尼岛, -
6:31 - 6:32是在岛的另一面。
-
6:32 - 6:36过去五年,康尼岛小溪94%的取样
-
6:36 - 6:38所含排泄物含量水平如此高,
-
6:38 - 6:42以至于州立法已经
禁止人们在此游泳。 -
6:42 - 6:44这不是你所看到的市政报告中
-
6:44 - 6:46吹嘘的那一类数据,对吧?
-
6:46 - 6:48也不会出现在纽约政府官网的首页上。
-
6:48 - 6:49你们不会在那里看到,
-
6:49 - 6:52但是我们能得到这些数据是非常棒的。
-
6:52 - 6:54但是再说一次,
这些数据并不是轻易得到的, -
6:54 - 6:56因为这些数据并不是公开的数据库。
-
6:56 - 6:57如果你们查看公开的数据,
-
6:57 - 7:00只会看到其中的部分数据,
一年或几个月的数据。 -
7:00 - 7:03环境保护部门网站上
提供的数据就是这样的。 -
7:03 - 7:08每一个链接都是一个Excel表格,
每一个表格都是不一样的。 -
7:08 - 7:10标题也是不一样的:
你复制,黏贴,重新整理。 -
7:10 - 7:12然后你就可以做一份地图,
那是很棒的,但是再说一次, -
7:12 - 7:15作为一个城市我们可以做得更好,
我们可以使数据标准化。 -
7:15 - 7:18我们正在慢慢改进,
Socrata做了一个网站 -
7:18 - 7:20叫做“纽约市公开数据门户网站”。
-
7:20 - 7:22这里有1100组数据,
这些数据不会遭遇 -
7:22 - 7:24我刚才跟你们说的那种情况,
-
7:24 - 7:26并且数量还在增长,
这个网站真的很不错。 -
7:26 - 7:31你们可以下载任何格式的数据,
CSV或者PDF 或者Excel。 -
7:31 - 7:33你想要什么格式,就以那种格式下载。
-
7:33 - 7:35问题是,一旦你开始下载数据,
-
7:35 - 7:39就会发现不同的部门会
用不同方式编码他们的地址。 -
7:39 - 7:41有的用街道名,十字路口,
-
7:41 - 7:43街道,区,地址,大厦,大厦地址。
-
7:43 - 7:47所以你还是需要花时间,
即使我们有这个网站, -
7:47 - 7:49你还是需要花时间使地址格式规范化。
-
7:49 - 7:51这在浪费市民时间。
-
7:51 - 7:53我们作为一个城市完全可以做得更好。
-
7:53 - 7:55我们可以将我们的地址格式标准化,
-
7:55 - 7:57如果我们做到了,
就可以做更多类似这样的地图, -
7:57 - 8:00这是纽约市防火栓的地图,
-
8:00 - 8:01但并不是全部的。
-
8:01 - 8:06这些是最容易被开罚单的前250个防火栓。
-
8:06 - 8:08(笑声)
-
8:08 - 8:11我从这张地图学到了一些东西,
我非常喜欢这张地图。 -
8:11 - 8:14第一,不要在上东区停车。
-
8:14 - 8:17不论你停在哪里,
你都会收到一张罚单。 -
8:17 - 8:21第二,我发现全纽约市消防栓
最多的两个区域, -
8:21 - 8:23都在下东区,
-
8:23 - 8:28并且一年可以带来
55000美元的罚单收入。 -
8:28 - 8:31我发现这点的时候,感觉有点奇怪,
-
8:31 - 8:34我做了一些研究,比如有一个消防栓,
-
8:34 - 8:36旁边有横向拓宽的人行道,
-
8:36 - 8:38就像一个可以行走的七英尺的空间,
-
8:38 - 8:39然后旁边是停车位置。
-
8:39 - 8:41司机将车开过来,心想
-
8:41 - 8:43“ 还离得挺远,没问题的,“
-
8:43 - 8:46何况地上还有一个画得美美的停车位。
-
8:46 - 8:49于是他们将车停在这里,
但纽约警察局不允许这样, -
8:49 - 8:50然后他们就会被开罚单。
-
8:50 - 8:52不仅仅是我收到罚单。
-
8:52 - 8:54谷歌街景车开过的时候
-
8:54 - 8:57也看到了同样的罚单。
-
8:57 - 9:02我将这件事情写在我的博客和
“I Quant NY ”上,交通部回复了我, -
9:02 - 9:03他们说,
-
9:03 - 9:06”虽然交通部没有收到关于这个地点的投诉,
-
9:06 - 9:11我们还是会评估道路标志,
做出合适的调整。 -
9:11 - 9:14我认为这是典型的政府答复,
-
9:14 - 9:16好吧,继续过我的日子。
-
9:16 - 9:20但是几个礼拜后,
难以置信的事情发生了。 -
9:20 - 9:22他们重新粉刷了停车位置,
-
9:22 - 9:25这让我立刻看到了公开数据的未来,
-
9:25 - 9:27想想这里发生的事情吧。
-
9:27 - 9:32五年来,这个位置的车常被开罚单,
令人很困惑。 -
9:32 - 9:36然后有人发现了一些事情,
并且告诉了城市的管理者,在几周内 -
9:36 - 9:38这个问题就得到了解决。
-
9:38 - 9:41这太不可思议了。
很多人把公开数据当做监督者。 -
9:41 - 9:43不是的,它更像是一个合作伙伴。
-
9:43 - 9:46我们可以赋予市民权利
成为政府的优秀合作伙伴, -
9:46 - 9:48这不是很难。
-
9:48 - 9:49只需要一些改变。
-
9:49 - 9:50如果你正在申请FOIL数据,
-
9:50 - 9:53如果你看到你要的数据被反复的请求获得,
-
9:53 - 9:56让我们直接将这些数据向大众公开吧,
这是一个数据需要公开的信号。 -
9:56 - 9:59如果你是一个政府部门,
要公开一个PDF, -
9:59 - 10:03让我们通过立法,发布被要求的源数据,
-
10:03 - 10:05因为数据肯定来自某个地方。
-
10:05 - 10:06虽然我不知道是哪里,
-
10:06 - 10:07但你们可用PDF的形式将这些数据公开。
-
10:07 - 10:10让我们采用和共享公开数据的标准。
-
10:10 - 10:13我们先从纽约的地址开始。
-
10:13 - 10:14从规范地址格式开始。
-
10:14 - 10:16纽约在公开数据上属于引领者。
-
10:16 - 10:19抛开这些问题,
我们在公开数据方面绝对是领先者, -
10:19 - 10:22如果我们开始规范化一些事情,
并且建立一个公开数据的标准, -
10:22 - 10:26其他人会照着标准做,
纽约州也会照着做,甚至是联邦政府。 -
10:26 - 10:27其他国家也可能参照这套标准,
-
10:27 - 10:30不久的将来,我们可以编写一个程序,
-
10:30 - 10:33并整理出100个国家的数据信息。
-
10:33 - 10:36这不是科幻小说。
我们已经很接近这个目标了。 -
10:36 - 10:38顺便说一下,我们的授权对象是谁?
-
10:38 - 10:41不仅仅是约翰·克劳斯和克里斯·王。
-
10:41 - 10:45现在纽约有上百个聚会小组,
-
10:45 - 10:46活跃的聚会小组。
-
10:46 - 10:48成千上万的人参加了这些小组。
-
10:48 - 10:51人们在下班后或周末去参加这些活动,
-
10:51 - 10:53在活动上,人们会处理这些公开数据,
-
10:53 - 10:55想办法让我们的城市越来越好。
-
10:55 - 11:00像BetaNYC这样的组织,
上周刚公开了一个叫citygram.nyc的网站, -
11:00 - 11:02允许你订阅你家附近
-
11:02 - 11:04或者你公司附近的311投诉。
-
11:04 - 11:06输入地址,你就能看到本地的投诉。
-
11:06 - 11:09这背后不仅仅有个技术团体,
-
11:09 - 11:12还有许多城市规划者,
比如我在普瑞特艺术学院教过的学生。 -
11:12 - 11:14不仅仅是政策的提倡者,是每一个人,
-
11:14 - 11:17是具有不同背景的城市市民。
-
11:17 - 11:19通过一些微小但与日俱增的变化,
-
11:19 - 11:23我们就能释放市民的热情和能力,
-
11:23 - 11:26去利用公开数据
使我们的城市变得更美好, -
11:26 - 11:29无论是每次一组数据,
还是一个停车点。 -
11:29 - 11:32谢谢。
-
11:32 - 11:35(掌声}
- Title:
- 如何找到纽约最差停车点——使用大数据
- Speaker:
- 本·威灵顿
- Description:
-
市政部门拥有大量反映城市生活各个领域的数据。但是作为数据分析师,本·威灵顿在这个愉悦的演讲中认为有时市政部门并不知道如何使用这些数据。他展示了 如何将未知问题和智能数据处理相结合,产生奇妙有效的见解,并且分享了关于如何发布大数据,方便每个人使用的方法。
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 11:48