当灾害或疾病袭来时,接济机构在拥有详细的绘图工具以确切知道在何处供应声援时会更有效地作出反应。但是常日无法得到极其可靠和精确的舆图。因此,我们的团队由Facebook波士顿办事处的人工智能研究职员和数据科学家组成,利用我们的打算机视觉专业知识创建和共享人口密度图,这些图比任何前辈都更准确,分辨率更高。
在我们之前发布的22个国家[1]的类似高分辨率人口舆图的根本上[2],我们现在发布了非洲大陆大部分地区的新舆图[3],该项目终极将映射全天下的人口。一旦完成,人性主义机构将能够确定人口如何在偏远地区分配,以便医护职员能够更好地到达家庭,接济职员可以更好地分配声援。以负任务的办法免费供应开放数据还使Facebook研究职员能够更好地理解他们事情的许多运用,并辅导他们的研究朝着精确的方向发展。项目中没有或将要利用Facebook数据。利用的人口普查和卫星数据不包含任何个人身份信息。
利用机器学习技能,高分辨率卫星图像和人口数据的稠浊,我们绘制了分布在广阔区域的数亿个构造,然后用它来推断当地人口密度。本项目中利用的卫星舆图是利用DigitalGlobe的商业卫星图像天生的 - 通过可公开访问的舆图做事供应的相同类型的图像。这些舆图的另一个紧张数据来源是与哥伦比亚大学国际地球科学信息网络中央(CIESIN[4])共享的每个国家的国家人口普查数据,该网络与Facebook研究职员就该项目进行了互助。

自从我们两年前发布了第一套舆图以来,它们改进了非营利组织的事情办法,研究职员的学习办法以及政策的制订办法。例如,在马拉维,红十字会和失落踪舆图操持与马拉维卫生部互助,利用Facebook舆图为麻疹和风疹运动供应信息。通过显示97%的地皮空间无人居住,红十字会能够向有须要的特定地区支配3,000名演习有素的当地志愿者。
随着本日发布的一套新的高分辨率舆图,我们将在此分享有关我们如何处理该项目的详细信息。
适宜深度学习的寻衅
一个国家的人口普查显示有多少人生活在一个特定的人口普查区,但它并不表明人们居住在这些地区 - 有时候这些地区包含数百平方英里。仅非洲就有近12亿平方英里的12亿人口; 其最大的人口普查区是150,000平方英里,有55,000人。如果研究职员知道房屋或其他建筑物在这些区域中的位置,他们可以通过按比例分配每个人口来创建极其准确的密度图。这种粒度对付为疫苗接种活动等事情进行有效的资源分配至关主要。由于手工找到这些建筑物是不可行的,我们依赖深度学习来找到它们。
环球的高分辨率(每像素50厘米)卫星图像占用大约1.5 PB的存储空间。处理这些图像的一个早期寻衅是数据集中的巨大不平衡:天下上大多数地皮都不包含建筑物,因此我们常常处理100,000到1的负向正向类不平衡。我们利用经典打算机视觉技能的预处理步骤,以近乎完美的召回(以低精度为代价)丢弃大多数不包含建筑物的区域。这给我们留下了候选~30x30米(64x64像素)的卫星图像片。
然后,我们面临着对包含建筑物的补丁进行分类的寻衅。阶级不平衡也加剧了这种情形。虽然通过预处理大大减少了,但空方与建筑物的比例仍为10比1乃至1,000比1。这产生了不平衡的二元分类问题,因此我们利用F1分数评估我们的结果,F1分数是精度和召回的调和均匀值。为了避免我们的结果存在区域偏差,我们逐个区域打算结果。
我们与贴标人互助,为项目中的每个国家开拓了一个广泛的测试集。测试装置的广度确保我们在不同地区保持高精度。我们还与天下银行等第三方团体互助,这些团体[5]已经进行了实地验证,以确保我们的结果能够精确反响实际情形。我们的方法是与CIESIN的地理和人口统计数据专家密切互助开拓的,我们与人性主义开放街道舆图等互助伙伴密切互助,以确保我们的事情重点放在精确的方向上。我们与这些互助伙伴的互助有助于确保我们采纳跨学科的方法,避免单独考试测验此类环球规模事情的许多陷阱。末了,我们确保审查我们在考虑海内政治背景的情形下公开拓布的国家名单,并避免在一些政策和冲突干系的情形下发布国家数据。
在初始迭代[6]我们的人口密度图是通过利用完备卷积神经网络进行语义分割,然后将得到的分割图转换为二元分类结果来构建的。随着过去几年机器学习研究社区的培训语料库和许多进步的增加,我们已经能够利用残留神经网络将问题简化为大略的二元分类任务。这种简化既是打算的,也是观点上的。现在,给定输入图像,单个神经网络预测给定图像是否包含建筑物。这种分类方法的打算本钱也明显低于基于分段的方法,由于它许可我们利用较小的神经网络并产生具有较小内存占用的输出。它许可我们以更少的打算为更多地方构建数据集 - 这是扩展到真正全局数据集的关键组件。在非洲的情形下,该过程减少到115亿64x64像素图像的分类。虽然这是一个很大的数字,Facebook的根本举动步伐 - 特殊是FBLearner和Presto的地理空间操作[7] - 使这变得实用。在切换到这种分类方法并在大约100万张图像上演习ResNet18后,我们在73个区域中的66个区域中显著改进了我们利用这两种方法的结果,均匀F1得分从.818增加到.907。您可以不才图中看到此过程正常事情,展示我们预测非洲的模型。
我们的管道首先留出不能包含建筑物的位置。然后,神经网络根据其包含建筑物的可能性对每个剩余位置进行排名。高等位置在此显示为蓝点。每个人都从人口普查数据等分配人口(此处显示为发光舆图)。末了,我们将分布式人口覆盖到舆图上的位置。(背景图片由DigitalGlobe供应。)
利用大规模开放数据
建立环球模型的另一个障碍是获取从全体天下抽样的培训数据。我们转向OpenStreetMap(OSM),这是一个由志愿者构建并通过开放内容许可证发布的天下免费可编辑舆图。OSM具有大量标记功能,可供所有人利用,并且险些包含天下上每个地区的数据。OSM的区域多样性使我们能够避免许多其他培训集中创造的发达天下偏见。(例如,仅在砖或混凝土建筑物上演习的系统可能会忽略其他类型的构造。)通过利用OSM中的数据,我们能够网络超过1亿个标记示例以添加到我们的演习数据集中。然而,将OSM数据用于标签提出了一些须要战胜新方法的寻衅。
以下是我们的低精度预处理步骤标记为可能包含建筑物的近500个补丁的示例。
弱监督的方法
这里的第一个寻衅是可用数据的质量和精确性,以及OSM数据的韶光和空间同等性。我们用微弱的监督方法来网络正面例子来办理这些问题。
弱监督学习导致近期事情中建模准确性的显著提高。例如,Facebook的一个团队利用来自公开的Instagram主题标签的弱监督标签,[8]在ImageNet上超越了最前辈的结果。从这项事情中学习的一个关键是,对较大但噪声较大的数据集进行培训可以大大改进结果。
根据这些见地,我们利用OSM中的标签来弱化标记我们图像中建筑物的正例。如果给定的图像补丁与OSM中的建筑物重叠,我们将该补丁标记为包含建筑物。由于空间和韶光对齐的问题(例如不准确的映射或过期的卫星图像),这并不总是精确的。然后,我们通过丢弃所有标记为在我们的初始预处理步骤中明显不包含建筑物的标记示例来清理这些标签。在这次清理之后,在1000个正面标记的示例的样本上,我们创造996个补丁确实包含了一个建筑物,为我们供应了一个强大的99.6%的标记准确度。
以下是我们的弱监督标签方法确定为包含建筑物的图像。
半监督方法
另一个寻衅是OSM标记的功能具有高精度但极低的召回率。虽然OSM中的大多数标签都是准确的,但短缺标签可能意味着没有建筑物或该区域尚未映射。这使得网络负面例子的规模有点繁芜。我们利用半监督技能,结合自举(或自我演习)和数据蒸馏的元素。
我们首先在我们的预处理步骤之后的所有图像片上运行我们现有的模型,以找出给定图像被缺点地标记为不包含构造的概率,根据我们的模型的输出,我们对标记验证的模型的评估图像,以及分数上的特定阈值。然后,我们利用均匀采样和手动标记的数据来查找包含建筑物的随机图像补丁的概率。利用这两个概率并相应地设置我们模型的输出阈值,我们可以利用旧模型的输出将大量图像块标记为否定或不包含建筑物,同时将我们预期的标签缺点率限定在1以下百分。
此图像显示我们的系统标记为不包含建筑物的瓷砖。可以看到一些缺点,但整体方法证明是准确的。
现实天下的结果
为了得到我们的生产模型,我们在这个新数据集上演习了ResNet50,并在我们的原始数据集上进行了微调。新模型在79个地区中的75个地区优于旧模型,并进一步将均匀F1从基准线从.818改进到.920,与之前的比较,相对准确度提高了12%以上。比绝对准确度增加更令人愉快的是将这些模型运用于更大范围的地理区域的能力。这样可以在世界更多地区进行更有效的人性主义事情。
这个打算机视觉问题的结果与用于创建CIESIN的天下网格化人口的相同人口普查结果相结合。终极结果是一组天下上最准确,分辨率最高的人口密度图。我们的内部团队和第三方互助伙伴对地面和高分辨率卫星图像进行了严格的评估,证明了我们2016岁首年月次发布的前所未有的准确性,并且我们已经对我们已有的状态[9]做出了重大改进。[10]过去两年的艺术成果[11]。我们最新产品的前所未有的分辨率,规模和准确性应连续为天下各地的人性主义救援和发展事情供应帮助。
该数据集可在此处[12]下载。我们操持在未来几个月内发布更多国家的高分辨率人口舆图,我们期待互助伙伴在更多地方利用它们来帮助有须要的人。有关我们的互助伙伴如何在其事情中利用我们的舆图的信息,请阅读此配套博客文章[13]。
参考资料[1]
22个国家: https://code.fb.com/core-data/connecting-the-world-with-better-maps/
[2]
高分辨率人口舆图的根本上: https://l.facebook.com/l.php?u=https%3A%2F%2Fcode.fb.com%2Fcore-data%2Fconnecting-the-world-with-better-maps%2F&h=AT0bluO5X0sEjtpsASnKJ15RPZ0FsOg4No_s2furz4zVZFLK9lhAhIH89Z5OKiV9UUd1KwmeEVA6GNIOOY_zoDXyLw4WTe9617QcElBMGEsygyUZ5ZIgSluEkQM59eBxCdJEJ9XEFxdBDAt82uotuw
[3]
现在发布了非洲大陆大部分地区的新舆图: https://data.humdata.org/organization/facebook
[4]
CIESIN: https://l.facebook.com/l.php?u=http%3A%2F%2Fwww.ciesin.org%2F&h=AT2tPgIYybJ94pdGiPxBRgyUp694m5hKt5LlLrJ31AIsonwJHSlHAkC0wYbenSDi5h8qZjLzXvLOUOR_d3KAhHDaS4C3LbHYKezRf6PSYEiNApGr4kRWMyDsYb9qQf_c8it2AZXf2l1JXIegW9AGmw
[5]
与天下银行等第三方团体互助,这些团体: https://l.facebook.com/l.php?u=https%3A%2F%2Fblogs.worldbank.org%2Fopendata%2Ffirst-look-facebook-s-high-resolution-population-maps&h=AT20UqeqWVsMPCHNQbFKwzUUvu4l_ChkQiBnRqYYhcIHcgf5mNjgbUJGAYsD6TQFcbRSg6Bf1ft70f0lnSKdt-GAhaUOH2qG2DFCGo3m29l9FwNatrfXRRTGPt8RgCwxkOCiWicm16exVAuEiEWCbw
[6]
初始迭代: https://l.facebook.com/l.php?u=https%3A%2F%2Fresearch.fb.com%2Fpublications%2Fmapping-the-world-population-one-building-at-a-time%2F&h=AT2zxYzYIZdvKLDqeFY40JrGGqeAr29kpHGBN46pjS1PQQD4ev4lMjdGcnGKiUazWzhKWvsIFfygTgsuY3qA2Cy7MtSnKEPew5wNAoO9DTzw9eu58yvdUOTofpXKxkQgufYq0GxHjBQEbaaG1CqUQQ
[7]
Presto的地理空间操作: https://l.facebook.com/l.php?u=https%3A%2F%2Fprestodb.github.io%2Fdocs%2Fcurrent%2Ffunctions%2Fgeospatial.html&h=AT3FwhJDZByO57MIPvad1aZgEEKH0pPcoaYSQizJwTbierAfkHp8TbbwW0w35YDBU8ywZlYafcXpxV6B8ambEGB6obsJ50fb4LBIsA1f8ZHVr2slKPjOnVLvNYRSF36Ffu7GYOFJdCxRWYpJU2xVkg
[8]
利用来自公开的Instagram主题标签的弱监督标签,: https://l.facebook.com/l.php?u=https%3A%2F%2Fcode.fb.com%2Fml-applications%2Fadvancing-state-of-the-art-image-recognition-with-deep-learning-on-hashtags%2F&h=AT3Eph4BCwtnVZhJsi9Xp2NqViX6YCWX2drNP19GJygkLZYIVFXf32cdxKwaAGF_k0CVTdZijoeSJH98oTkPaw41Ke8oKtgGzK1B1zvOZlZmmC8YDjD0MiyDIyYfTBbhsKTCLwWAeP446uVU6pP8Pw
[9]
我们已有的状态: https://l.facebook.com/l.php?u=https%3A%2F%2Fblogs.worldbank.org%2Fopendata%2Ffirst-look-facebook-s-high-resolution-population-maps&h=AT17wpDNfCT6qt9_d28FmJTw6E5zIR5doqajc_z-Br6JvH3znNwD_zq5m6vQ3hlD0sseIfVfyA5uok_WgNGQcXpgIWYhEL6PFxecDQvHxhWGCCje6xoCnIDbCuzcKLPdAp6bo_7npurxwftXcz0pbA
[10]
。: https://l.facebook.com/l.php?u=https%3A%2F%2Fblogs.worldbank.org%2Fopendata%2Ffirst-look-facebook-s-high-resolution-population-maps&h=AT17wpDNfCT6qt9_d28FmJTw6E5zIR5doqajc_z-Br6JvH3znNwD_zq5m6vQ3hlD0sseIfVfyA5uok_WgNGQcXpgIWYhEL6PFxecDQvHxhWGCCje6xoCnIDbCuzcKLPdAp6bo_7npurxwftXcz0pbA
[11]
的艺术成果: https://l.facebook.com/l.php?u=https%3A%2F%2Fblogs.worldbank.org%2Fopendata%2Ffirst-look-facebook-s-high-resolution-population-maps&h=AT17wpDNfCT6qt9_d28FmJTw6E5zIR5doqajc_z-Br6JvH3znNwD_zq5m6vQ3hlD0sseIfVfyA5uok_WgNGQcXpgIWYhEL6PFxecDQvHxhWGCCje6xoCnIDbCuzcKLPdAp6bo_7npurxwftXcz0pbA
[12]
此处: https://l.facebook.com/l.php?u=https%3A%2F%2Fdata.humdata.org%2Forganization%2Ffacebook&h=AT2fQT9hv1Qh_WcXUFK7aZj1F3231o7rIEXaSoUVQuacmjNlNkhx3E_Cn1ACc8JQAqLRxjIfW_jt26blzklMXmCunVmT32HjwK7Gr8KD4VLrsfMB5Yn381TIziR_SFj_LQ5b0KLEsmKtnPHcvAbEBA
[13]
配套博客文章: https://l.facebook.com/l.php?u=https%3A%2F%2Ftech.fb.com%2Fai-powered-maps-help-vaccination-campaigns&h=AT00nwJbvht22Keq0DW8qGrEI9VR3xQGqesRmgwG0_MuvFpBdSt67Vle6GmCjx_ZZAqfCnEfTUSOP1-3SQ5pkz89PQe_mT6gs7S52ieItPf3nQvJOW9zcJxHh7Upj_FGA3wyyoleek-OfOpyxONqMw