KDnuggets今年采访了11位人工智能领域的专家,询问了他们有关例如“2018年数据科学和分析领域的主要发展是什么?你预计2019年的主要趋势是什么?”等问题,来回顾和展望人工智能(AI)及机器学习(ML)的发展。这些专家挑选出的关键主题包括深度学习的进步、迁移学习、机器学习的局限性、自然语言处理领域的变化等等。以下为这11位专家的见解:
Anima Anandkuma (@AnimaAnandkumar)是英伟达(NVIDIA)机器学习研究主管,加州理工学院教授。
2018年机器学习和人工智能的主要进展是什么?
“已经取得深度学习的初步丰硕成果”
焦点开始从标准的监督学习转向更具挑战性的机器学习问题,如半监督学习、领域适应、主动学习和生成模型。GAN(生成对抗网络)在尝试像照片写实主义(bigGANs)和视频到视频合成这样难度较大的任务中仍然很受研究人员欢迎。开发了替代生成模型(如神经绘制模型),将生成和预测结合在一个网络中,来促进半监督学习。研究人员将深度学习的应用扩展到地震预测、材料科学、蛋白质工程、高能物理和控制系统等许多科学领域。在这些案例中,领域知识和约束与学习相结合。例如,为了提高无人机的自主着陆能力,通过学习地面效应模型来校正基地控制器,保证学习的稳定性,这在控制系统中是非常重要的。
预测:
“将模拟和现实连接起来的人工智能,将变得更安全,更具有实体意识”
我们将看到新的领域适应技术的发展,无缝地将知识从模拟转移到现实世界。使用模拟将帮助我们克服数据的稀缺,并在新的领域和问题中加速学习。将人工智能从模拟应用到真实数据(Sim2real)将对机器人技术、自动驾驶、医学成像、地震预测等领域产生重大影响。在自动驾驶等安全关键应用中,模拟是考虑所有可能场景的一种很好的方式。
Andriy Burkov (@burkov)是Gartner的机器学习团队负责人。
以下是我作为一个实践者的个人看法,而非Gartner基于研究的官方声明。
2018年机器学习和人工智能的主要发展是什么?
TensorFlow在学术界输给了PyTorch。有时候,谷歌的巨大影响力和影响范围可能会将市场引向一个并不理想的方向,MapReduce(一种编程模型)就是这样一个例子。
深度伪造(Deepfakes,它制造出的声音与真人一模一样)粉碎了最可靠的信息来源,打破了传统观念:眼见未必为实。自今年4月份以来,涉及美国前总统巴拉克·奥巴马(BarackObama)的一段一分钟长视频已被观看过480万次。在这个视频里,你可以看到奥巴马在发表演讲,演讲内容却是其正在用语言攻击他的继任者唐纳德·特朗普。但是只是一段经过加工的视频。令人诧异之处在于,当奥巴马在发表上述演讲时,他的嘴巴会随之而动,表情、口型、声音和奥巴马一模一样,让人完全看不出任何破绽,就像是奥巴马真人的发表演讲一样
强化学习以深度学习的形式卷土重来,实在是出人意料!
谷歌机器人能够代你打电话订餐,并且伪装地与真人毫无二致,这是一个里程碑。然而,它提出了许多关于伦理和人工智能的问题。
个人助理和聊天机器人很久就会被发展到极致。它们表现的比以往任何时候都好,但与去年公众对它们的期望还是存在差距。
你预计2019年的主要趋势是什么?
1. 我预计公众对机器学习的兴趣会增加,至少一定会高于今年。但我预计机器学习可能会经历失败(除了出现一些非常具体的和令人惊艳的用例,如图像识别、机器翻译、文本分类)。
2. 营销自动化:随着成熟的生成式对抗网络和变分自编码器(variational autoencoder)的出现,人们可以生成数千张同一个人或同一名付费用户的照片,而这些照片之间的面部表情或情绪差异很小。根据消费者对这些图片的反应,我们可以产生最佳的广告活动。
3. 移动设备上的实时语音生成与真人无异。
4. 自动驾驶出租车仍处于测试/PoC(验证性测试)阶段。
Pedro Domingos (@pmddomingos)是华盛顿大学计算机科学与工程系教授。
经过多年的大肆宣传后,2018年将人工智能蒙上了一层阴影。听听媒体甚至一些研究人员的说法,你可能会认为,剑桥分析公司(Cambridge Analytica)把帮助特朗普赢得了2016年的大选;机器学习算法带有偏见和歧视;机器人将取代我们的工作,然后将掌控我们的生活。这也不只是说说而已:欧洲和加州已经通过了严厉的隐私法,联合国正在讨论禁止智能武器,等等。公众对人工智能的看法越来越黑暗,这既危险又不公平。希望2019年是理智回归的一年。
Ajit Jaokar (@AjitJaokar)是牛津大学物联网数据科学课程的首席数据科学家和创始人。
2018年,出现了一大波新趋势。自动化机器学习是其中之一,强化学习是另一个。这两种新趋势将在2019年显著扩大。作为我在牛津大学(Oxford University)教学的一部分(物联网数据科学课程),我看到物联网正日益融入自动驾驶汽车、机器人和智能城市等大型生态系统。通过与Dobot的合作,我看到了一种新型机器人,即协作机器人(cobots),这是2019年的一个关键趋势。不像以前的流水线机器人,新的机器人具有自主能力,也能够理解情感。最后,一个有争议的观点是:2019年,我们所知的数据科学家的角色将从研究转向产品开发。我认为人工智能与下一代数据产品的创造有着更紧密的联系。数据科学家的角色将相应地改变。
Nikita Johnson (@nikitaljohnson)是RE.WORK的创始人。
我们在2018年看到的一项发展是,越来越多的开源工具正在降低进入门槛,让所有人都能更容易地开发人工智能,以确保组织间的协作得到加强。这些社区对于确保人工智能在社会和商业领域的传播至关重要。
同样,在2019年,我们将看到专注于“AI for Good”(AI造福人类)的公司数量增加,这是基于谷歌最近宣布的“AI for Social Good”项目,以及微软的“AI for Good”计划。随着社会要求企业达到更高的社会目标,这种向人工智能的积极影响的转变正在获得越来越多的关注。
Zachary Chase Lipton (@zacharylipton)是卡内基梅隆大学机器学习的助理教授,也是“Approximately Correc”博客的创始人。
深度学习占据了关于机器学习和人工智能的大部分公共话语。也许我的这番话会惹恼一些人,但这里有一个关于2018年的合理解读:最大的进展是没有任何进展!当然,这是一个过于简单的理解。在很大程度上,最大的发展是“调整”的性质,而非突破性发展。今年最大的新闻是ELMO和BERT的情景化嵌入。从经验来看,这些都是非常了不起的进步。但至少从2015-16年以来,我们一直在对语言模型进行预先培训,并对下游分类任务进行微调。因此,或许更愤世嫉俗的说法是,今年并非新的“大创意”占主导地位的一年。
我们正急匆匆地进入所有这些声称可以“解决”问题的实践领域,但到目前为止,工具箱中唯一可靠的工具是监督学习,而且我们仅凭模式匹配所能做的事情也有一些限制。监督模型发现关联,但它们不提供证据。他们不知道哪些信息是安全的,哪些信息是不可靠的。这些模型没有告诉我们干预的效果。当我们在人机交互系统中部署基于监督学习的自动化系统时,我们没有预料到它们会扭曲激励机制,从而改变环境,破坏它们所依赖的模式。明年我们会看到更多机器学习项目的案例被废弃,或者正是因为这些限制而陷入困境,我们会发现研究人员将更多的关注与弥合代表性学习和因果推理之间差距相关的问题。
Matthew Mayo (@mattmayo13)是KDnuggets的编辑。
在我看来,2018年的机器学习似乎是精益求精的一年。例如,由于文本分类的通用语言模型微调(ULMFiT)和Bidirectional Encoder Representations from Transformers (BERT)等技术,迁移学习获得了更广泛的应用和兴趣,特别是在自然语言处理方面。这些并不是去年NLP的唯一进步;另外值得注意的是Embeddings from Language Models,它对模型用于的每个任务都做了相当大的改进。例如,今年的其他突破似乎集中在对现有技术的改进上,如BigGANs。此外,关于机器学习中包含和多样性的非技术讨论也成为主流。
我认为到2019年,随着强化学习和半监督学习的潜在应用得到越来越多的认识,研究的重点将从监督学习转向强化学习和半监督学习等领域。例如,我们现在正处于图像识别和生成已经得到“解决”的阶段,在此过程中所学到的知识可以帮助研究人员追求更复杂的机器学习应用。
Brandon Rohrer (@_brohrer_)是Facebook的一名数据科学家。
2018年的一个重要趋势是数据科学教育机会的增加和成熟。在线课程是原始的数据科学教育场所。它们在各个层次继续占据主导地位,每年都有学习的人数及主题内容都会增加。
在学术界,新的数据科学硕士项目正以每年大约12个的速度腾飞。高等院校正在响应公司和学生的请求,为数据相关领域提供专门的项目。(今年,18位行业合著者和我,以及11位学术贡献者,创建了一个虚拟行业咨询委员会,帮助支持这种爆炸式增长。)
2019年及以后,学术数据科学项目将成为一种更常见的方式,收集获得第一个数据科学职位所需的基本技能。这是一件好事。接受认证的机构将填补长期以来的空白。到目前为止,数据科学资格在很大程度上是通过以前的工作经验证明的。这就进入了一条死胡同。新数据科学家不能展示他们的资质,因为他们从来没有从事过数据科学工作,他们不能获得数据科学工作,因为他们不能展示他们的资质。来自教育机构的证书是打破这种循环的一种方法。
我预计,数据科学大学学位与在线培训课程之间的界线将日益模糊。在我看来,这是“数据科学民主化”最真实的形式。
Elena Sharova是ITV的高级数据科学家。
2018年机器学习和人工智能的主要发展是什么?
我认为,在机器学习和人工智能领域中,2018年将通过以下三个事件被铭记。
首先,欧盟全球数据保护条例(GDPR)的启动旨在提高个人数据使用的公平性和透明度。该条例使个人有权控制其个人资料,以及查阅个人资料的使用方法,但亦对法律的解释造成混淆。到目前为止的最终结果是,许多公司数据处理做了一些表面的更改,忽略了重新设计用于数据存储和处理的基础设施的基本需求。
其次,剑桥分析丑闻给整个数据科学界蒙上了一层阴影。如果说之前的辩论主要是关于确保AI和ML产品的公平性,那么这次丑闻引发了更深层次的道德问题。对Facebook参与的最新调查意味着,这种影响是长久的。随着数据科学领域的成熟,这样的案例将在许多行业发生,而不仅仅是政治领域。一些案件将更加悲惨,比如亚利桑那州的优步(Uber)自动驾驶汽车致死案,它们将引发强烈的公众反应。技术就是力量,伴随着力量而来的是责任。正如诺姆•乔姆斯基(Noam Chomsky)所言:“只有在民间故事、儿童故事和学术期刊上,权力才能被明智而恰当地用来消灭邪恶。”现实世界教给我们的是完全不同的教训。
最后,从更积极的方面来说,亚马逊自研服务器处理器芯片的最新开发意味着,我们可能离云计算的普遍访问不再是一个成本问题的日子越来越近。
你预计2019年的主要趋势是什么?
数据科学家的角色和职责不仅仅是建立能够实现准确预测的模型。对于ML、AI和数据科学从业者来说,2019年的主要趋势将是遵循既定软件开发实践的日益增长的责任,尤其是在测试和维护方面。数据科学的最终产品必须与公司技术栈的其余部分共存。有效运行和维护专有软件的要求将适用于我们构建的模型和解决方案。这意味着最好的软件开发实践将支持我们需要遵循的机器学习规则。
Rachel Thomas(@math_rachel)是fast.ai的创始人,也是USF的助理教授。
2018年人工智能的两个主要发展方向是:
1. 迁移学习在NLP中的成功应用
2. 反乌托邦式滥用人工智能日益受到关注
迁移学习是将一个预先训练好的模型应用到一个新的数据集上的实践。迁移学习是计算机视觉突飞猛进的关键因素,2018年,迁移学习成功地应用到NLP工作中,包括来自fast.ai的ULMFiT和Sebastian Ruder,Allen Institute的ELMo,OpenAI转换器和Google的Bert。正如《纽约时报》一篇文章所描述的那样,这些进步既令人兴奋,也令人担忧。NLP是神经语言程序学(Neuro-Linguistic Programming)的英文缩写。
Facebook在缅甸种族灭绝事件中的决定性作用、YouTube过多地推荐阴谋论(其中许多都宣扬白人至上)、政府和执法机构使用人工智能进行监控等持续不断的问题,终于在2018年开始获得主流媒体更多的关注。虽然这些对人工智能的误用令人胆战心惊,但有越来越多的人开始意识到它们,并越来越多地予以反击,这是件好事。
我预计这些趋势将在2019年继续下去,伴随着NLP的快速发展,以及技术如何被用于监视、煽动暴力和危险政治运动操纵方面的更多反乌托邦式发展。
Daniel Tunkelang (@dtunkelang)是一个专注于搜索、发现和ML/AI的独立顾问。
2018年,自然语言处理和理解的嵌入词的复杂性有了两大进步。
第一次是在三月。艾伦人工智能研究所(Allen Institute for AI)和华盛顿大学的研究人员发表了《Deep context- alized word representation》一书,并介绍了ELMo(Embeddings from Language Models),这是一种开源的深度上下文单词嵌入,改进了word2vec或GloVe等上下文无关的嵌入。作者通过简单地替换ELMo预训练模型中的向量,证明了对现有NLP系统的改进。
第二次是在11月。谷歌开源的BERT(Bidirectional Encoder Representations from Transformers),一个双向的,无监督的语言表示,预先在维基百科上训练。他们在各种各样的NLP基准测试中取得了显著的改进,甚至相对于ELMo而言也是如此。
从智能扬声器的迅速普及(到2018年底将达到1亿人左右)到移动电话上数字助理的普及,自然语言理解的进步正迅速从实验室转移到实践领域。对于NLP的研究和实践来说,这是一个激动人心的时代。
但我们还有很长的路要走。
同样是在今年,艾伦研究所的一项实验表明,最先进的NLP仍然远远落后于人类的表现。
但希望我们能在2019年看到更多的NLP突破。计算机科学领域许多最优秀的人才都在从事这方面的工作,业界也渴望应用他们的成果。
【来源:前瞻网】