知识图谱表达了各类实体、概念及其之间的各种语义关系,成为了大数据时代知识表示的主要形态之一。知识图谱为语义理解提供了丰富的背景知识,为实现机器语言认知提供必需的知识支撑。

复旦大学知识工场专注于各类大规模知识图谱构建、管理以及应用理论与方法研究。为了构建能够满足机器语言认知需要的大规模、高质量知识图谱,需要推进知识图谱在文本理解、智慧搜索以及机器智脑等领域中的深入应用。

为此举办此次知识图谱前沿技术课程(复旦大学站),邀请了复旦大学、华东师范大学、苏州大学、上海财经大学等学术领域著名学者,及小i机器人、阿里巴巴、中国移动研究院等业界领先企业代表,共济一堂,开堂授课,交流研讨。

课时 标题 主讲人 单位
1. 知识图谱综述
9:00-9:35 知识图谱综述 肖仰华 复旦大学
特邀报告
9:35-10:35 Question Answering Benchmark and Semantic Parsing Xifeng Yan UCSB
休息10分钟
2. 知识图谱构建
10:45-11:20 大规模百科知识图谱构建 徐 波 复旦大学
11:20-11:55 知识图谱的众包构建 林 欣 华东师范大学
11:55-12:30 知识图谱的质量控制 李直旭 苏州大学
13:30-14:05 大规模分类体系构建 梁家卿 复旦大学
3. 知识图谱应用
14:05-14:40 基于知识图谱的搜索与推荐 阳德清 复旦大学
14:40-15:15 面向知识图谱的问答系统 崔万云 上海财经大学
15:15-15:50 基于知识图谱的语言认知 肖仰华 复旦大学
休息10分钟
4. 知识图谱实践
16:00-16:30 智能客服 刘 欣 小i机器人
16:30-17:00 电商应用 唐海红 阿里巴巴
17:00-17:40 电信应用 胡珉,范正洁 中国移动研究院
5. 总结
17:40-18:10 知识图谱研究挑战与机遇 肖仰华 复旦大学
Xifeng Yan, University of California at Santa Barbara
题目
Question Answering Benchmark and Semantic Parsing (PDF
摘要

In this talk, I will first present a semi-automated framework for constructing factoid question answering (QA) datasets, where an array of question characteristics are formalized, including structure complexity, function, commonness, answer cardinality, and paraphrasing. Instead of collecting questions and manually characterizing them, we employ a reverse procedure, first generating a kind of graph-structured logical forms from a knowledge base, and then converting them into questions. Our work is the first to generate questions with explicitly specified characteristics for QA evaluation. The datasets constructed in this way enable fine-grained analyses of QA systems.

In the second part of my talk, I will discuss our recent work on improving question answering via answer type inference and query revision. Both approaches can be directly applied to existing question answering engines.

报告人简介

Xifeng Yan is a professor at the University of California, Santa Barbara. He holds the Venkatesh Narayanamurti Chair of Computer Science. He received his Ph.D. from the University of Illinois at Urbana-Champaign in 2006 and was a research staff member at the IBM T. J. Watson Research Center between 2006 and 2008.

He has been working on modeling, managing, and mining graphs in knowledge graphs, information networks, computer systems, social media and bioinformatics.

His works were extensively referenced, with over 14,000 citations per Google Scholar. He received NSF CAREER Award, IBM Invention Achievement Award, ACM-SIGMOD Dissertation Runner-Up Award, and IEEE ICDM 10-year Highest Impact Paper Award.

徐 波,复旦大学
题目
大规模百科知识图谱构建(PDF
摘要

近年来,随着互联网的普及和互联网技术的发展,互联网上的信息正以一种前所未有的速度增长。然而,目前绝大多数的网页内容都只能被人而非机器阅读和理解。原因在于人类拥有丰富的背景知识。为了让机器也能像人一样“理解”网页内容,科学家们尝试对机器灌输背景知识,特别是关于真实世界中数以亿计的实体的知识,大量知识图谱(或称为知识库)应运而生。本报告将主要介绍复旦大学知识工场实验室在构建中文百科知识图谱 CN-DBpedia 过程中遇到的挑战及解决方法,包括知识的自动化抽取、知识优化、知识补全、实体分类以及自动更新等,并简要介绍围绕知识图谱 CN-DBpedia 创建的一系列应用。

报告人简介

徐波,复旦大学计算机博士,专注于知识图谱构建工作,创建了目前最大的中文开放知识图谱之一:CN-DBpedia。已经被数百家用户单位,累计调用 3.3 亿次。并在 IJCAI、DASFAA 等国际顶级人工智能、数据库会议上发表多篇学术论文。曾获中国数据库学术会议优秀论文奖。

林欣,华东师范大学
题目
知识图谱的众包构建(PDF
摘要

知识图谱构建是知识图谱研究领域最核心的问题之一,而目前完全靠计算机实现的知识图谱构建技术并不能达到准确率和召回率双高。在构建的过程中,加入众包可以实现知识图谱的精化,尤其在对计算机难以完成而人较容易完成的任务中,如实体对齐、范式匹配和关系判定等,众包可以发挥更大的作用。本次课程从众包的基本原理展开,讲授其中若干关键子问题,如众包问题设计、质量控制等。结合知识图谱构建中面临的若干问题,分析各个众包的例子,讨论深智众包的设计原则。

报告人简介

林欣,男,出生于 1981 年 7 月,2003 年和 2008 年分别于浙江大学计算机学院获得学士和博士学位。现担任华东师范大学信息科学技术学院副教授。主要致力于新型数据管理研究和群智计算研究。先后在该领域发表论文 40 余篇,其中近三年在中国计算机学会推荐的 A 类顶级期刊TKDE 和 A 类会议 ICDE 发表论文 8 篇。曾作为项目负责人主持了两项国家自然科学基金项目、上海市博士后科研计划、中国博士后面上项目一等资助等项目。2011 年入选首批“香江学者计划”,赴香港浸会大学从事为期 2 年的访问研究。2014 年回国后入选上海市“浦江人才计划”。现担任 SCI 杂志《Frontier of Computer Science》青年副主编,担任 TKDE、TPDS 等权威学术期刊的审稿人,并多次担任 WAIM,ICPADS 等国际会议的 PC member。获得授权专利 2 项,并获得上海科技进步奖一项。

李直旭,苏州大学
题目
知识图谱的质量控制(PDF
摘要

在当今大数据时代,拥有可靠、准确、及时的高质量数据是充分发挥大数据所赋予的机遇和优势的基本前提。然而如何在大量“脏”数据的使用中进行质量控制成为数据工程和知识工程领域最重要最艰巨的课题之一。作为知识工程的核心内容 - 知识图谱的构建涉及到方方面面的质量控制问题。比如多源数据的融合和统一、错误及矛盾知识的诊断和修正、以及缺失知识的推理和填补。在本次报告中,我们将介绍有关知识图谱的质量控制方面的相关前沿工作,并简要介绍我们在该方向上做的一些前瞻性研究工作。

报告人简介

李直旭,苏州大学计算机科学与技术学院副教授,硕导。2015 年获江苏省“双创”博士称号,2013年毕业于澳大利亚昆士兰大学,获计算机科学博士学位。研究方向为数据质量,众包技术和知识图谱。现为 CCF 数据库专委会通讯委员,人工智能学会智能服务专委会委员。IEEE TKDE,WWWJ 等期刊长期审稿人,已发表论文 40 余篇。

梁家卿,复旦大学
题目
大规模分类体系构建(PDF
摘要

Knowledge bases are playing an increasingly important role in many applications. And most recent knowledge bases use data-driven methods to achieve large-scale. However, the quality problems of these knowledge bases limit their utility, some typical problems include missing relations, wrong relations. We mainly focus on isA taxonomies, and This talk will discuss a selection of recent work to improve the quality of knowledge bases:

1) How to infer some missing relations in an isA taxonomy.

2) How to find wrong relations in an isA taxonomy by resolving conflicts.

报告人简介

梁家卿,复旦大学在读博士生,在复旦大学计算机科学技术学院完成本科学业之后,于 2015 年直升博士研究生。他目前的主要研究方向是深度学习在知识图谱中的应用。他在中国计算机学会 A 类期刊与会议上以第一作者发表了 4 篇文章,涉及知识图谱、文本数据挖掘、自然语言处理、深度学习等领域。

阳徳青,复旦大学
题目
基于知识图谱的搜索与推荐(PDF
摘要

知识图谱中蕴藏的海量知识信息,辅以知识推理、关联分析等技术手段,能显著提升搜索引擎的智能化水平以及个性化推荐的精准度。相比传统基于关键字的搜索机制,利用知识图谱不仅能帮助搜索引擎从语义层面更准确地理解用户搜索意图,而且对搜索对象(实体)的全面刻画能显著改善搜索的结果,从而增强了搜索的智能化和用户体验;对于推荐系统而言,知识图谱中的知识可用于对用户和物品的特征进行全面而深入的刻画,并帮助找到用户和物品之前的潜在关联,从而进一步提升传统推荐算法的精准度。本讲座着重介绍在基于知识图谱的搜索与推荐方面已有的相关研究和成果。

报告人简介

阳德青,博士,复旦大学副教授,大数据学院副院长。阳老师的主要研究领域包括数据挖掘、社会网络分析、知识图谱的构建与应用、推荐系统等,其研究成果曾先后发表在 WWW、ICDM、CIKM、ASONAM 等国际高水平学术会议上。阳老师面向大数据学院、计算机学院和新闻学院的本科生、研究生讲授过多门专业课程,包括《社交网络挖掘》、《Java Web 应用开发》、《新媒体技术导论》等。阳老师曾先后主持并参与过多项国家自然科学基金项目、上海市经信委和教委的大数据专项课题,并拥有多项研究发明专利。

崔万云,上海财经大学
题目
面向知识图谱的问答系统(PDF
摘要

问答系统理解并回答自然语言问题。基于知识图谱的问答系统,利用知识图谱的结构化、关联化特征,提供比纯文本语料更丰富的语义表达、更精确的数据内容、更高效的检索方式。在这篇演讲中,我会介绍我们的问答系统小 Cui 问答。在基本的开放问答之外,我还会阐述如何利用到迁移学习、领域知识图谱自动构建等技术,解决特定领域的问答。

报告人简介

崔万云是上海财经大学信息管理与工程学院的讲师。他的研究兴趣包括自然语言问答和知识图谱。他曾经在微软亚洲研究院、百度深度问答小组和小 i 机器人等公司从事问答系统相关研究。他已经在 VLDB 2017,IJCAI 2016,AAAI 2016,SIGMOD 2014,SIGMOD 2013 等顶级人工智能、数据库会议上发表第一作者论文。曾获得复旦大学学术之星、复旦大学毕业生之星等奖项。他在 2017、2013 年分别博士、本科毕业于复旦大学。

刘欣,小 i 机器人
题目
智能客服 (PDF
摘要

随着移动互联网时代的到来,客户对服务的需求已经逐渐从热线、人工、营业厅等传统渠道转移到线上,APP、微信等新型轻渠道,其特点是人工参与黏度低、维护成本低。基于人工智能技术、大规模知识处理基础上发展起来的智能客服,则是面向未来为企业提供全渠道、全场景的智能解决方案。智能客服不仅仅是企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段,还为企业提供了细颗粒度的知识体系以及通过大数据平台为企业提供精细化服务所需的分析体系。本次分享主要介绍小 i 机器人基于自然语言处理的服务场景及相关案例介绍。

报告人简介

刘欣,上海智臻智能网络科技股份有限公司(小 i 机器人)高级产品经理,主要负责智能客服解决方案的产品管理工作。主要的产品为智能座席知识库、智能客服聊天机器人,主要功能:(1)基于 NLP 的问答交互;(2)基于搜索的知识定位;(3)基于本体的知识构建;(4)基于信息抽取的知识构建。

唐海红,阿里巴巴
题目
电商应用
摘要

淘宝电商平台的一个知识体系的设计和构建,相关知识的挖掘已经在搜索场景上的应用。

报告人简介

唐海红,阿里资深算法专家,2008 年毕业同济大学计算机系,毕业至今,一直就职于淘宝搜索事业部-搜索算法。长期专注在商品检索体验和效率的优化,见证了淘宝搜索从“人工”和“非智能”时代,到机器学习时代,再到准人工智能时代,走向人工智能时代的整个历程,有非常荣幸在这个过程中起到了建设和推动的作用,参与规划和设计了搜索新一代的排序框架体系,新一代 Query 意图理解和应用体系的 Build。在技术的先进性和业务的推动上都取得了突破性成果。

胡珉、范正洁 中国移动研究院
题目
电信应用
摘要

中国移动具有 8 亿用户,而客服人员只有数万人,服务比例悬殊;同时,移动业务知识量基数庞大,增速明显。面对以上两大难题,我们根据移动业务知识特点,逐步构建一个可靠、可用的知识库供客服人员使用,该知识库能够辅助客服人员快速处理应答、提高客服人员并发处理效率,支撑智能应答实现部分替代客服人员,降低企业成本。在解决用户多种需求的同时,还需要考虑利用用户有价值的信息进行精准营销。我们根据门户网站的标签体系结构,采用智能语义分析技术将相同领域的标签结构合并成统一的标签体系。依据用户的浏览记录,给用户打标签。从而能够更好地进行用户画像,为精准营销提供技术支撑。

报告人简介

胡珉,男,中国移动智能客服项目负责人。长期从事搜索引擎、自然语言理解、知识图谱等研究工作。曾启动和主导了国家级搜索引擎的开发工作。目前负责中国移动全网智能客服系统,已在全国 100 多个服务渠道上线,累计节省客户服务成本上亿元。

范正洁,女,中国移动推荐算法研究员。长期从事推荐算法、本体、自然语言理解等研究工作。目前负责中国移动研究院大数据所各项目推荐算法的应用研究以及本体在项目中的应用研究。

Yanghua Xiao(肖仰华), Associate Professor, Fudan University, China
题目
知识图谱综述 (PDF
基于知识图谱的语言认知 (PDF
知识图谱研究挑战与机遇(PDF
简介

肖仰华博士,复旦大学计算机学院副教授、博导、青年 973 科学家、上海市互联网大数据工程中心执行副主任。主要研究兴趣包括:大数据管理与挖掘、图数据库、知识图谱等。曾获教育部高校科研成果二等奖、CCF2014 自然科学二等奖、ACM(CCF)上海杰出青年科学家提名奖。至今已经在中国计算机学会 A 类、B 类期刊与会议发表论文 70 多篇。领导开发了知识库云服务平台(知识工场平台 kw.fudan.edu.cn),以 API 形式服务人工智能与大数据相关企业 3 亿多次。

联系方式: shawyh@fudan.edu.cn

从虹桥机场前往会场 :搭乘轨道交通二号线,到张江地铁站下车,步行或乘坐浦东22路、25路或乘坐有轨电车到达。

从浦东机场前往会场 :搭乘轨道交通二号线,到张江地铁站下车,步行或乘坐浦东22路、25路或乘坐有轨电车到达。

从上海火车站前往会场 :搭乘轨道交通一号线,到人民广场站换乘轨道交通二号线,到张江地铁站下车,步行或乘坐浦东22路、25路或乘坐有轨电车到达。

从虹桥火车站前往会场 :搭乘轨道交通二号线,到张江地铁站下车,步行或乘坐浦东22路、25路或乘坐有轨电车到达。

主办单位

复旦大学知识工场实验室

上海市互联网大数据工程技术研究中心