知识图谱表达了各类实体、概念及其之间的各种语义关系,成为了大数据时代知识表示的主要形态之一。知识图谱是目前人工智能领域的一个重要支撑,已经在诸如智能问答、搜索、推荐等具体领域得到很好的应用。
华东师范大学计算机应用研究所长期以来专注于知识图谱构建、精化和应用等各方面研究,目前已在学术、电商、对话机器人等领域有了较为深入的应用。
为此举办此次知识图谱前沿技术课程,邀请了清华大学、复旦大学、华东师范大学、苏州大学等高校著名学者,及阿里巴巴、微软亚洲研究院等业界领先企业代表,共济一堂,开堂授课,交流研讨。旨在集中展示知识图谱的当前在学术界和工业界的进展,讨论现有主要问题,为下一步知识图谱方向的研究工作做好规划。欢迎广大师生、研究人员参与。
课时 | 标题 | 主讲人 | 单位 |
9:00-9:40 | 知识图谱研究的回顾与展望 | 肖仰华 | 复旦大学 |
9:40-10:20 | 知识图谱的众包构建与精化 | 林欣 | 华东师范大学 |
休息20分钟 | |||
10:40-11:20 | 大规模分布式知识图谱表示推理模型及应用 | 杨燕 | 华东师范大学 |
11:20-12:00 | KBQA: Learning Question Answering over QA Corpora and Knowledge Base | 崔万云 | 上海财经大学 |
13:30-14:10 | 跨语言知识图谱构建 | 张鹏 | 清华大学 |
14:10-14:50 | 知识图谱构建的质量控制 | 李直旭 | 苏州大学 |
休息20分钟 | |||
15:10-15:50 | Challenges and Opportunities in Large-Scale Graph Processing at Alibaba | 钱正平 | 阿里巴巴 |
15:50-16:30 | 知识图谱实践之司法裁判应用 | 司华健 | 安徽富驰信息技术有限公司 |
休息20分钟 | |||
16:50-17:30 | Panel |
自2012年谷歌正式推出知识图谱技术以来,知识图谱技术经历了飞速的发展,吸引了来自工业界和学术界的广泛关注,在一系列实际应用中取得了显著效果,成为了人工智能技术知识工程分支在大数据时代的代表性进展。但随着知识图谱技术应用的深入,知识图谱技术自身局限性也日益暴露,当前知识图谱技术已经难以应对智能化大潮对其提出的严峻要求。本报告将结合复旦大学知识工场实验室自2011年以来在知识图谱研发与落地方面的科研实践,系统总结知识图谱研究与落地中的一系列关键科学问题,梳理突破当前技术瓶颈的主要技术思路,展望知识图谱技术下一阶段发展前景。
肖仰华博士,复旦大学计算机学院副教授、博导,复旦大学知识工场实验室创始人、负责人,上海市互联网大数据工程技术中心副主任,兼任多家规模企业高级顾问或首席科学家。主要研究兴趣包括知识图谱、大数据管理与挖掘。在SIGMOD,VLDB, ICDE, IJCAI, AAAI等国际顶级学术会议发表论文100多篇。领导构建国内首个知识库云服务平台(知识工场平台kw.fudan.edu.cn),以API形式对外服务4亿次。
知识图谱的构建是知识图谱领域中最受关注,也是最难的问题之一。由于语料来源杂乱不堪、自然语言处理技术存在瓶颈,完全靠机器并不能实现覆盖度和准确率双高。在构建的过程中,加入众包可以实现知识图谱的精化, 尤其在对计算机难以完成而人较容易完成的任务中,如实体对齐、范式匹配和关系判定等,众 包可以发挥更大的作用。本次课程从众包的基本原理展开,讲授其中若干关键子问题,如众包问题设计、质量控制等。结合知识图谱构建中面临的若干问题,分析各个众包的例子,讨论深智众包的设计原则。
林欣,男,出生于 1981 年 7 月,2003 年和 2008 年分别于浙江大学计算机学院获得学士和博士学位。现担任华东师范大学信息科学技术学院副教授。主要致力于新型数据管理研究和群智计算研究。先后在该领域发表论文 40 余篇,其中近三年在中国计算机学会推荐的 A 类顶级期刊 TKDE 和 A 类会议 ICDE 发表论文 8 篇。曾作为项目负责人主持了三项国家自然科学基金项目、上海市博士后科研计划、中国博士后面上项目一等资助等项目。2011 年入选首批“香江学者计划”,赴香港浸会大学从事为期 2 年的访问研究。2014 年回国后入选上海市“浦江人才计划”。现担任 SCI 杂志《Frontier of Computer Science》青年副主编,担任 TKDE、TPDS 等权威学术期刊的审稿人,并多次担任 WAIM,ICPADS 等国际会议的 PC member。获得授权专利 2 项,并获得上海科技进步奖一项。
在当今大数据时代,拥有可靠、准确、及时的高质量数据是充分发挥大数据所赋予的机遇和优势的基本前提。然而如何在大量“脏”数据的使用中进行质量控制成为数据工程和知识工程领域最重要最艰巨的课题之一。作为知识工程的核心内容 - 知识图谱的构建涉及到方方面面的质量控制问题。比如多源数据的融合和统一、错误及矛盾知识的诊断和修正、以及缺失知识的推理和填补。在本次报告中,我们将介绍有关知识图谱的质量控制方面的相关前沿工作,并简要介绍我们在该方向上做的一些前瞻性研究工作。
李直旭,2013年毕业于澳大利亚昆士兰大学,获计算机科学博士学位。现为苏州大学计算机学院特聘副教授,硕导,江苏省“双创”博士入选者。研究方向为数据质量,众包技术和知识图谱。现为CCF数据库专委会通讯委员,人工智能学会智能服务专委会委员。IEEE TKDE, WWWJ等期刊长期审稿人,已发表论文50余篇。
杨燕,华东师范大学,博士,讲师,研究方向包括自动问答系统、知识图谱、信息抽取等,获得两次上海市科技进步二等奖,作为主要研究人员参与了国家科技支撑项目2项,主持和参与了多项上海市科委重大重点课题和上海市经信委科研课题;参与了多项上海市科委信息技术领域战略研究和上海市科委软科学研究项目。发表论文10余篇,编写教材1本,发明专利授权3项。
问答系统理解并回答自然语言问题。基于知识图谱的问答系统,利用知识图谱的结构化、关联化特征,提供比纯文本语料更丰富的语义表达、更精确的数据内容、更高效的检索方式。在这篇演讲中,我会介绍我们的问答系统小 Cui 问答。在基本的开放问答之外,我还会阐述如何利用到迁移学习、领域知识图谱自动构建等技术,解决特定领域的问答。
崔万云是上海财经大学信息管理与工程学院的讲师。他的研究兴趣包括自然语言问答和知识图谱。他曾经在微软亚洲研究院、百度深度问答小组和小 i 机器人等公司从事问答系统相关研究。他已经在 VLDB 2017,IJCAI 2016,AAAI 2016,SIGMOD 2014,SIGMOD 2013 等顶级人工智能、数据库会议上发表第一作者论文。曾获得复旦大学学术之星、复旦大学毕业生之星等奖项。他在 2017、2013 年分别博士、本科毕业于复旦大学。
张鹏,清华大学计算机科学与技术系知识工程研究室资深工程师,清华数据科学研究院科技大数据研究中心研究员。研究领域包括文本数据挖掘和语义分析、知识图谱构建和应用等。作为主要研究人员参与欧盟第七合作框架跨语言知识抽取、国家863计划“海量知识库建设与构建关键技术及系统”等项目的研究工作,并参与设计和研发了国内首个中英文平衡的跨语言知识图谱系统XLORE(http://xlore.org)。长期致力于将知识图谱研究理论应用于实际需求,在语义大数据分析、智能问答、辅助决策等应用领域拥有丰富的实践经验。
Many business-critical applications concern a tremendous graph consisting of billions of vertices and trillions of edges. For example in e-commerce, the vertices can represent users, items and accounts, and the edges model various user behaviors. Key scenarios like recommendation and fraud detection often rely on the detection and understanding of complex patterns in real time, where the graph needs updating dynamically at a high speed with every user transaction. In this talk we will outline concrete use cases from both inside and outside Alibaba and highlight some of the key challenges ranging from algorithm design to efficient distributed computing and even data visualization. We believe those challenges present research opportunities and future prospects in building modern data-processing infrastructures.
Dr. Zhengping Qian is a Senior Staff Engineer in the Big-Datainfrastructure team at Alibaba. He is responsible for driving the developmentof new systems and business solutions for emerging applications such aslow-latency graph analytics and machine learning. Before joining Alibaba in2015, he was a Lead Researcher at Microsoft Research. His research interestsare in distributed and data-parallel computing. Dr. Qian received his PhD inComputer Science from South China University of Technology in 2009.
随着国家大力推进人工智能产业的展,司法行业作为应用领域之一,也在积极探索和尝试。本报告重点介绍我们在尝试解决司法类案检索问题构建的两个知识图谱:案件知识图谱和裁判知识图谱,以及应用。
司华健,安徽富驰信息技术有限公司(Future-Data)高级自然语言处理工程师,2012年从中国科学技术大学硕士研究生毕业。长期从事自然语言理解、知识库、智能客服、知识图谱等方面的研究工作。曾负责中国平安集团智能客服项目的开发工作。目前负责公司司法领域知识图谱的研究。
自驾请从 中山北路3663号或者 金沙江路145号进入华东师范大学中北校区,进入时告知保安参加本次会议,并在其引导下有序停车。或者搭乘地铁3、4号线从5号口出右转,步行或乘共享单车至华师大科学会堂。
国家自然科学基金
上海市自然科学基金
华东师范大学计算机科学技术系
复旦大学知识工场实验室
苏州大学
上海数眼科技发展有限公司