Introduction

Probase是一个由微软亚洲研究院发布的一个英文Taxonomy(官方主页链接)。 其中包含有千万级别的概念和实体,以及千万级别的从语料中抽取的IsA关系:如apple isA fruit。 利用它,可以查询一个词的概念(上位词),如查询apple的概念,可以得到fruit,company等等。 或者查询一个词的包含实体(下位词),如查询physicist的实体,可以得到einstein,newton等等。 这样的查询在许多自然语言处理、语义分析中起到重要的作用。如有句子提及newton时,我们可以知道这句话是在描述一个person,或是描述一个physicist。
我们在Probase的基础上,进行了两个方面的工作:

  • 我们基于原来的Probase,在上面做自动的Inference,从而生成了一大批没有在语料中观测到,但是是正确的IsA关系。例如steve jobs isA billionaire,einstein isA revolutionary thinker。
  • 我们利用中文语料、Probase等多个数据源,生成了一个中文版的Taxonomy:CN-Probase,用于支持在中文处理相似的查询。
以上一些工作所生成的一个更大、更完整、包含中文的Taxonomy,我们命名为ProbasePlus。
(目前仅供测试使用,正式调用请联系shawyh@fudan.edu.cn)

pbapi/getconcepts

输入一个英文或中文的实体或概念名,返回其概念列表,返回格式为json格式。

输入参数:kw-待查询的实体名或概念名,start-从第floor(start/50)*50个概念开始显示,用于翻页,默认为50个一页。如start=50会返回第50-100个概念。

返回值:一个json格式的utf-8编码字符串,numcon-该查询词在Probase/CN-Probase中所属的概念个数,concept-该查询词当页概念及权值的列表,按权值从大到小排序。

URL

http://knowledgeworks.cn:20314/probaseplus/pbapi/getconcepts?kw=**&start=**

Example

查询apple的第50-100个概念(第二页)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getconcepts?kw=apple&start=50
返回值:{"numcon": 2784, "concept": [["computer manufacturer", 19.0], ["healthy food", 18.0], ...]}
表示apple在Probase中有2784个概念,其中权值从大到小排第51个概念为computer manufacturer。

查询 航空母舰 的第1-50个概念(第一页)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getconcepts?kw=航空母舰&start=0
返回值:{"numcon": 73, "concept": [["船", 15], ...]}
表示航空母舰在CN-Probase中有73个概念,最具有代表性的概念是 船。

pbapi/getentities

输入一个英文或中文的概念名,返回其包含的实体列表,返回格式为json格式。

输入参数:kw-待查询的概念名,start-从第floor(start/50)*50个概念开始显示,用于翻页,默认为50个一页。如start=50会返回第50-100个实体。

返回值:一个json格式的utf-8编码字符串,nument-该查询词在Probase/CN-Probase中包含的实体个数,entity-该查询词当页包含实体及权值的列表,按权值从大到小排序。

URL

http://knowledgeworks.cn:20314/probaseplus/pbapi/getentities?kw=**&start=**

Example

查询scientist的第1-50个实体(第一页)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getentities?kw=scientist&start=0
返回值:{"entity": [["galileo", 57.0], ["newton", 49.0], ...], "nument": 2157}
表示scientist在Probase中有2157个实体,其中权值从大到小前2个实体为galileo和newton。

查询 水果 的第1-50个实体(第一页)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getentities?kw=水果&start=0
返回值:{"entity": [["苹果", 2100], ["香蕉", 1321], ...], "nument": 1060}
表示水果在CN-Probase中有1060个实体,如 苹果,香蕉 等。