Probase是一个由微软亚洲研究院发布的一个英文Taxonomy(官方主页链接)。
其中包含有千万级别的概念和实体,以及千万级别的从语料中抽取的IsA关系:如apple isA fruit。
利用它,可以查询一个词的概念(上位词),如查询apple的概念,可以得到fruit,company等等。
或者查询一个词的包含实体(下位词),如查询physicist的实体,可以得到einstein,newton等等。
这样的查询在许多自然语言处理、语义分析中起到重要的作用。如有句子提及newton时,我们可以知道这句话是在描述一个person,或是描述一个physicist。
我们在Probase的基础上,进行了两个方面的工作:
输入一个英文或中文的实体或概念名,返回其概念列表,返回格式为json格式。
输入参数:kw-待查询的实体名或概念名,start-从第floor(start/50)*50个概念开始显示,用于翻页,默认为50个一页。如start=50会返回第50-100个概念。
返回值:一个json格式的utf-8编码字符串,numcon-该查询词在Probase/CN-Probase中所属的概念个数,concept-该查询词当页概念及权值的列表,按权值从大到小排序。
http://knowledgeworks.cn:20314/probaseplus/pbapi/getconcepts?kw=**&start=**
查询apple的第50-100个概念(第二页)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getconcepts?kw=apple&start=50
返回值:{"numcon": 2784, "concept": [["computer manufacturer", 19.0], ["healthy food", 18.0], ...]}
表示apple在Probase中有2784个概念,其中权值从大到小排第51个概念为computer manufacturer。
查询 航空母舰 的第1-50个概念(第一页)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getconcepts?kw=航空母舰&start=0
返回值:{"numcon": 73, "concept": [["船", 15], ...]}
表示航空母舰在CN-Probase中有73个概念,最具有代表性的概念是 船。
输入一个英文或中文的概念名,返回其包含的实体列表,返回格式为json格式。
输入参数:kw-待查询的概念名,start-从第floor(start/50)*50个概念开始显示,用于翻页,默认为50个一页。如start=50会返回第50-100个实体。
返回值:一个json格式的utf-8编码字符串,nument-该查询词在Probase/CN-Probase中包含的实体个数,entity-该查询词当页包含实体及权值的列表,按权值从大到小排序。
http://knowledgeworks.cn:20314/probaseplus/pbapi/getentities?kw=**&start=**
查询scientist的第1-50个实体(第一页)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getentities?kw=scientist&start=0
返回值:{"entity": [["galileo", 57.0], ["newton", 49.0], ...], "nument": 2157}
表示scientist在Probase中有2157个实体,其中权值从大到小前2个实体为galileo和newton。
查询 水果 的第1-50个实体(第一页)
http://knowledgeworks.cn:20314/probaseplus/pbapi/getentities?kw=水果&start=0
返回值:{"entity": [["苹果", 2100], ["香蕉", 1321], ...], "nument": 1060}
表示水果在CN-Probase中有1060个实体,如 苹果,香蕉 等。