首个大规模中文金融预训练语言模型,在涵盖公告,研报,论坛等多种来源的数百GB语料上进行训练,结合创新性的来源提示算法,在8个下游任务上超过Google T5 3%以上。
from transformers import AutoTokenizer, T5ForConditionalGeneration tokenizer = AutoTokenizer.from_pretrained("./path/to/FinMT5_base") model = T5ForConditionalGeneration.from_pretrained("./path/to/FinMT5_base")
将金融类新闻分类为公司(个股), 行业(板块), 大盘, 中国, 国际, 经济, 政策, 期货, 债券, 房地产, 外汇, 虚拟货币, 新冠, 能源,添加前缀中国或外国。
{{inpr_finnl}}
{{ret_finnl}}
自动对金融类新闻进行摘要。
{{inpr_finna}}
{{ret_finna}}
对目前中文Bert/Roberta的Tokenizer进行了更新,使其更符合中文任务,并在数百GB语料上训练,在CLUE分类任务上达到较好效果,部分任务有巨大提升。
from cetokenizer import CEBertTokenizer, CEBertTokenizerFast from transformers import BertTokenizer, BertModel, BertConfig tokenizer = CEBertTokenizerFast('vocab.txt') config = BertConfig.from_pretrained('hfl/chinese-roberta-wwm-ext') config.vocab_size = len(tokenizer.vocab) model = BertModel(config) model.load_state_dict(torch.load('kw_roberta_ce_v4.pt'), strict=False)