期末作业任务列表

文本分类任务

QBQTC-QQ浏览器搜索相关性数据集

下载数据集 (QBQTC.json)

QQ浏览器搜索引擎目前针对大搜场景构建的一个融合了相关性、权威性、内容质量、 时效性等维度标注的学习排序(LTR)数据集,广泛应用在搜索引擎业务场景中。

推荐检索关键词:Search Relevance Prediction, Query-Title Matching, Learning to Rank for Search (也可以使用其他的与该任务相关的关键词)

示例:

{"id": 0, "query": "小孩咳嗽感冒", "title": "小孩感冒过后久咳嗽该吃什么药育儿问答宝宝树", "label": "1"}
{"id": 1, "query": "前列腺癌根治术后能活多久", "title": "前列腺癌转移能活多久前列腺癌治疗方法盘点-家庭医生在线肿瘤频道", "label": "1"}
{"id": 3, "query": "如何将一个文件复制到另一个文件里", "title": "怎么把布局里的图纸复制到另外一个文件中去百度文库", "label": "0"}
{"id": 214, "query": "免费观看电影速度与激情1", "title": "《速度与激情1》全集-高清电影完整版-在线观看", "label": "2"}
{"id": 98, "query": "昆明公积金", "title": "昆明异地购房不能用住房公积金中新网", "label": "2"}
{"id": 217, "query": "多张图片怎么排版好看", "title": "怎么排版图片", "label": "2"}

相关性的含义:0,相关程度差;1,有一定相关性;2,非常相关。数字越大相关性越高。

AFQMC-蚂蚁金融语义相似度

下载数据集 (AFQMC.json)

每一条数据有三个属性,从前往后分别是 句子1,句子2,句子相似度标签。其中label标签,1 表示sentence1和sentence2的含义类似,0表示两个句子的含义不同。

推荐检索关键词:Sentence Semantic Matching, Paraphrase Identification, Semantic Textual Similarity (也可以使用其他的与该任务相关的关键词)

示例:

{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}

EPRSTMT-电商产品评论情感分析数据集

下载数据集 (EPRSTMT.json)

每一条数据有三个属性,从前往后分别是 id,sentence,label。其中label标签,Positive 表示正向,Negative 表示负向。

推荐检索关键词:Aspect-Based Sentiment Analysis, Product Review Sentiment Classification, Fine-grained Emotion Analysis (也可以使用其他的与该任务相关的关键词)

示例:

{"id": 23, "sentence": "外包装上有点磨损,试听后感觉不错", "label": "Positive"}

CSLDCP-中文科学文献学科分类数据集

下载数据集 (CSLDCP.json)

中文科学文献学科分类数据集,包括67个类别的文献类别,这些类别来自于分别归属于13个大类,范围从社会科学到自然科学,文本为文献的中文摘要。

每一条数据有三个属性,从前往后分别是 id,sentence,label。其中label标签,Positive 表示正向,Negative 表示负向。

推荐检索关键词:Scientific Document Classification, Academic Paper Subject Classification, Discipline-specific Text Classification (也可以使用其他的与该任务相关的关键词)

示例:

{"content": "通过几年的观察和实践,初步掌握了盆栽菊花的栽培技术及方法,并进行了总结,以满足人们对花卉消费的需求,提高观赏植物的商品价值,为企业化生产的盆菊提供技术指导。","label": "园艺学", "id": 1770}
{"content": "GPS卫星导航定位精度的高低很大程度上取决于站星距离(即伪距)的测量误差.载波相位平滑伪距在保证环路参数满足动态应力误差要求的基础上。。。本文详细论述了载波相位平滑伪距的原理和工程实现方法,并进行了仿真验证.", "label": "航空宇航科学与技术", "id": 979}

TNEWS-今日头条中文新闻(短文本)分类数据集

下载数据集 (TNEWS.json)

该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游、教育、金融、军事等。

每一条数据有三个属性,从前往后分别是 分类ID,分类名称,新闻字符串(仅含标题)。

推荐检索关键词:Short Text Classification, News Topic Classification, Headline-based Topic Labeling (也可以使用其他的与该任务相关的关键词)

示例:

{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"}

IFLYTEK-长文本分类数据集

下载数据集 (IFLYTEK.json)

该数据集关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别:"打车":0,"地图导航":1,"免费WIFI":2,"租车":3,….,"女性":115,"经营":116,"收款":117,"其他":118(分别用0-118表示)。

每一条数据有三个属性,从前往后分别是 类别ID,类别名称,文本内容。

推荐检索关键词:Long-document Classification, App Description Categorization, Hierarchical Text Classification (也可以使用其他的与该任务相关的关键词)

示例:

{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}

OCNLI-中文原版自然语言推理数据集

下载数据集 (OCNLI.json)

OCNLI,即原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。

每条数据中有用的三个属性为:sentence1(句子1),sentence2(句子2),label表示句子1与句子2之间的关系,有三种取值contradiction(矛盾)、entailment(蕴含)、neutral(无关),其他字段值可以忽略。

推荐检索关键词:Natural Language Inference, Textual Entailment, Sentence Pair Classification (也可以使用其他的与该任务相关的关键词)

示例:

{
"level":"medium",
"sentence1":"身上裹一件工厂发的棉大衣,手插在袖筒里",
"sentence2":"身上至少一件衣服",
"label":"entailment","label0":"entailment","label1":"entailment","label2":"entailment","label3":"entailment","label4":"entailment",
"genre":"lit","prem_id":"lit_635","id":0
}

BUSTM-小布助手对话短文本匹配数据集

下载数据集 (BUSTM.json)

对话短文本语义匹配数据集,源于小布助手。它是OPPO为品牌手机和IoT设备自研的语音助手,为用户提供便捷对话式服务。 意图识别是对话系统中的一个核心任务,而对话短文本语义匹配是意图识别的主流算法方案之一。要求根据短文本query-pair,预测它们是否属于同一语义,1表示语义相同,0表示语义不同。

推荐检索关键词:Dialogue Intent Matching, Short Text Semantic Matching, Spoken Language Understanding (也可以使用其他的与该任务相关的关键词)

示例:

{"id": 5, "sentence1": "女孩子到底是不是你", "sentence2": "你不是女孩子吗", "label": "1"}
{"id": 18, "sentence1": "小影,你说话慢了", "sentence2": "那你说慢一点", "label": "0"}

阅读理解任务

ChID-成语阅读理解填空

下载数据集 (ChID.json)

以成语完形填空形式实现,文中多处成语被遮盖,#idiom#表示应该填充成语的位置,候选项中包含了近义的成语。

推荐检索关键词:Cloze-style Machine Reading Comprehension, Idiom Cloze Test, Commonsense Reasoning for MRC (也可以使用其他的与该任务相关的关键词)

示例:

{"id": 1421, "candidates": ["巧言令色", "措手不及", "风流人物", "八仙过海", "平铺直叙", "草木皆兵", "言行一致"],
"content": "当广州憾负北控,郭士强黯然退场那一刻,CBA季后赛悬念仿佛一下就消失了,可万万没想到,就在时隔1天后,北控外援约瑟夫-杨因个人裁决案(拖欠上一家经纪公司的费用),
导致被禁赛,打了马布里一个#idiom#,加上郭士强带领广州神奇逆转天津,让...", "answer": 1}

CMRC2018-简体中文阅读理解任务

下载数据集 (CMRC2018.json)

根据context的内容,回答questions。

每条数据包含一个context,以及多个根据context出的question,每个question包含三个正确的候选answer,你系统输出的answer只要与任意一个正确answer相同,即可视为系统输出了正确答案。

推荐检索关键词:Extractive Question Answering, Machine Reading Comprehension, Span-based Question Answering (也可以使用其他的与该任务相关的关键词)

示例:

{
    "paragraphs": [
        {
            "id": "DEV_0",
            "context": "《战国无双3》()是由光荣和ω-force开发的战国无双系列的正统第三续作。本作以三大故事为主轴,分别是以武田信玄等人为主的《关东三国志》,织田信长等人为主的《战国三杰》,石田三成等人为主的《关原的年轻武者》,丰富游戏内的剧情。此部份专门介绍角色,欲知武器情报、奥义字或擅长攻击类型等,请至战国无双系列1.由于乡里大辅先生因故去世,不得不寻找其他声优接手。从猛将传 and Z开始。2.战国无双 编年史的原创男女主角亦有专属声优。此模式是任天堂游戏谜之村雨城改编的新增模式。本作中共有20张战场地图(不含村雨城),后来发行的猛将传再新增3张战场地图。但游戏内战役数量繁多,部分地图会有兼用的状况,战役虚实则是以光荣发行的2本「战国无双3 人物真书」内容为主,以下是相关介绍。(注:前方加☆者为猛将传新增关卡及地图。)合并本篇和猛将传的内容,村雨城模式剔除,战国史模式可直接游玩。主打两大模式「战史演武」&「争霸演武」。系列作品外传作品",
            "qas": [
                {
                    "question": "《战国无双3》是由哪两个公司合作开发的?",
                    "id": "DEV_0_QUERY_0",
                    "answers": [
                        { "text": "光荣和ω-force", "answer_start": 11 },
                        { "text": "光荣和ω-force", "answer_start": 11 },
                        { "text": "光荣和ω-force", "answer_start": 11 }
                    ]
                },
                {
                    "question": "男女主角亦有专属声优这一模式是由谁改编的?",
                    "id": "DEV_0_QUERY_1",
                    "answers": [
                        { "text": "村雨城", "answer_start": 226 },
                        { "text": "村雨城", "answer_start": 226 },
                        { "text": "任天堂游戏谜之村雨城", "answer_start": 219 }
                    ]
                },
                {
                    "question": "战国史模式主打哪两个模式?",
                    "id": "DEV_0_QUERY_2",
                    "answers": [
                        { "text": "「战史演武」&「争霸演武」", "answer_start": 395 },
                        { "text": "「战史演武」&「争霸演武」", "answer_start": 395 },
                        { "text": "「战史演武」&「争霸演武」", "answer_start": 395 }
                    ]
                }
            ]
        }
    ],
    "id": "DEV_0",
    "title": "战国无双3"
}

C3-中文多选阅读理解

下载数据集 (C3.json)

中文多选阅读理解数据集,包含对话和长文等混合类型数据集。

每条数据包含一组对话或者一段长文本,一个或者多个question,每个question对应的answer,正确的answer可能是choice中的一个或者多个选项。

推荐检索关键词:Multiple-choice Question Answering, Conversational Question Answering, Dialogue-based Reading Comprehension (也可以使用其他的与该任务相关的关键词)

示例:

[
    [
        "男:晓奇让我到会议室去开会,到了那儿,结果一个人也没有。",
        "女:你忘了,今天可是愚人节呀。"
    ],
    [
        {
            "question": "我们从对话里可以知道什么?",
            "choice": [
                "会议已结束了",
                "开会时间变了",
                "开会地点改了",
                "晓奇在开玩笑"
            ],
            "answer": "晓奇在开玩笑"
        }
    ],
    "49-119"
]

CSL-论文关键词识别

下载数据集 (CSL.json)

中文科技文献数据集(CSL)取自中文论文摘要及其关键词,论文选自部分中文社会科学和自然科学核心期刊,任务目标是根据摘要判断关键词是否全部为真实关键词(真实为1,伪造为0)。

每一条数据有四个属性,从前往后分别是 数据ID,论文摘要,关键词,真假标签。

推荐检索关键词:Keyphrase Identification, Scientific Keyword Verification, Document-Keyword Matching (也可以使用其他的与该任务相关的关键词)

示例:

{"id": 1, "abst": "为解决传统均匀FFT波束形成算法引起的3维声呐成像分辨率降低的问题,该文提出分区域FFT波束形成算法.远场条件下,
以保证成像分辨率为约束条件,以划分数量最少为目标,采用遗传算法作为优化手段将成像区域划分为多个区域.在每个区域内选取一个波束方向,
获得每一个接收阵元收到该方向回波时的解调输出,以此为原始数据在该区域内进行传统均匀FFT波束形成.对FFT计算过程进行优化,降低新算法的计算量,
使其满足3维成像声呐实时性的要求.仿真与实验结果表明,采用分区域FFT波束形成算法的成像分辨率较传统均匀FFT波束形成算法有显著提高,且满足实时性要求.",
"keyword": ["水声学", "FFT", "波束形成", "3维成像声呐"], "label": "1"}

CLUEWSC-WSC Winograd模式挑战中文版

下载数据集 (CLUEWSC.json)

Winograd Scheme Challenge(WSC)是一类代词消歧的任务,即判断句子中的代词指代的是哪个名词。题目以真假判别的方式出现,如:
句子:这时候放在[床]上[枕头]旁边的[手机]响了,我感到奇怪,因为欠费已被停机两个月,现在[它]突然响了。需要判断“它”指代的是“床”、“枕头”,还是“手机”?
从中国现当代作家文学作品中抽取,再经语言专家人工挑选、标注。

"true"表示代词确实是指代span1_text中的名词的,"false"代表不是。

推荐检索关键词:Coreference Resolution, Winograd Schema Challenge, Pronoun Disambiguation (也可以使用其他的与该任务相关的关键词)

示例:

{"target": 
    {"span2_index": 37, 
    "span1_index": 5, 
    "span1_text": "床", 
    "span2_text": "它"}, 
"idx": 261, 
"label": "false", 
"text": "这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。"}

命名实体识别任务

Fine-Grain-NER-细粒度命名实体识别

下载数据集 (Fine-Grain-NER.json)

数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene)。标签定义如下:

数据分为两部分,text代表文本,label代表文本中出现的所有包含在10个类别中的实体。

推荐检索关键词:Fine-grained Named Entity Recognition, Nested Named Entity Recognition, Entity Typing (也可以使用其他的与该任务相关的关键词)

示例:

{
"text": "北京勘察设计协会副会长兼秘书长周荫如",
"label": {"organization": {"北京勘察设计协会": [[0, 7]]}, "name": {"周荫如": [[15, 17]]}, "position": {"副会长": [[8, 10]], "秘书长": [[12, 14]]}}
}

其中,organization,name,position代表实体类别,"organization": {"北京勘察设计协会": [[0, 7]]}:表示原text中,"北京勘察设计协会" 是类别为 "组织机构(organization)" 的实体, 并且start_index为0,end_index为7 (注:下标从0开始计数)。"name": {"周荫如": [[15, 17]]}:表示原text中,"周荫如" 是类别为 "姓名(name)" 的实体, 并且start_index为15,end_index为17。"position": {"副会长": [[8, 10]], "秘书长": [[12, 14]]}:表示原text中,"副会长" 是类别为 "职位(position)" 的实体, 并且start_index为8,end_index为10,同时,"秘书长" 也是类别为 "职位(position)" 的实体,并且start_index为12,end_index为14。