《表4 患者咨询文本数据集(共2 830个)》
对于表3中的医生,首先分析其在表2中对应的患者咨询文本,发现每位患者的咨询文本数都在10以上,为避免患者咨询文本间字符数相差过大而对后续基于词向量的相似度计算造成影响,将所有患者的咨询文本进行截取,截取最靠前的文本(靠前的文本通常与患者需求关系较大),每个文本取前25个字符(计1个汉字或1个符号为1个字符,若文本字符数不足25则取整条文本)。每位医生对应患者数为5-30,200位医生共对应2 830位患者,得到2 830条字符数在10-25之间的咨询文本(据统计,2 830条咨询文本中长度最短的文本字符数为10)。此外,在截取字符时发现患者经常以日期开头,而日期表示的患者需求特征较少,故在截取前将其作为停用词去除(去除1-9等数字),患者咨询文本数据集如表4所示。
图表编号 | XD00139955800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.25 |
作者 | 叶佳鑫、熊回香、蒋武轩 |
绘制单位 | 华中师范大学信息管理学院、华中师范大学信息管理学院、华中师范大学信息管理学院 |
更多格式 | 高清、无水印(增值服务) |