《表9 数据字段及含义:基于Hadoop的大数据工程实践多层次教学设计》
(1)数据预处理。搜狗搜索日志数据的数据格式为中间以“\\t”分隔的文本类型,数据记录有500万条,其字段含义如表9所示。其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。
图表编号 | XD00210704400 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.25 |
作者 | 崔晓龙、张敏、郭茜、王小妹、张德政 |
绘制单位 | 北京科技大学计算机与通信工程学院、北京科技大学计算机与通信工程学院、北京科技大学材料领域知识工程北京市重点实验室、北京科技大学计算机与通信工程学院、北京科技大学材料领域知识工程北京市重点实验室、北京科技大学计算机与通信工程学院、北京科技大学计算机与通信工程学院、北京科技大学材料领域知识工程北京市重点实验室 |
更多格式 | 高清、无水印(增值服务) |