行业词库导入数据库 | 绵竹网络公司
8000万页游词库经过去重去噪筛选分类,我们终得到了一百多万的数据量。剩下的700万数据后期维护的时候可以再整整。
马上我们开始做关于手游的词库,趁这个时间点,写下关于词库维护的一点见解。
页游词库,我们得到了3个库,游戏库、平台库、其他,游戏库和平台库分别按页游的攻略、装备、礼包、开服、其他维度分类,其中”其他.txt”可以进行补充数据给其他维度,这里我们做页游词库的时候搞过一次。
页游词库后期,我们要结合数据库来。我们的目的很简单,得到一个游戏词,能查出他的游戏他的维度。起码90%的页游词都能覆盖到。
怎么做呢?关键是文件数据结构化!每一个词都是词根,跟游戏、攻略组合以逗号分隔,构成行数据。
页游数据库,需要做6张表:页游表、维度表、词库表、敏感词库表以及词库跟维度的关系表、和词库跟页游词库的关系表。
然后做数据导入,因为我们将前面的文件数据结构化了,所以我们可以根据行数据中页游词跟维度、游戏的关系分别导入数据库表中。
这样做,对于词库维护有什么帮助?
以后再做页游的seo项目,我们有大量的现成数据,覆盖面90%左右,可以马上用,后面还可以通过其他渠道补充数据:数据挖掘、流量统计软件等等,大大节省了我们数据采集、筛选等等大量耗时的中间环节!
【成都南奇网络】cdnanqi.cn推荐阅读
行业词库导入数据库 | 绵竹网络公司 https://cdnanqi.cn/mianzhu/1149.html