Skip to content

DataBase description

matuobasyouca edited this page Jun 19, 2013 · 5 revisions
表名 task
描述 任务表,爬虫入口
字段名称 类型 索引 备注
Id int(11) 主键
tid varchar(255) 任务ID,由turl MD5之后自动生成
tname varchar(255) 任务名称
turl varchar(255) 任务URL,入口
updatetime datetime 用于增量更新,记录上次更新时间
runable char(1) 任务是否运行
nextstart datetime 下次运行启动时间
sleeptime varchar(255) 休眠时间,单位分钟。(如本次运行10:00,设置为60,则下次运行时间为11:00)



表名 log
描述 日志表,保持每个URL访问的情况
字段名称 类型 索引 备注
Id int(11) 主键
runinfo varchar(255) 任务运行服务器的IP地址
beginTime datetime 开始运行时间
endTime datetime 结束运行时间
pageLength int(11) 页面字节数
urlSize int(11) 获取的待采集URL数量
convSize int(11) 获取的结果数据
url varchar(255) 本次采集的URL


表名 conversation
描述 结果表,保存最终抓取信息
字段名称 类型 索引 备注
Id int(11) 主键
title varchar(255) 标题
author varchar(255) 作者
publihTime datetime 发布时间
updateTime datetime 更新时间
mainLink varchar(255) 来源链接
elfLink varchar(255) 自身链接
content text 内容
mainLinkMd5 varchar(255) MD5之后可能作为唯一编码,目前未明确用法
elfLinkMd5 varchar(255) MD5之后可能作为唯一编码,目前未明确用法
iTopic bit(1) 是否主题
avetime datetime 保存时间
tid varchar(255) 任务ID
Clone this wiki locally