论坛 产品库 视频 专题 CIO俱乐部 Windows8 实验室 CMO俱乐部 案例

“海纳”互联网智能采编服务

发布时间:2012-01-12 14:23:00 来源:比特网 作者:海量
关键字:采编 海纳、海量 互联网 智能计算

  网站每天要发布大量的新闻资讯,在新闻的快速发现和高效转载方面的需求格外突出。目前,网站编辑的工作流程可概括为“找-转-编-发”四个环节。对于“找转编”这前三个环节,最初,网站采用人工拷贝粘贴的方式来完成。这种方式不仅效率低下,编辑工作枯燥,人工成本也较高。后来有些网站应用网络爬虫类软件,每天将新闻从不同网站抓取回本地,再供编辑选择使用。但仍然存在一些问题,如来源受限不能随意添加,对不属于抓取源的新闻仍需手工拷贝粘贴;更新周期长,不能达到编辑对新闻时效性的要求;需要针对每个网站进行模板配置,工作量大,且配置复杂,系统需要专门的维护人员。以目前的工作方式来看,前三个环节便占用网站编辑整个工作时间的95%,严重挤占了编辑用以思考制作原创内容、提升网站实力的宝贵时间。

  为有效帮助国内网站提高新闻发现速度、降低编辑手工操作工作量和技能要求、简化系统维护难度、削减运行成本,海量信息技术有限公司(以下简称“海量”)运用十余年技术积累,潜心研发出“海纳”互联网智能采编服务(以下简称“海纳”),为客户尤其是国内各大网站提供互联网资讯数据抓取、分析、加工的互联网在线技术服务。

  一、“海纳”互联网智能采编服务

  “海纳”互联网智能采编服务是一款为客户提供互联网资讯数据抓取、分析、加工的互联网在线技术服务。该产品在中央服务器集群上运行,通过连接互联网的客户端提供服务。中央服务集群包括机房、网络,由海量负责运营,客户通过购买的中央服务请求次数来获取“海纳”的服务。

  “海纳”基于海量网页结构化、文本语义分析、图像分析等多项国际领先的智能计算技术,实现网页一键转载、页面监控、多页自动合并、关键词摘要自动生成等多项功能。在降低成本的前提下为面向互联网的资讯收集、加工工作提供有力支持。

说明: C:\海纳产品线\海纳在线数据挖掘服务\销售工具\彩页\低成本-海纳逻辑部署图.jpg

  图为“海纳”互联网智能采编服务运行结构

  二、“海纳”功能简介

  “海纳”互联网智能采编服务有基本功能和可选功能两类。其中,基本功能包括:页面监控、转载和在线升级;可选功能包括:图片本地化组件、查重组件和新闻监测服务。

  1、基本功能

  (1)页面监控

  功能描述:用户可以添加多个日常关注的资讯列表页地址,客户端定时自动获取网页上新增的资讯标题及其链接,对雷同资讯进行折叠,并自动过滤无效链接。

说明: 智能高效-海纳监控

  功能特点:自动执行更新任务,每个监控页面可以单独设置更新周期;自动对监控页面之间相同的数据进行折叠,避免重复收录;对监控到的链接自动记录状态,自动标记新增数据;对重复(网页的内容相同)的网页不会反复下载;自动处理错误页,空页,转向页等。

  (2)转载

  功能描述:用户通过客户端将一个指定链接的资讯正文页提交至“海纳”中央服务,并自动获取中央服务对该资讯页的结构化数据处理结果(标题、正文、出处、作者、时间、正文图片及图片说明等),并根据设置以HTTP请求的方式提交到用户本地发布系统中。

说明: 海纳-编辑

  功能特点:Web页面版式分析:可以自动识别正文区域,提取资讯网页的内容标题、正文、出处、发布时间、作者、正文图片及图片说明等信息;基于内容的智能计算:自动生成关键词、摘要、语义指纹和分类标引(《中文新闻信息分类标准》一级分类);合并处理;支持从IE浏览器、页面监控客户端中激活并提交请求;支持多个网页一次性批量转载;支持多种CMS系统的连接:方正翔宇 4.0、TRS WCM 5.2/6.0、北方网 3.6/3.8、织梦、WordPress、PHPCMS、风讯、PHP168、新云、科讯、百容、帝国、动易等;支持HTTP POST方式提交处理结果;支持连接本地查重组件和图片本地化组件。

  (3)在线升级

  功能描述:客户端每次运行时自动检测新版本进行升级,用户也可以手动点击界面中的升级按钮进行升级。

  2、 可选功能

  (1)图片本地化组件

  功能描述:图片本地化组件是为了满足用户在发布数据的过程中,对图片资源的下载、调整、储存、发布的方面需求。

  功能特点:自动将图片下载到用户本地;根据用户设定,自动调整图片尺寸及文件大小;将图片分散存储到指定目录下;自动将图片链接转化为本地用户的发布链接;

  (2)查重组件

  功能描述:为“海纳”客户端收录的文本内容标记语义指纹,同时记录URL和相关的文本内容,根据URL和语义指纹判断是否在历史数据中存在,如果不存在,就记入历史数据,如果存在,就返回当时记录的URL、相关文本、登记时间,从而达到基于内容的查重的目的。

  功能特点:根据URL进行重复判断;根据内容的语义指纹进行重复判断;保存历史数据,支持亿级数据量;

  (3)新闻监测服务

  功能描述:为“海纳”客户提供针对资讯内容的自动内容标引服务,它可以针对预设的敏感词对文章内容进行扫描,从而自动过滤或提醒网站编辑进行确认处理,从而保障网站资讯采集业务的安全运行。

  功能特点:可以针对标题、正文、作者、出处等文字内容进行扫描;支持客户自定义敏感词;支持关键词的拆字变形、拼音变形、间隔变形等;与中心知识库保持实时同步,及时发现并处理突发事件;提供专用审核平台,可在平台中对命中的信息进行处理。

  三、“海纳”技术特点

  1、智能高效

  * 自动页面分析:自动提取标题、正文、发布时间、内容、图片、出处和作者;

  * 智能数据挖掘:智能生成关键词、摘要,自动多页合并,自动分类;

  * 高效信息处理:实时监控,快速转载,一键发布

  2、低成本

  * 节约硬件投入:海纳提供数百台大型服务器不间断运行;

  * 节约带宽投入:海纳提供双链路百兆带宽进行下载分析;

  * 无需维护人员:海纳提供专业维护人员全天候维护

  3、易用性高

  * 简单易用:界面简单,流程清晰,操作快捷;

  * 配置灵活:用户可随时调整监控地址、配置转载和过滤条件;

  * 无缝连接:自动加工处理的资讯直接进入用户原有编辑发布平台

  四、“海纳”功能特点

  五、“海纳”典型应用

  “海纳”服务主要用于日常进行资讯转载发布的互联网网站,提供资讯收集、汇总、分析服务的咨询机构,利用互联网进行知识情报收集的企业

  主要应用包括:

  * 合作网站新闻转载

  * 网站专题制作

  * 撰写新闻

  * 企业/竞争信息监控

  * 互联网资料收集/管理

  * 互联网信息采集

  * 素材库建设

  六、“海纳”对资讯网站的应用价值

  “海纳”互联网智能采编服务对于资讯网站的价值主要体现在解决方案、效率提升及成本下降三个方面。

  1、解决方案

  * “海纳”页面监控功能,实现快速发现新闻实时推送服务

  * “海纳”资讯转载功能,实现高效率转载

  * “海纳”信息智能加工功能,实现关键词、导读自动提示

  * 在线集中服务,实现免维护

  2、 效率提升

  * 监控页面比浏览网页寻找新闻消耗工作时间节省70%

  * 转载一篇新闻的操作次数由31次变为1次

  * 省去复制粘贴操作节省工作时间95%

  * 节省编辑大量用于人工添加新闻导读和关键词的时间

  * 编辑整个业务流程工作时间减少75%

  3、成本下降

  * 节省用户本地的专用服务器

  * 减少带宽消耗20%

  * 无需系统维护人员

  * 整体人工成本节约50%

  七、“海纳”优化编辑结构

  * 原创、精编、策划、专题 —— 加大高级编辑工作投入,有效提升网站竞争力

  * 采集转载、素材搜集 —— 提高基础编辑工作效率,缩减成本


比特微信账号
比特微信账号

微信扫一扫
关注Chinabyte

返回首页 长微博 返回顶部