一种搜索方法及系统

摘要

本发明提供一种搜索方法,包括以下步骤:为搜索词库中具有时间节点特征的关键词设定特征时间点;接收用户的搜索请求,同时提取所述用户的当前时间;在所述搜索词库中定位所述搜索请求中的关键词所对应的特征时间点;根据用户当前时间和所述特征时间点之间的关系,对所述搜索请求进行扩展,生成扩展搜索请求;根据所述扩展搜索请求进行搜索,并得到搜索结果;将所述搜索结果输出。相应的,本发明还提供一种使用该方法的系统。本发明可以实现更有针对性、更高效的信息检索结果呈现。

描述

一种搜索方法及系统

技术领域

[0001] 本发明涉及网络技术领域,具体地说涉及一种搜索方法及系统。

背景技术

[0002] 随着互联网技术和应用的普及发展,互联网逐渐融入了人们的日常生活,并成为人们工作、学习、娱乐中不可或缺的一部分,人们越来越习惯于通过网络获取信息。

[0003] 现有的搜索引擎中对于泛化的关键字,比如天气预报,电视剧,笔记本电脑等等,返回给用户的结果大部分是链接的形式,不能在第一时间内提供给用户有效的信息。因此目前一些搜索引擎对传统的搜索方式进行了改进,可以将用户搜索的信息通过数据平台和应用平台的处理直接在搜索结果页返回给用户。

[0004] 但是对于有特定时间维度的事件,目前的搜索引擎并不能根据事件发展提供实时的信息更新。例如,在目前的搜索引擎技术中,用户同样都是使用关键词“世界杯”进行检索,但其实用户在世界杯开始前、进行中和结束后想要得到的检索结果并不相同。例如,在世界杯开始前,用户想要得到的可能是本届世界杯的举办地的风土人情、分组情况、各个小组的队伍训练状况等;在比赛中,可能就需要查询已经比赛的各个场次的比分、进球球员、视频回放等;比赛结束后就需要看到冠军得主介绍、金球奖或金靴奖得主介绍等等。但是,对特定时间维度范围内出现的事件进行有针对性的搜索结果提供目前还无法做到。

[0005] 因此需要一种新型的搜索方法,该方法可以根据用户对某一事件的搜索时间即用户的搜索需求的发起时间,自动判定需要展现的数据,在事件发生的不同时刻给予用户不同的搜索结果。实现更有针对性、更高效的信息检索结果呈现。

发明内容

[0006] 本发明提供一种搜索方法,用于实现更有针对性、更高效的信息检索结果呈现。

[0007] 根据本发明的一个方面,提供一种搜索方法,其特征在于,包括以下步骤:

[0008] a)为搜索词库中具有时间节点特征的关键词设定特征时间点;

[0009] b)接收用户的搜索请求,同时提取所述用户的当前时间;

[0010] c)在所述搜索词库中定位所述搜索请求中的关键词所对应的特征时间点;

[0011] d)根据用户当前时间和所述特征时间点之间的关系,对所述搜索请求进行扩展,生成扩展搜索请求;

[0012] e)根据所述扩展搜索请求进行搜索,并得到搜索结果;

[0013] f)将所述搜索结果输出。

[0014] 根据本发明的另一个方面,提供一种搜索系统,其中,包括:

[0015] 设定装置,用于为搜索词库中具有时间节点特征的关键词设定特征时间点;

[0016] 提取装置,用于接收用户的搜索请求,同时提取所述用户的当前时间;

[0017] 定位装置,用于在所述搜索词库中定位所述搜索请求中的关键词所对应的特征时间点;[0018] 扩展装置,用于根据用户当前时间和所述特征时间点之间的关系,对所述搜索请求进行扩展,生成扩展搜索请求;

[0019] 搜索装置,用于根据所述扩展搜索请求进行搜索,并得到搜索结果;

[0020] 输出装置,用于将所述搜索结果输出。

[0021] 本发明提供的搜索方法及系统,通过对有特定时间节点特征的关键词设定关键时间点,并根据该特定时间点与从用户搜索请求中提取的用户当前时间之间的关系对用户搜索请求进行扩展。通过扩展搜索请求可有效缩小搜索结果的范围,将搜索结果锁定在最接近用户实际需求的范围内,从而提高搜索精确度。通过本发明的方法及系统,可以对特定时间维度范围内出现的事件提供有针对性的搜索结果。

附图说明

[0022] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

[0023] 图1为根据本发明提供的一种搜索方法的一种具体实施方式的流程示意图;

[0024] 图2为根据本发明提供的一种搜索方法的一种具体实施方式的步骤a)的流程示意图;

[0025] 图3为根据本发明提供的一种搜索方法的一种具体实施方式的步骤d)的流程示意图;

[0026] 图4为根据本发明提供的一种搜索方法的一种具体实施方式的搜索结果输出的屏幕截图。

[0027] 图5为根据本发明提供的一种搜索方法的另一种具体实施方式的搜索结果输出的屏幕截图。

[0028] 图6为根据本发明提供的一种搜索系统的一种具体实施方式的示意图;

[0029] 图7为根据本发明提供的一种搜索系统的一种具体实施方式中设定装置的示意图;

[0030] 图8为根据本发明提供的一种搜索系统的另一种具体实施方式的示意图;

[0031] 图9为根据本发明提供的一种搜索系统的一种具体实施方式中提取装置的示意图。

[0032] 附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

[0033] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施例作详细描述。

[0034] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

[0035] 下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

[0036] 如图1所示,图1为根据本发明提供的搜索方法的一个具体实施方式的流程示意图,包括步骤SlOl〜S106,下面结合具体的实施例对图1所示的方法进行说明。

[0037] 步骤S101,为搜索词库中具有时间节点特征的关键词设定特征时间点。随着搜索引擎技术的不断发展,越来越多的查询请求不断涌入到搜索引擎中。为了为用户提供更好更精确的查询结果,对于不同的查询关键词会进行不同的处理。本发明中,主要针对具有时间节点特征的关键词进行处理。这类具有时间点特征的关键词一般具有起始和结束时间,例如:体育比赛、电影上映、选秀活动等。因此,通常情况下,起始和结束时间点就是具有时间点特征的关键词的两个特征时间点,当然还可以具有多个其他特征时间点。

[0038] 例如:用户使用“世界杯”作为关键词进行搜索,通过一系列分析可以得知,赛事开始前用户主要关注一些赛程发布、开幕式、门票、周边新闻等消息;赛事开始后,需求集中到视频观看、赛程、赛果、积分榜、赛事球员新闻等需求上;赛事结束后主要为视频回放、新闻等需求。因此,对于关键词“世界杯”来说,特征时间点即为开幕时间和闭幕时间。当然根据世界杯赛程的推进,还可以将其特征时间点的设置更为细化。例如细化到每场比赛,比如揭幕战的开始时间、结束时间。

[0039] 再如:电影“变形金刚3”上映前,用户关心的是该电影的基本信息、片花视频、上映时间、演员介绍等;上映中关心是否可以观看、影院信息、影评内容;上映后关心在线观看资源,相关讨论等。因此对于关键词“变形金刚3”来说,其特征时间点即为上映时间和结束上映的时间。

[0040] 可选的,通过跟踪用户搜索关键词,并对搜索结果选择性的变化,确定这些关键词的特定时间点。例如对“超级女声”比赛来说,分为很多场比赛,如果用户对关键词“超级女声”进行搜索,但是在返回的搜索结果中,对某一场比赛的点击率很高,你们可以将此场次的比赛开始时间、结束时间设定为关键词“超级女声”的特征时间点。

[0041] 可选的,为了进一步对关键词进行有效管理,可以根据不同的属性,将不同的关键词进行分类。针对一些典型需求对具有时间节点特征的关键词建立特定的子词库例如:赛事名称子词库、影视名称子词库、突发事件子词库、常规事件子词库等。这些子词库并非一成不变,而是根据实际情况随时更新;同时,与一些专门的垂直资源站建立数据接入。例如某电影或者电视剧开始上映或者首播时,甚至在该电影或电视剧筹拍时就已经将与之相关的关键词引入到影视名称子词库中。

[0042] 如图2所示,基于上述的子词库,步骤SlOl还可以进一步包括以下两个步骤:

[0043] 步骤S101-1,建立各子词库的特征时间点模型。例如,赛事名称子词库的特征时间点模型通常是赛事开始时间、结束时间,根据不同的赛事,还有半场休息时间以及休息结束时间或者比赛中某一节的开始时间点、结束时间点。突发事件子词库的特征时间点模型中,特征时间点通常包括开始时间点,间隔时间点,通常间隔时间点为I小时,即每小时定位一个特征时间点,其与赛事名称子词库的特征时间点模型的区别在于没有结束时间点。

[0044] 具体来说,比如乒乓球比赛,那么其开始时间点,即第一局的开始时间、第一局结束时间,第二局开始时间……以及第七局的结束时间点。而游泳比赛通常就是开始时间点、结束时间点。

[0045] 步骤S101-2,根据所述特征时间点模型为各子词库中的关键词设定特征时间点。有了模型,针对具体的关键词就可以特征时间点进行设定了。例如,针对乒乓球比赛,只需按上一步骤的要求,输入具体时间即可。

[0046] 可选的,所述词库和/或所述特征时间点由内容提供方进行更新。例如当有新的事件出现时,那么该事件的内容提供方会将与该事件相关的关键词更新至词库。

[0047] 步骤S102,接收用户的搜索请求,同时提取所述用户的当前时间。由于用户搜索的关键词具有时间特性,因此为了提供更加匹配的搜索结果,用户的当前时间也至关重要。在接收到用户的搜索请求之后,即会获取到用户的浏览器信息,通过对该信息进行分析,即可得到用户所在时区的时间信息,即用户的当前时间。另外,也可以通过用户的IP地址判断其所处时区位置,而以该时区的标准时间作为该用户的当前时间。

[0048] 步骤S103在所述搜索词库中定位所述搜索请求中的关键词所对应的特征时间点。优选的,可以先定位搜索请求中关键词所在的子词库,再在子词库中对所述关键词进行查找,最后定位其所对应的特征时间点。当然,也可以在搜索词库中直接定位器特征时间点。

[0049] 例如搜索请求中的关键词是“蓝精灵”,那么可以先定位在影视名称子词库,之后在该子词库中查询“蓝精灵”,最后找出子词库中“蓝精灵”的特征时间点。采用更细化的搜索步骤,可以使得定位过程更快速、定位结果更精确。

[0050] 步骤S104,根据用户当前时间和所述特征时间点之间的关系,对所述搜索请求进行扩展,生成扩展搜索请求。为了搜索结果的精确性,通常将用户当前时间和特征时间点信息进行匹配,生成扩展搜索请求。搜索条件的增加,会缩小搜索结果的范围,以此提高搜索结果准确性。

[0051] 如图3所示,步骤S104进一步包括:

[0052] 步骤S104-1,根据所述用户的当前时间,确定所述用户的当前时间处于何种时间区间,例如哪两个相邻的特征时间点之间的时间区间。

[0053] 例如,搜索关键词“蓝精灵”,“蓝精灵”的特征时间点是2011年8月10日、2011年8月20日。当用户的当前时间是2011年8月13日,那么可以得出,用户当前时间正好处于这两个特征时间点之间的区间。当用户的当前时间是2011年8月31日,那么可以得出,用户当前时间处于第二个特征时间点之后。在此可以理解,在此“区间”意指由特征时间点划分的事件所在的时间轴的各段。其可能是最早的特征时间点之前、两个特征时间点之间以及最后的特征时间点之后。

[0054] 步骤S104-2,将所述时间区间加入所述搜索请求,生成扩展搜索请求。

[0055] 将步骤S104-1确定的时间区间扩展到搜索请求中去,生成扩展搜索请求。扩展搜索请求中不光带有用户搜索的关键词,还有该关键词所处的特征时间区间。

[0056] 步骤S105,根据所述扩展搜索请求进行搜索,并得到搜索结果。根据扩展搜索请求在资源数据库和/或网页中进行搜索。在资源数据库中进行搜索,可以搜索到的结果特型展示结果,而在网页中进行搜索,搜索结果即为URL网址。

[0057] 例如,用户在2011年8月7号搜索关键词“蓝精灵”,那么步骤S104对关键词进行扩展后,在步骤S105中对扩展搜索请求进行搜索后,根据搜索源的不同,可得到不同的结果。例如,在资源数据库和网页中同时进行搜索,会得到特型展示结果和URL结果两项。

[0058] 步骤S106,将所述搜索结果输出,如图4所示。在搜索结果输出页面中,将特型展示结果进行展示,并将URL结果的网址信息也进行展示。图4所示的展示方式仅为举例,还可以仅为特型展示结果展示或仅为URL结果。另外,特型展示结果并不限于内容展示型,还可以为应用结果,如图5所示。

[0059] 图6为根据本发明提供的一种搜索系统10的示意图。该系统10包括:设定装置11,提取装置12,定位装置13,扩展装置14,搜索装置15和输出装置16。

[0060] 设定装置11为搜索词库中具有时间节点特征的关键词设定特征时间点。随着搜索引擎技术的不断发展,越来越多的查询请求不断涌入到搜索引擎中。为了为用户提供更好更精确的查询结果,对于不同的查询关键词会进行不同的处理。本发明中,主要针对具有时间节点特征的关键词进行处理。这类具有时间点特征的关键词一般具有起始和结束时间,例如:体育比赛、电影上映、选秀活动等。因此,通常情况下,起始和结束时间点就是具有时间点特征的关键词的两个特征时间点,当然还可以具有多个其他特征时间点。

[0061] 例如:用户使用“NBA”作为关键词进行搜索,通过一系列分析可以得知,赛季开始前用户主要关注一些赛程发布、门票、球员交易、季前赛等消息;常规赛开始后,需求集中到视频观看、赛果、积分榜、球员得分榜等需求上;总决赛结束后主要为视频回放、新闻等需求。因此,对于关键词“NBA”来说,特征时间点即为常规赛开始时间和总决赛结束时间。当然根据赛程的推进,还可以将其特征时间点的设置更为细化。例如细化到季前赛开始时间点、结束时间点;常规赛开始时间点、结束时间点;季后赛开始时间点、结束时间点;东西部总决赛的开始时间点、结束时间点;总决赛的开始时间点、结束时间点。进一步的,还可以更为细化,例如,总决赛可以细化为七场比赛,每场比赛又可以细化为4节等等。

[0062] 可选的,为了进一步对关键词进行有效管理,设定装置11还可以根据不同的属性,将不同的关键词进行分类。针对一些典型需求对具有时间节点特征的关键词建立特定的子词库例如:赛事名称子词库、影视名称子词库、突发事件子词库、常规事件子词库等。这些子词库并非一成不变,而是根据实际情况随时更新;同时,与一些专门的垂直资源建立数据接入。例如某电影或者电视剧开始上映或者首播时,甚至在该电影或电视剧筹拍时就已经将与之相关的关键词引入到影视名称子词库中。

[0063] 如图7所示,设定装置11进一步包括模型建立模块111和特征时间点设定模块112。

[0064] 模型建立模块111用于建立各子词库的特征时间点模型。例如,赛事名称子词库的特征时间点模型通常是赛事开始时间、结束时间,根据不同的赛事,还有半场休息时间以及休息结束时间或者比赛中某一节的开始时间点、结束时间点。突发事件子词库的特征时间点模型中,特征时间点通常包括开始时间点,间隔时间点,通常间隔时间点为I小时,即每小时定位一个特征时间点,其与赛事名称子词库的特征时间点模型的区别在于没有结束时间点。

[0065] 具体来说,比如乒乓球比赛,那么其开始时间点,即第一局的开始时间、第一局结

束时间,第二局开始时间……以及第七局的结束时间点。而游泳比赛通常就是开

始时间点、结束时间点。

[0066] 特征时间点设定模块112用于根据所述特征时间点模型为各子词库中的关键词设定特征时间点。有了模型,针对具体的关键词就可以特征时间点进行设定了。

[0067] 可选的,系统10还包括更新装置17,用于接收内容提供方对所述词库和/或所述特征时间点提供的更新,如图8所示。当有新的事件出现时,那么该事件的内容提供方会将与该事件相关的关键词提供至词库,而更新装置17则接收内容提供方提供对于词库和/或特征时间点的更新。例如,出现了一个新的电影“哈利波特10”,那么当内容提供方会将关键词“哈利波特10”和其对应的特征时间点更新至系统10,有更新装置17进行更新。

[0068] 提取装置12用于接收用户的搜索请求,同时提取所述用户的当前时间。由于用户搜索的关键词具有时间特性,因此为了提供更加匹配的搜索结果,用户的当前时间也至关重要。在接收到用户的搜索请求之后,提取装置12即会获取到用户的浏览器信息,通过对该信息进行分析,即可得到用户所在时区的时间信息,即用户的当前时间。

[0069] 定位装置13用于在所述搜索词库中定位所述搜索请求中的关键词所对应的特征时间点。优选的,可以先定位搜索请求中关键词所在的子词库,再在子词库中对所述关键词进行查找,最后定位其所对应的特征时间点。当然,也可以在搜索词库中直接定位器特征时间点。

[0070] 例如搜索请求中的关键词是“还珠格格”,那么可以先定位在影视名称子词库,之后在该子词库中查询“还珠格格”,最后找出子词库中“还珠格格”的特征时间点。采用更细化的搜索步骤,可以使得定位过程更快速、定位结果更精确。

[0071] 扩展装置14用于根据用户当前时间和所述特征时间点之间的关系,对所述搜索请求进行扩展,生成扩展搜索请求。为了搜索结果的精确性,通常将用户当前时间和特征时间点信息进行匹配,生成扩展搜索请求。搜索条件的增加,会缩小搜索结果的范围,以此提高搜索结果准确性。

[0072] 如图9所示,扩展装置14进一步包括:确定装置141,用于根据所述用户的当前时间,确定所述用户的当前时间处于哪两个相邻的特征时间点之间的时间区间。例如,搜索关键词“蓝精灵”,用户的当前时间是2011年8月13日,而“蓝精灵”的特征时间点是2011年8月10日、2011年8月20日。那么可以得出,用户当前时间正好处于这两个特征时间点之间的区间。

[0073] 生成装置142,用于将所述时间区间加入所述搜索请求,生成扩展搜索请求。将确定装置141确定的时间区间扩展到搜索请求中去,生成扩展搜索请求。扩展搜索请求中不光带有用户搜索的关键词,还有该关键词所处的特征时间区间。

[0074] 搜索装置15,用于根据所述扩展搜索请求进行搜索,并得到搜索结果。根据扩展搜索请求在资源数据库和/或网页中进行搜索。在资源数据库中进行搜索,可以搜索到的结果特型展示结果,而在网页中进行搜索,搜索结果即为URL网址。

[0075] 输出装置16,用于将所述搜索结果输出。在搜索结果输出页面中,输出装置16将特型展示结果进行展示,并将URL结果的网址信息也进行展示。输出结果可以为特型展示结果展示或仅为URL结果,还可以为二者结合。另外,特型展示结果并不限于内容展示型,还可以为应用结果。

[0076] 采用本发明的方法和系统,可以在用户对某一具有时间节点的关键词进行搜索时,通过对搜索请求的扩展,为用户提供更精确、更匹配的搜索结果。

[0077] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此夕卜,显然“包括” 一词不排除其他模块或步骤,单数不排除复数。


企业搜索引擎装置

摘要

一种企业搜索引擎装置,包括用户机、应用服务器、负载均衡服务器、管理服务器、目录服务器、至少一台搜索服务器、至少一台索引服务器,所述用户机连接到所述应用服务器上,所述应用服务器连接到所述负载均衡服务器上,所述负载均衡服务器分别连接到所述至少一台搜索服务器,所述搜索服务器分别连接一索引服务器。本实用新型企业搜索引擎装置的优点在于:该企业搜索引擎装置构建了一个企业搜索的平台,企业用户通过该企业搜索引擎装置,可以处理各种数据源,包括各种结构化数据和非结构化数据。

描述

企业搜索引擎装置

【技术领域】本实用新型是关于一种互联网装置,特别是指一种企业搜索引擎装置。 

【背景技术】搜索改变了人们的生活,计算机使用者若想要找资料,比如,找酒店或者饭店,首先想到去网上进行搜索,目前最常用的搜索引擎为百度、Google等几 家大的搜索引擎。但是对于公司员工,若要找一篇公司的发文或者规章制度, 则无法用百度或者Google去搜。即,百度、Google这些搜索是互联网搜索, 无法满足企业内部的搜索需求。企业内部数据分别存放在数据库,以及以邮件、网页,以及各种格式的文 档的方式存放。其中,企业中有15%的数据是存放在数据库中的数据,称之为 结构化的数据,这部分数据可以用数据库进行管理,处理。另外有85%的数据 没有存放在数据库中,而是以邮件、网页,以及各种格式的文档的方式存放, 称之为非结构化的数据,数据库对这些数据的处理则无能为力。因为这些数据 不能用数据库进行管理,企业的员工只能手动去见检索,去管理,也因此占用了 大量的工作时间。因此,企业需要一个同时可以处理结构化数据和非结构化数据的企业搜索 引擎装置。

 【实用新型内容】本实用新型所要解决的技术问题在于提供一种可以同时处理结构化数据 和非结构化数据的企业搜索引擎装置。本实用新型是通过以下技术方案解决上述技术问题的: 一种企业搜索引擎 装置,包括用户机、应用服务器、负载均衡服务器、管理服务器、目录服务器、 至少一台搜索服务器、至少一台索引服务器,所述用户机连接到所述应用服务 器上,所述应用服务器连接到所述负载均衡服务器上,所述负载均衡服务器分别连接到所述至少 一 台搜索服务器,所述搜索服务器分别连接一索引服务器。 所述用户机是便携式计算机、个人电脑,或者移动设备。本实用新型企业搜索引擎装置的优点在于:该企业搜索引擎装置构建了一 个企业搜索的平台,企业用户通过该企业搜索引擎装置,可以处理各种数据源, 包括各种结构化数据和非结构化数据。 

【附图说明】下面参照附图结合实施例对本实用新型作进一步的描述。 图l是本实用新型企业搜索引擎装置连接图。

 【具体实施方式】请参阅图l所示,企业搜索引擎装置包括用户机、应用服务器、负载均衡 服务器、管理服务器、目录服务器、第一搜索服务器、第一索引服务器、第二 搜索服务器、第二索引服务器、第三搜索服务器、第三索引服务器。其中用户机可以是便携式计算机、个人电脑,或者移动设备,用户机连接 到所述应用服务器上。所述管理服务器分别与应用服务器及目录服务器相连,应用服务器连接到 所述负载均衡服务器上,所述负载均衡服务器分别连接到所述第一搜索服务 器、第二搜索服务器,以及第三搜索服务器。第一搜索服务器连接一第一索引 服务器,第二搜索服务器连接一第二索引服务器,第三搜索服务器连接一第三 索引服务器。所述应用服务器提供用户管理服务和搜索服务的应用。所述目录服务器用来和现有的一些应用系统进行同步,并且提供整个搜索 系统的安全保证机制。所述管理服务器提供应用服务器以及目录服务器的管理,包括对系统运行 状态、系统硬件资源的使用情况、对服务器进程的启、停等进行监控,以及授 权管理,授权管理包括用户管理、权限管理和访问控制。所述负载均衡服务器用来均衡各用户机,通过软件技术将所有用户机的请 求平均分配给第一搜索服务器、第二搜索服务器,以及第三搜索服务器。所述搜索服务器是整个企业搜索引擎装置的的数据中心,存储经过采集、分析加工和建立索引后的数据。索引服务器根据预先设置的索引策略对采集的数据进行索引,以便在后续提供高效、准确的全文检索服务。建立数据索引的步骤包括:对采集以后的数据进行数据整合、对整合后的数据进行中文分词、然后建立索引。采集的企业内数据包括各种企业应用系统的数据源,如公司内部网(Web 页面)、门户系统、员工论坛、企业OA(办公自动化)、OA订票票务系统(Domino 数据库)、文件系统(PDF、 Word、 Excel等)等应用系统。可以将所需处理的数据归纳为结构化数据(各种关系型数据库)和非结构 化数据(Domino文件系统、Web网页、邮件系统、TXT文本、OFFICE文档、 PDF文档等)。使用时,首先索引服务器对采集的数据进行索引,建立索引后的数据存储 在搜索服务器中。用户机的请求通过应用服务器发给搜索服务器,并返回搜索 结果。

搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法

摘要

本发明公开了一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。该方法根据汉字异体字字表,采用分层匹配的思想,实现了在搜索引擎中,各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文字体之间的异体字之间的匹配检索。采用此方法,在检索时只要输入异体字中的任意一种,信息中包含其它异体字的信息都会被命中。本发明很好的解决了当前各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文字体之间的转换问题,使得搜索引擎更能准确的检索出用户需要的信息,而不必考虑各种异体字之间的转换问题。

描述

搜索引擎中处理含Unicode四字节编码东亚表意文字异体

字转换的方法

技术领域

[0001] 本发明涉及一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转 换的方法。

背景技术

[0002] 搜索引擎能够帮助用户在海量信息中找到自己需要的有用信息。随着信息化的不 断推进,人类积累了越来越多的信息数据,尤其是在互联网上,积累的信息每年都以指数级 增长。搜索引擎在浩如烟海的互联网信息中找到用户所需要的信息起到了关键性的作用。 由于中华五千年的文化积累和中文语言的独特性,使得国外的英文搜索引擎并不能很好的 处理中文搜索引擎。所以也出现了专门处理中文的中文搜索引擎,例如百度。百度搜索引擎使用独特的基于字和词的中文语言处理技术处理中文信息的理解问题,较好地解决了其他单纯基于字或单纯基于词的检索引擎的缺点。百度搜索引擎支持主流的中文编码标准, 包括GB2312、BIG5等,并且能够在不同的编码之间转换,这就使得简体字和繁体字的检索 结果能自然结合。

[0003] 然而,信息的高速积累不仅体现在现有普通编码之上的新信息的加入,中国几千年来积累的纸本信息也不断被电子化。近几年出现越来越多的对古代知识的电子化信息, 例如中国浩如烟海的传世文献和考古出土的简帛、金文、甲骨文等出土文献的信息很多已 经转换成电子文本数据。这里就不只涉及到简体文字和繁体文字,而且会涉及到很多古代 生僻文字,这其中一个现象是异体字的大量存在,其形式包括古文字体、或体字、俗体字、避 讳字等等。而且同一个字由于使用区域的不同,也会出现多种不同的形体。这里我们所说的 异体字,也就是某些汉字的字形虽然由于种种原因彼此相异,但在意义和发音上却是相同 的。例如简体中的“为”字就有以下多种写法:“为”(简体)、“揭”(台湾繁体)、“属”(繁 体)、“弱”(古文中的为字)、“臼”(古文中的为字)等,其中这些不同的“为”字我们统称 为异体字;“亚”字在中文简体中写法为“亚”、日文中写法为“亚”、台湾繁体中写法为“匪”, 这些“亚”也称为异体字;“玄烨”的避讳字写法为“玄烽”;“碑”的俗体字写法为碑;“犴”的 俗体字写法为“轩”。这些同义不同形的文字都会由于某种原因在一定时期或一定地域范围 内大量使用。

[0004] 传统的二字节编码技术最多只能处理两万多汉字,而汉字在古籍中总量超过 五万。这还没有包括甲骨文、金文、简帛等出土文献研究中使用的无法隶定的汉字。汉字经 过数千年的发展和演化,目前流传下来的总数量超过10万(台湾出版的《异体字字典》收字 高达106230个字)。近年来由于Unicode统一编码工作的成效,人们在编码和计算机技术 的结合方面做了很多的工作,汉字中的大量生僻字已经被置于四字节的编码区并确定了统 一编码,中国甲骨文、金文等古代象形文字也将纳入Unicode统一编码,这将使得计算机可 以管理的人类字符大大增加,在微软的OfficeXl >简体中文版中也预装了四字节的字库, 目前采用微软的平台可管理的Unicode字符已经达到7万以上。北京时代瀚堂科技有限公司的《龙语瀚堂典籍数据库》系统在此基础上,采用了基于Unicode四字节编码自然语言全 文检索的典籍文献数字化构建技术,实现了对含有大量生僻汉字的传世和出土文献的存真 性信息化处理和全文检索。 [0005] 但是,当前的技术中,只能实现古文的电子化和对生僻汉字的单个字、词的检索, 并没有完全解决同–个汉字不同写法之间的转换问题。例如,“为”字在当前的搜索引擎中, 例如百度和Google,只是实现了“为”、“舄”、“属”和“亚”、“韭”之间的简繁体相互转换和匹 配。但对于涉及到“亚”、“韭”和日文中的“亚”字,以及“弱”、“臼”之间以及它们与“为”、 “禹”、“焉”之间的转换与匹配,就无能为力了。也就是在当前搜索引擎中,如果只使用简体 字或繁体字,无法检索出东亚其它国家或者古代文献中的相关信息。

发明内容

[0006] 鉴于上述原因,本发明的主要目的是提供一种搜索引擎中处理含Unicode四字节 编码东亚表意文字字符的异体字转换的方法。该方法根据汉字异体字字表,采用分层匹配 的思想,实现了在搜索引擎中,异体字之间的匹配和检索。其中这些异体字包括同一个字由 于在东亚不同地区使用而产生的不同形体的字和同一个字在不同版古文字体中的不同形 体的字。简单举例来讲,就是“为”(简体)、“禹”(台湾繁体)、“焉”(繁体)、“33”(古文 中的为字)、“日”(古文中的为字),,统称为“为”字异体字集,本发明实现了在这些异体字 集之间的相互匹配和检索。采用此方法,在检索时只要输入异体字中的任意一种,信息中包 含其它异体字的信息都会被命中。

[0007] 在处理异体字之间映射转换时,具体的实现方法是:

[0008] A、将异体字字表根据常用和古文分成两类子字表,分别进行存储,其中常用类子 字表是指当前在东亚地区各个地方正在使用的各种中文文字的不同版本形成的异体字集 合,古文类子字表是指在传世文献和出土文献中存在的各种生僻异体字组成的集合;

[0009] B、建立上述两类子字表之间和字表内部不同异体宇之间的映射规则

[0010] C、将不同的映射规则根据具体应用组合成三种命中类型,在搜索时根据不同的需 求设置的不同命中类型,幵启相应的映射转换规则;

[0011] D、根据命中类型和输入的检索字串中的字,通过异体字之间的映射规则输出转换 后的异体字字符集合

[0012] E、搜索引擎将根据经过异体字转换后的关键字集合进行搜索。

[0013] 本发明的特点:

[0014] 1.使搜索引擎可以根据常用汉字搜索出古文中的信息。不仅实现汉字之间的简繁 转换,而且也可以实现当前各种东亚中文文字字体之间的转换、当前常用文字和古文之间 的转换、不同版古文字体之间的转换。

[0015] 2.使用分类规则,使得用户可以根据自己的需求幵启相应的转换规则,过虑掉大 量不必要的检索信息。

附图说明

[0016] 图1为本发明异体字映射规则关系示意图

[0017] 图2为本发明在搜索引擎中异体字映射转换处理流程示意图具体实施方式

[0018] 本发明的主要目的是提供一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。该方法根据汉字异体字字表,采用分层匹配的思想,实现了在搜索 引擎中,当前各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文之间的匹 配检索。

[0019] 具体的实施方法如下

[0020] A、将异体宇字表根据常用和古文分成两类子字表,分别进行存储。例如“为”(中 文简体)“禹”(台湾繁体)、“亚”(中文简体)、“亚”(日文)、“亚”(台湾繁体)等这些在 东亚各个地区正在使用的文字属于常用字字表;“围”、“目”、“玄膳”等在古代大量使用的文 字属于古文类字表。

[0021] B、建立上述两类子字表之间和字表内部不同异体字之间的映射规则。

[0022] 定义异体字转换映射规则如下:

[0023] 规则1 :常用类字表内部之间的映射。例如“为”、“禹”和“焉”之间可以相互映射, “亚”、“亚”、“亚”之间可以相互映射。

[0024] 规则2 :古文类字表内部之间的映射。例如“阂”和“目”之间可以相互映射。

[0025] 规则3 :常用类字表到古文类字表之间的映射。“为”、“焉”和“焉”中的任意一个 宇都可以映射到“S8”和“臼”。

[0026] 规则4 ;古文类字表到常用类字表之间的映射。例如“围”和“g”中的任意一个字 可以映射到“为”、“禹”和“属”。

[0027] C、将不同的映射规则根据具体应用组合成三种命中类型。

[0028] 三种命中类型的映射规则规定如下

[0029] 常用字命中:包括规则1。

[0030] 古文命中:包括规则1、规则2、规则3。

[0031] 完全命中:包括规则1、规则2、规则3、规则4。

[0032] D、根据命中类型和输入的检索关键字,通过异体字之间的映射规则进行异体字映 射转换,输出转换后的异体字字符集合

[0033] 异体字映射转换是指根据相应映射规则,将输入字的映射结果输出。例如根据

[0034] 规则3,输入为“为”,则转换后输出为“阂”和“臼,,。

[0035] E、搜索引擎将根据经过异体字转换后的关键字集合进行搜索。如果输入为“为”转 换后输出“围”和“臼”,则搜索引擎将搜索包含“为”、“围”和“臼”的信息。

[0036] 本发明的优点与技术效果:

[0037] 本发明很好的解决了当前各种东亚中文文字字体之间、当前常用文字和古文之 间、不同版古文字体之间的转换问题,使得搜索引擎更能准确的检索出用户需要的信息,而不必考虑各种异体字之间的转换问题。

【彩蛋】虽然可以不去考虑识别问题,但是对排名结果还是又影响的


一种基于问答库的中文自然语言问答方法

摘要

本发明公开了一种基于问答库的中文自然语言问答方法。通过分析网页结构,利用启发式规则,抽取互联网上的FAQ以及开放式问答社区中的问答对,搭建问答库,从而在此问答库的基础上实现面向中文的自然语言问答系统,弥补现有搜索引擎以及问答系统中的不足和缺陷。与现有的搜索引擎不同,可接受自然语言方式的用户查询,并且直接返回答案文本,用户无需再在结果中手动筛选;同时本发明利用已有的答案来回答用户的问题,这些答案通常是手工生成,格式规整,且具有一定的权威性;同时所能解决的问题也不受问题类型的限制,易于广泛应用,可在一定程度上克服原有问答系统存在的弊端。


描述

一种基于问答库的中文自然语言问答方法技术领域本发明涉及信息检索自然语言问答系统中文自然语言处理领域,特别是涉及一种基于问答库的中文自然语言问答方法。 背景技术随着互联网信息的不断增长,网络上充斥了越来越多的冗余信息;对于在网络上搜寻自己所需要信息的互联网用户来说,整个行为无疑类似于"大海捞针"。 虽然以Google为代表的第二代搜索引擎的出现在很大程度上降低了用户査找信息的难度,但是这类搜索引擎存在一定的缺陷-.首先,由于其搜索模式都是基于关键词精确匹配来查找相关信息的方式,因此用户输入的任何一个关键词都有可能成为某网页命中的依据(除去一些显而 易见的停用词)•,同时,对于用户提供的这些关键词,搜索引擎认为这些词之间是没有联系,相互独立的。这样的一种工作模式缺乏对用户查询条件的分析, 需要用户提供与搜索意图更为接近、同时更为精练的独立的关键词作为査询条件,而不是用户意图的原始文字体现。其次,这类搜索引擎在搜索结果的表现上,无一例外地采用了列表的方式, 影响搜索引擎性能的一个重要指标就是对这些条目的排序算法。但是,这种结果呈现方式存在着不足:用户虽然通过搜索工具得到了过滤之后的结果,但用户如果要得到自己真正所需要的信息,还需要进一步手工去点击链接,重新定位。换句话说,这类搜索引擎返回的结果,并不是用户可以拿来立即解答疑问的直接答案。

自然语言问答系统,从上个世纪60年代开始出现,经过几个阶段的发展之 后,与信息检索技术相结合己成为现在一个重要的趋势,典型系统流程如图1 所示。在结合互联网检索系统的自然语言问答系统中,以自然语言问句作为系统的输入,摈弃了现有搜索引擎中,需要用户提供精简的关键词的限制性做法; 系统应用自然语言处理技术对输入的问句(查询条件)进行分析处理,形成尽 可能全面体现用户查询意图的査询关键词;系统中的答案抽取和选择模块可从 含有答案的原始网页文本中得到可用于直接回答用户査询的文本答案,而不需 要用户再去进行人工的筛选、定位。然而,现在的这类问答系统还存在着可解 然而,现在的这类问答系统还存在着可解决的问题类型受限等不足,不能实现普遍意义上的应用。因此,需要开发一种更为灵活、易扩展并较原来的问答系统具有高准确率的问答系统。

发明内容本发明的目的在于提供一种基于问答库的中文自然语言问答方法。

1、 一种基于问答库的中文自然语言问答方法,主要包括以下步骤:1) 问答库建立:以互联网专业网站上的FAQ以及现有的网络问答社区为问 答对的来源,通过网络蜘蛛以及网页结构分析,提取并保存页面上的问题与对应的答案

2) 问句分析:通过中文分词、语法分析得到问句的查询主体词,主要包括 语法成分上的主干词以及句子中其余的名词、动词、形容词和副词;

3) 倒排索引建立:针对获得的问句文本,建立词到问句文本的索引

4) 问句检索:以用户的提问为输入,由问句分析得到的査询主体词,通过倒排索引,从现有的问答库中找出关键词匹配的问句

5) 问句相似度计算:计算用户提问问句与步骤4)得到的问句之间的相似度, 按照相似度值从大到小进行排序,选择排在首位的问句;

6) 用户交互:选择由步骤5)得到的相似问句对应的答案,提供给用户。


2、 步骤(1)中利用Google,百度,雅虎等搜索引擎,采用各搜索引擎自己 定义的查询格式,在互联网上寻找含有FAQ的网页。3、 步骤(2)中采用依存语法体系,以分析得到的依存语法树中的根节点、 主语以及宾语为句子的主干词。4、 步骤(3)中,倒排索引建立时以问句分析得到的问句对应査询主体词为 索引项,而非问句中所有的关键词。5、 步骤(5)中采用语法和语义结合的方法来衡量句子之间的相似度。 本发明与背景技术相比,具有有益的效果是:与现有的搜索引擎不同,可接受自然语言方式的用户査询,并且直接返回答 案文本,用户无需再在结果中手动筛选;同时本发明利用已有的答案来回答用 户的问题,这些答案通常是手工生成,格式规整,且具有一定的权威性;同时 所能解决的问题也不受问题类型的限制,易于广泛应用,可在一定程度上克服 原有问答系统存在的弊端。 附图说明图1为典型自然语言问答系统的系统结构图;图2为本发明的流程图,显示了各个步骤之间的交互情况,其中实线表示用户问句处理流程,虚线表示问答库与倒排索引建立流程;图3为本发明的问答库保存时的数据结构示意图。 具体实施方式本发明的处理流程如图2所示。首先通过Google,百度,雅虎等现有搜索 引擎,利用互联网上的资源,由问答库建立步骤建立问答库。问答库中的问题 文本通过基于依存体系的问句分析得到主干词,以这些主干词为索引项,建立 词到问句的倒排索引。对于用户输入的查询条件,首先通过问句分析,得到丧 询条件的主干词;利用常见的基于关键词匹配的方法,通过问句检索,从索引 中得到主干词命中的结果,然后计算结果中的句子与用户查询句子的相似度, 按照相似度值从大到小进行排序,选择排在首位的句子。最后,从问答库中找 到该句子对应的答案文本,通过浏览器,返回给用户。本发明实施的关键主要包括:问答库的建立以及问句相似度计算方法,其 中问答库是本发明实施的基础,问句相似度的计算则连接了用户问题与问答库 中的问句。1.问答库的建立问答库中的问题与答案主要来自两方面:网页上的FAQ以及问答社区中的 问答信息。含有FAQ的网页通过Google,百度等搜索引擎査找,方法为在这些搜索引 擎中以"inurl:faq"或者"insite:faq"为査询条件,搜索引擎返回的结果即为含 有FAQ的网页;分析结果网页中的网页结构,根据各个网页中的规则,提取出 其中的问题与答案。现有的互联网问答社区包括了百度知道、新浪爱问、雅虎知识堂等,这些 社区是开放式的,允许普通用户浏览他人的问题与对应的解答,问题与答案在 页面上的组织方式固定,并且对正确的答案做有明确的标记。因此,通过启发 式的模式匹配方法,机器容易识别。以百度知道为例,在一张普通的含有问题的网页页面中,含有"<div class ="t3 beg bgg"〉已解决々div〉" HTML代码的页面,表示该页面中的问题已经解 决,在页面中含有正确的解答。问题文本的提取,可通过识别页面中"<div cla SS="fl4 B wr">" HTML代码后的非HTML代码即可。答案文本的提取,首先 通过识别页面中的"<div class="t3 bcr bgr"Xmg src="http:〃img.baidu.com/img /iknow/icn—best.gif' width="24" height="22" align-"absmiddle"〉最佳答案〈/div >"HTML代码,定位到含有答案文本的区域,再通过识别"<div class-"fl4 wr">"和"</div>"代码,在这两段代码之间的文本去掉其中的HTML标签之后 就是答案文本。在其他的开放式问答社区中,都可找到类似的启发式规则。问答库存储时,问题文本通过普通的关系型数据库存储,数据存储结构如图 3所示;答案文本保存在普通的文本文件中。问题文本存储时,为每个问题都分 配了一个ID号,同时记录下了对应答案所保存文本的文件名,偏移大小及答案 文本的长度,方便读取问题对应的答案。2.问句相似度计算本发明中的问句相似度采用了依存语法与语义相结合的计算方法,基本思路 如下:词作为句子的基本单位,对于衡量句子间的相似度起着关键作用;首先 现有的语义词典或者同义词词林,计算词与词之间的语义相似度;再考虑 在同一个句子中,不同的词由于在句子中的语法成分不同,在句子相似度计算时的贡献有所不同,即所占的权重不同。因此,在计算句子间的相似度时,需 要同时考虑词与词之间的相似度以及词本身在句子中的语法成分。对于给定的两个句子51 =〜11,>^,^,…,1)„}和52 = {>^1,22,23,…,>^},81含有m 个词,S2含有n个词,Sl与S2的相似度^we/n(Sl,S2)计算方法为:<formula>formula see original document page 9</formula>)为根据词在句子中的语法成分得到的权重,计 算公式如下:,,、fl,w为句子中的主语、谓语或宾语 ,,n、[0.5,w为句子中的其它成分公式(l. 1)中的由K.,S2), ^(化,S1)为词与句子之间的相似度,计算公式分 别为-j!'附O,, , 5"2) = max(w'/w(Wj, , w21 ), 57'/w(m^, , w22:)" •.,由(m^ , w2n)) (1.3) w7m(W2,,S1) = max^/z^M^WnXj/T^H^M^ ),.."w>i(w2i,wlm)) (1.4) w/n(wl,2)是通过语义词典或者同义词词林得到的词之间的语义相似度,其计 算方法已非本发明的内容,故不再详细叙述。


一种基于关键字的网络广告精准投放方法

摘要

一种基于关键字的网络广告精准投放方法,包括以下步骤:第一步,关键字分析确定关键字信息,关键字分析的目的是得到系统进行关键字定价策略制定的必要的关键字信息;第二步,对优化模型进行确定,确定关键字信息后,要通过对特定关键字和搜索引擎的选择确定优化模型;第三步,粒子群算法参数确定及计算优化,确定优化模型后,将优化模型代入到粒子群算法,确定适应度计算函数和惩罚函数,根据不同的定价模型,采用不同的适应度函数,计算每一个粒子的适应度值,输出全局最优适应度gbest,即为最低成本,输出达到该适应度的关键字价格。本发明可靠性较高、实时性良好、优化计算难度较低、优化效果较好。


技术领域

[0001] 本发明涉及一种面向网络广告投放的关键字定价方案,针对广告商网络广告投放 策略的问题,基于已有的CPC、CPM模型和如今被搜索引擎及广告商广泛接受的关键字竞价 排名机制,设计一个在达到一定展现量或收益的前提下为广告商求得最低成本的广告投放 模型。


背景技术

[0002] 随着互联网的发展,网络广告成为企业将产品推向市场的重要手段。而据《2014 年中国互联网络发展状况统计报告》统计,在众多网络应用中,搜索引擎使用率高达 80.3%。搜索引擎已经被证明是大多数互联网用户寻找信息的主要通道。这使得搜索引擎 在互联网的网络营销渠道占据了主导地位,从而使得基于关键字的网络广告成为主流。针 对这类广告投放方式中同一广告需要对大量不同的关键字进行竞价、竞价参与者多、竞价 随时的特点,传统的投标式竞价方式已无法适用于这类广告的投放,新的广告拍卖方式对 广告商的广告投放策略提出了如下新的要求:1、同一广告需要对大量的关键字进行竞价; 2、实时的调整关键字竞价策略;3、在广告目标一定的情况下,降低自己的成本。而且面对这 一复杂的非线性背包问题,如何迅速的找到最优的广告投放策略显得尤为重要。

[0003] 对于此类问题的传统优化算法从线性规划理论发展而来,学者们基于线性规划的 结果然后扩展到非线性领域,但传统优化算法有着下列局限:

[0004] (1)只能解决优化问题中数学特征可以精确认知的那类问题,传统优化算法是确 定性的,精确的算法,每次搜索都需要有精确的依据。

[0005] (2)无法跳出局部优化解,无法保证收敛到全局最优解。

[0006] (3)必须求得优化问题的优化解的数学特征,然后再针对该特征进行设计算法。

[0007] Nittala Chaitanya等人假设在在局部无嫉妒均衡的条件下,将此问题看成一个 线性规划问题,以此建立一个分析模型使得广告商的投资回报最大化。Cookhwan Kim等人 根据经验利用分层贝叶斯模型预测销售排名,该模型形式化层次结构的良好表现减少了市 场随机行为对结果预测带来的影响。Yunhong Zhou等人在广告预算被约束的情况下将关键 字竞价看做一个在线背包问题,以此提出了一个分析模型,并验证了该模型的结果与实际 数据有90 %的相似度。

[0008] 也有学者对拍卖与排名机制产生了兴趣,对此做了许多具有建设意义的研究。 Matthew Richardson等人通过分析关键字的历史点击率预测用户行为估计广告的点击率, 以此建立排名规则模型使得排名更高的关键词或得更高的点击率。Ashish Goel等人分析 了各种拍卖方式的优劣,提出了混合拍卖机制以使广告商和拍卖商来实现复杂的动态编程 策略来处理的原来拍卖方式的不确定性。Feng等人采用不完全信息博弈模型分析了不同竞 价排名机制下的收益差异性。

[0009] 而一些最近的研究主要集中于为广告商提供更为优化的关键字竞价策略。 LiwenHou等人通过实际数据分析了搜索次数与印象次数之间的关系,得到两者成正太分 布,再基于贝叶斯网络的协助投标的预测,为广告商提供优化策略。李俊分析了主流关键字 竞价拍卖产品的特征提出了基于贝叶斯网络模型的关键字竞价效果预测方法,以此建立了 各种全局及局部限制条件限制下的全局最优竞价策略的数学模型,并将预测方法用于全局 最优化方程的求解。董红斌等人提出了一种基于优化算法的竞价策略制定Agent模型,并 给出该模型的实现方法.该Agent模型将竞价的策略制定问题抽象成为一个多选择背包问 题.采用差分进化算法解决多选择背包问题的约束特性。

发明内容

[0010] 为了克服已有网络广告投放方式的可靠性较差、实时性较差、优化计算难度大、优 化效果不理想的不足,本发明提供了一种可靠性较高、实时性良好、优化计算难度较低、优 化效果较好的基于关键字的网络广告精准投放方法。

[0011] 本发明解决其技术问题所采用的技术方案是:

[0012] 一种基于关键字的网络广告精准投放方法,包括以下步骤:

[0013] 第一步,关键字分析确定关键字信息

[0014] 关键字分析的目的是得到系统进行关键字定价策略制定的必要的关键字信息,过 程如下:

[0015] I. 1)导入网民上网时间分布,利用MATLAB拟合得到网民上网时间分布函数Fw;

[0016] 1. 2)确定要投放的关键字数量,即为粒子维度d;

[0017] 1. 3)根据不同搜索引擎的定价方式选择CPC定价模型、CPM定价模型或混合定价 模型,并根据不同的定价模型设置目标点击率和目标印象次数;

[0018] 第二步,对优化模型进行确定

[0019] 确定关键字信息后,要通过对特定关键字和搜索引擎的选择确定优化模型,过程 如下:

[0020] 2. 1)CPC定价方式如公式(6)、(7):

[0021] 总花费:

[0022] MinTC(b)= 2kEKik(t)bkE[Pk] (6)

[0023] 约束条件:

Figure CN105069662AD00051

[0030] 混合定价方式如公式(10)、(11)、(12)、(13)

[0031] 总花费:

[0032] MinTC(b) =AX2keKik(t)bkE[PJ+BXXkeKik(t)bk (10)

[0033] 约束条件:

Figure CN105069662AD00061

[0036] bk^ 0 (13)

[0037] 2. 2)根据百度流量统计,得到最近一年中网民上网的时间分布,以此拟合出以时 间t为自变量的函数F(t),代入公式中;

[0038] 2. 3)根据对关键字的研究和经验得到关键字印象次数ik、关键字自然点击率Ck、 关键字评估等级Qk、关键字综合分数Mk,代入公式中;

[0039] 第三步,粒子群算法参数确定及计算优化,过程如下:

[0040] 3. 1)确定关键字竞价的取值范围[0,b_],采用的定价模型fun、粒子群算法的粒 子数m、粒子维度数d、算法最大迭代次数maxGen、当前最优适应度值pbest、全局最优适应 度值gbest,利用随机函数rand()在范围[0,bmax]内随机生成m个粒子,初始化粒子每个维 度的信息,当前进化代数Gen= 0 ;

[0041] 3.2)根据不同的定价模型,采用不同的适应度函数(15) (17) (20),计算每一个粒 子的适应度值;

Figure CN105069662AD00062

[0051] F(X) =TC(b)_a* [A*max(0,-g(X)J+B*max(0,-g(X) 2)]

[0052] (20)

[0053] 其中公式(14) (16) (18) (19)为根据不同定价模型的约束条件得出的惩罚函数;

[0054] 3. 3)比较各个粒子的适应度函数值得出当前适应值最高的为个体极值pbest,与 上一代gbest比较根找出全局极值gbest,进化代数gen=gen+1 ;

[0055] 3. 4)当进化代数Gen彡maxGen,根据公式(21)和(22)更新粒子位置和速度,然 后转向3.2);否则转向3.5);

[0056] vk (i+1) =w*vk (i)+cl*rl* (pbest_bk (i))+c2*r2* (gbest-

[0057] b"i)) (21)

[0058] bk (i+1) =Wi)+vk (i+1) (22)

[0059] 3. 5)输出全局最优适应度gbest,即为最低成本,输出达到该适应度的关键字价 格。

[0060] 本发明中品,首先建立一个贴近实际的模拟排名机制,对于市场上两大搜索引擎 的排名机制进行研究如下:

[0061] 百度推广的排名是由广告商和其他客户的质量度和出价共同决定的,由系统实时 调整。在关键词质量度不变的情况下,出价越高,排名就越靠前;在出价不变的情况下,质量 度越高,排名就越靠前。如果想改善推广排名,既可以提升出价快速获得足够的流量,也可 以通过优化质量度,在节省推广费用的同时获得更好的排名,提高投资回报率。而百度推广 所指的质量度主要由点击率、相关性、创意撰写水平、账户综合表现共同决定。

[0062] GoogleAdwords同样有与百度质量度类似的评判标准称为pagerank分数。 GoogleScore=(KffUsageScore*0.3) +(DomainStrength*0. 25) +(InboundLink Score*0. 25) +(UserData*0.I) +(ContentQualityScore*0.I) +(ManualBoosts)-(Automated&ManualPenalties)。从公式中我们可以清楚的知道,影响pagerank分数的因 素依次是"相关关键词"、"域名"、"外链"、"用户数据"、"内容质量"以及"人工干预"六个方 面。

[0063] 采用一种模拟排名机制,将类似于百度质量度、pagerank分数的因素称之为评估 等级Qk,评估等级Qk与关键字竞价一起构成关键字综合分数Mk。

[0064] 定义一:关键字K的关键字综合分数为:

[0065] Mk=bk*Qk (1)

[0066] 所竞标的K关键字的综合分数Mk与竞标所有K关键字的平均分数Nk-同影响关 键字的排名。

[0067] (2)基于这样的模拟排名机制我们给出实时的优化模型。我们假设广告商知道他 所要投放广告的关键字的一些基本信息,广告商通过对这些关键字竞价来参与广告活动。 关键字竞价的高低影响广告的位置,从而影响广告的效果。反过来关键字竞价的高低与广 告的效果(点击量或展现量)通过某种定价模型计算广告投放的成本。

[0068] 让我们考虑一个打算投标一系列关键词的广告商,为各个关键字编号为k= 1, 2,…,n。我们使用以下的符号。

[0069] bk:为关键词k投标的价格的决策变量。

[0070] b:所有关键词b=Od1,b2, . . .,bn)的投标价格向量

[0071] ik:每个时间段关键词k将会获得的印象次数(我们假定在这个展现期内为每天)

Figure CN105069662AD00071

[0073] k:关键词k的每日CTR(取决于Xk)

[0074] 0 *:目标CTR

[0075] a*:目标印象数

[0076] Qk:K关键字的评估等级

[0077] Mk:K关键字的综合分数

[0078] Nk:K关键字的平均分数

[0079] 首先用P分布来表示关键字的随机广告位置Xk,选择P分布有助于从0到1建 模广告位置Xk,而O表示页顶,1表示页尾。用关键字的综合分数Mk与竞争格局Nk来预测 投放广告的排名及位置。关键字的综合分数Mk通过关键字投标价格bk和关键字评估等级 Qk来共同决定。现有的搜索引擎广告提供商(例如google和百度)都会为广告商提供一 个参考的关键字评估等级Qk。

[0080] 定义二:利用P分布可以得出关键字在页面的位置由竞争格局Nk和关键字的综 合分数Mk来决定:

Figure CN105069662AD00081

[0082] 广告商可以通过对以往投资数据的分析和搜索引擎提供的参考数据得到的竞争 格局队具体数值,那么关键字的综合分数M,将成为这个竞争格局下的一个决定量。公式 (2)和我们的直觉相一致。当关键字的综合分数增加时,预期广告位置往页面上移动,反之 亦然。同样的,竞争格局大队代表竞争性越大,这使得广告更难到达页面的顶部。

[0083] 定义三:点击率P15是一个取决于广告位置Xk的随机变量。我们基于观察现实生 活中的数据使用如下点击率的函数形式:

[0084] 0 k=ck(l_xk)m,m彡 1 (3)

[0085] 公式(3)中,ck表示关键词k的自然点击率。从这个函数形式中我们注意到投标 价格bk的值就越大,广告位置越接近页面的顶(Xk= 0),广告接收到的点击数就越多。

[0086] 将我们对广告位置预期代入,Pk的函数形式也表示为

Figure CN105069662AD00082

[0088] 由于不同时间段的网民流量具有很大的差异,比如凌晨以后流量比较少时我们应 该减少投放力度,而在网民流量大的时间段我们就应该增大投放力度,从而获得更多的展 现量和点击量。因此,加入对时间段的考虑能使整个模型更具有针对性和有效性。因此,基 于这个考虑,我打算在基于关键字的网络广告资源优化模型的基础上,考虑点击率或展现 量为时间t的函数。

[0089] 定义四:根据百度流量统计,我们得到一年中网民上网的时间分布,以此拟合出以 时间t为自变量的函数:

[0090] F(t) =0• 1274*sin(0. 08417*t+l. 644)+0. 1165*sin(0. 2424*t+3. 163)

[0091] +0• 04822*sin(0. 3842*t+4. 33)+0. 00183*sin(0. 7726*t+3. 717) (5)

[0092] +0• 004942*sin(I. 055*t+3. 369)

[0093] 根据公式(5)关键字展现量ik可以转化为以时间t为自变量的函数ik(t)。

[0094] 广告商的目的是为了让广告达到一定的点击率,实际点击量由每个关键词的相关 印象次数乘以点击率得到。

[0095] 定义五:在CPC定价模型中,广告商的总成本是基于关键字价格和每个关键字的 点击量计算得出。广告商的决策问题可以建模为一个非线性优化问题如下:

[0096] 总花费:

[0097] MinTC(b)= 2kEKik(t)bkE[Pk] (6)

[0098] 约束条件:

Figure CN105069662AD00091

[0100] 定义六:在CPM定价模型中,广告商感兴趣是印象次数而非点击率。假设关键字印 象次数在活动印象次数中的印象随着广告被放置在结果页面的位置升高而升高。广告商的 总成本是基于印象次数,以及广告商的目标是达到基于印象和关键字的广告位置的所有关 键字中活动印象的目标程度。广告商的决策问题可以建模为一个非线性优化问题如下。

[0101] 总花费:

[0102] MinTC(b) =XkeKik(t)bk (8)

[0103] 约束条件:

Figure CN105069662AD00092

[0105] 定义七:CPC、CPM定价模型都有其优缺点,综合考虑这两种定价模型得出混合定 价模型。广告商的总成本与印象次数和点击次数都相关。广告商的决策问题可以建模为一 个非线性优化问题如下。

[0106] 总花费:

[0107] MinTC(b) =AX2keKik(t)bkE[PJ+BXXkeKik(t)bk (10)

[0108] 约束条件:

Figure CN105069662AD00093

[0111] b# 0 (13)

[0112] 本发明的有益效果主要表现在:可靠性较高、实时性良好、优化计算难度较低、优 化效果较好。

附图说明

[0113] 图1为网民上网时间分布MATLAB拟合结果;

[0114] 图2为粒子群算法流程图;

[0115] 图3为基于关键字的网络广告精准投放系统运作流程图。

具体实施方式

[0116] 下面结合附图对本发明作进一步描述。

[0117] 参照图1~图3,一种基于关键字的网络广告精准投放方法,包括关键字分析确定 关键字信息、粒子群算法参数确定及计算优化过程;

[0118] 第一步,关键字分析确定关键字信息

[0119] 关键字分析的目的是得到系统进行关键字定价策略制定的必要的关键字信息,过 程如下:

[0120] I. 1)导入网民上网时间分布,利用MATLAB拟合为函数如图一所示,得到网民上网 时间分布函数Fw;

[0121] I. 2)确定要投放的关键字数量,即为粒子维度d;

[0122] 1. 3)根据不同搜索引擎的定价方式选择CPC定价模型、CPM定价模型或混合定价 模型,并根据不同的定价模型设置目标点击率和目标印象次数;

[0123] 第二步,对优化模型进行确定

[0124] 确定关键字信息后,要通过对特定关键字和搜索引擎的选择确定优化模型,过程 如下:

[0125] 2. 1)CPC定价方式采用定义五模型,代入公式(6)、(7):

[0126] 总花费:

[0127] MinTC(b) = 2kEKik(t)bkE[0k] (6)

[0128] 约束条件:

Figure CN105069662AD00101

[0141] bk^ 0 (13)

[0142] 2. 2)根据百度流量统计,得到最近一年中网民上网的时间分布,以此拟合出以时 间t为自变量的函数F(t),代入公式中;

[0143] 2. 3)根据对关键字的研究和经验得到关键字印象次数ik、关键字自然点击率Ck、 关键字评估等级Qk、关键字综合分数Mk,代入公式中;

[0144] 第三步,粒子群算法参数确定及计算优化过程

[0145] 确定优化模型后,将优化模型代入到粒子群算法,确定适应度计算函数和惩罚函 数;

[0146] 图2给出了具体步骤,其中一些参数需要提前确定:粒子数量m:可取50到200之 间。实验说明,对于解决很多部分的问题,1〇〇是个不错的选择,但也要时具体的例子而定, m越大,表明粒子数量越多,相应地可以搜索的范围也就越多,找到最优解的可能性也就越 大,同时时间也会增加,设置为100。

[0147] 粒子的维度d:问题的解维度,具体的问题不同,维度就不同,根据关键字数量确 定;

[0148] 粒子的位移阀值[-v_max,v_max]:表示粒子的位移范围,一般可取[-200,200], 当然也可视具体的情况而定;

[0149] 粒子的最大位移速度v_max :V_max表示粒子在单次飞行中所能产生的最大位移, 如果v_max较大,相应的粒子可以到达的范围就会更远,单个粒子求解空间就相应地会增 大,就增加了搜索到最优解的概率,但同时也会增加收敛的时间;如v_max偏小,则容易陷 入局部收敛。这里根据经验设置v_max为30 ;

[0150] 惯性权重系数w 维持粒子的惯性,表示在改变速度或位移的情况下,还维持着 原来数据的不变比例,比例越大,表示惯性越大,搜索的能力越差;比例越小,表示惯性越 小,搜索的能力越强,全局的最优解更容易找到。这里根据经验我们采用〇. 5的惯性权重 值;

[0151] 学习因子cdP c2:表示粒子向全局最优解和历史最优解的靠经趋势速度,如果越 大,就越容易向全局最优解和历史最优解靠近,取cl=c2 = 2 ;

[0152] 在不同情况下若无法到达目标的效果也可对以上参数进行修改。

[0153] 在参数确定后按照图2的流程图和步骤进行计算,过程如下:

[0154] 3.1)确定关键字竞价的取值范围[0,b_],采用的定价模型fun、粒子群算法的粒 子数m、粒子维度数d、算法最大迭代次数maxGen、当前最优适应度值pbest、全局最优适应 度值gbest。利用随机函数rand()在范围[0,bmax]内随机生成m个粒子,初始化粒子每个 维度的信息,当前进化代数Gen=0 ;

[0155] 3.2)根据不同的定价模型,采用不同的适应度函数(15) (17) (20),计算每一个粒 子的适应度值。

[0156] CPC:

Figure CN105069662AD00111

[0165] F (X) = TC(b)_ a * [A*max (0, -g (X) D +B*max (0, -g (X) 2)]

[0166] (20)

[0167] 其中公式(14) (16) (18) (19)为根据不同定价模型的约束条件得出的惩罚函数;

[0168] 3. 3)比较各个粒子的适应度函数值得出当前适应值最高的为个体极值pbest,与 上一代gbest比较根找出全局极值gbest,进化代数gen = gen+1 ;

[0169] 3. 4)当进化代数Gen彡maxGen,根据公式(21)和(22)更新粒子位置和速度,然 后转向3.2);否则转向3.5);

[0170] vk (i+1) =w*vk (i)+cl*rl* (pbest_bk (i))+c2*r2* (gbest-

[0171] bk(i)) (21)

[0172] bk(i+l) =bk(i)+vk(i+l) (22)

[0173] 3. 5)输出全局最优适应度gbest,即为最低成本,输出达到该适应度的关键字价 格。

关于Baiduspider

Baiduspider常见问题解答


1. 什么是Baiduspider

Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。

2. Baiduspider的user-agent是什么?

百度各个产品使用不同的user-agent:

产品名称 对应user-agent

无线搜索 Baiduspider

图片搜索 Baiduspider-image

视频搜索 Baiduspider-video

新闻搜索 Baiduspider-news

百度搜藏 Baiduspider-favo

百度联盟 Baiduspider-cpro

商务搜索 Baiduspider-ads

网页以及其他搜索 Baiduspider

3. Baiduspider对一个网站服务器造成的访问压力如何?

为了达到对目标资源较好的检索效果,Baiduspider需要对您的网站保持一定量的抓取。我们尽量不给网站带来不合理的负担,并会根据服务器承受能力,网站质量,网站更新等综合因素来进行调整。如果您觉得baiduspider的访问行为有任何不合理的情况,您可以反馈至投诉平台。

4. 为什么Baiduspider不停的抓取我的网站?

对于您网站新产生的或者持续更新的页面,Baiduspider会持续抓取。此外,您也可以检查网站访问日志中Baiduspider的访问是否正常,以防止有人恶意冒充Baiduspider来频繁抓取您的网站。 如果您发现Baiduspider非正常抓取您的网站,请通过投诉平台反馈给我们,并请尽量给出Baiduspider对贵站的访问日志,以便于我们跟踪处理。

5. 如何判断是否冒充Baiduspider的抓取?

建议您使用DNS反查方式来确定抓取来源的ip是否属于百度,根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

5.1 在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

$ host 123.125.66.120 

120.66.125.123.in-addr.arpa domain name pointer 

baiduspider-123-125-66-120.crawl.baidu.com.

host 119.63.195.254

254.195.63.119.in-addr.arpa domain name pointer 

BaiduMobaider-119-63-195-254.crawl.baidu.jp.

5.2 在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

5.3 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

6. 我不想我的网站被Baiduspider访问,我该怎么做?

Baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止Baiduspider访问您的网站,或者禁止Baiduspider访问您网站上的部分文件。 注意:禁止Baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。关于robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法 

您可以根据各产品不同的user-agent设置不同的抓取规则,如果您想完全禁止百度所有的产品收录,可以直接对Baiduspider设置禁止抓取。

以下robots实现禁止所有来自百度的抓取:

User-agent: Baiduspider

Disallow: /

以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:

User-agent: Baiduspider

Disallow: /

User-agent: Baiduspider-image

Allow: /image/

请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-cpro给您造成了困扰,请联系union1@baidu.com。

Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-ads给您造成了困扰,请联系您的客户服务专员。

7. 为什么我的网站已经加了robots.txt,还能在百度搜索出来?

因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。

如果您的拒绝被收录需求非常急迫,也可以通过投诉平台反馈请求处理。

8. 我希望我的网站内容被百度索引但不被保存快照,我该怎么做?

Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。

和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

个人补充:<meta name="Baiduspider" content="noarchive" >

9. Baiduspider抓取造成的带宽堵塞?

Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充Baiduspider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至投诉平台,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。

一种特色的搜索引擎优化方法

技术领域

[0001] 本发明涉及一种网站优化的方法,尤其涉及一种特色的搜索引擎优化方法,属于网络技术领域。

背景技术

[0002] 随着网络的发展,网络营销已经成 为公司营销的一个重要组成部分。企业的网站不再是一个单纯的展示信息的平台,而是一个营销的重要手段,但是在庞大的网络信息中很难能让用户快速找到你的信息,如能提出一种方法,使网站在搜索引擎中有好的排名,这样不仅会给一个网站带来极大的流量,同时订单也会随之增加。因此,应用前景非常广阔。

发明内容

[0003] 本发明的目的就是为了解决现有技术中存在的上述问题,提供一种特色的搜索引擎优化方法。

[0004] 本发明的目的通过以下技术方案来实现:

[0005] 一种特色的搜索引擎优化方法,涉及网站,其中:根据搜索引擎的收录排名的规贝U,对网站进行程序、内容、板块、布局等的调整,使网站的设计适合搜索引擎的检索,满足搜索引擎排名的指标,从而使网站更容易被搜索引擎收录,在搜索引擎的关键词的排名中占据有利的地位。

[0006] 上述的一种特色的搜索引擎优化方法,其中:所述的搜索引擎包括:百度、Google

坐寸ο

[0007] 进一步地,上述的一种特色的搜索引擎优化方法,其中:在网站的域名、网站首页的Title标题以及网站首页的内容中设置关键词。

[0008] 更进一步地,上述的一种特色的搜索引擎优化方法,其中:关键词的设置首先要判断网页提供了什么内容以及潜在用户可能使用哪些词来搜索该页面

[0009] 更进一步地,上述的一种特色的搜索引擎优化方法,其中:网站页面关键词设置的密度占整个页面内容的2% —8%为宜。

[0010] 更进一步地,上述的一种特色的搜索引擎优化方法,其中:网站的内容要丰富,并且需要进行不断的更新。

[0011] 再进一步地,上述的一种特色的搜索引擎优化方法,其中:页面中尽量减少图片、Flash、I frames和Java script脚本,有利于搜索引擎“蜘蛛”更快更精确的爬行到网站的索引。

[0012] 本发明技术方案的突出的实质性特点和显著的进步主要体现在:采用本发明技术方案后,能够使网站在搜索引擎中获得靠前的排名,从而使站点更实用,用户访问性更高,以达到对网站推广营销的作用。

[0013] 本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。

具体实施方式

[0014] 一种特色的搜索引擎优化方法,涉及网站,其特别之处在于:根据搜索引擎的收录和排名的规则,对网站进行程序、内容、板块、布局等的调整,使网站的设计适合搜索引擎的检索,满足搜索引擎排名的指标,从而使网站更容易被搜索引擎收录,在搜索引擎的关键词的排名中占据有利的地位。所述的搜索引擎包括:百度、Google等。

[0015] 具体来讲,为了搜索引擎的“蜘蛛”能够爬行到网站的索引,需要对网站进行关键词设置,所述的关键词可以设置在网站的域名、网站首页的Title标题以及网站首页的内容中,页面内容中的关键词要频繁的出现,一般设置的密度要占整个内容的2% -8%为宜, 关键词的选择主要根据网页所提供的内容以及判断潜在用户可能使用哪些词来搜索该页面,也就是说站在用户的角度考虑。关键词选择的另一个注意点是,要判断关键词是否太流行,即竞争度是否太高,如果太多的页面都在争夺搜索这些关键词的高排名时,那么就需要考虑更特定的关键词。

[0016] 进一步的,搜索引擎更喜欢友好的网页结构无误的代码明确导航的站点,确保网页都是有效的和在主流浏览器中的可视化。另外,网站的内容要丰富,并且需要不断的更新,尽量减少图片、Flash、I frames和Java script脚本,这样也有利于搜索引擎“蜘蛛”更快更精确的爬行到网站的索引。

[0017] 通过上述的文字描述可以看出:采用本发明技术方案后,能够使网站在搜索引擎中获得靠前的排名,从而使站点更实用,用户访问性更高,以达到对网站推广营销的作用,具有广阔的应用前景。

事件知识库的构建方法及装置

[0001] 本发明涉及计算机技术领域,尤其涉及一种事件知识库的构建方法及装置。

背景技术

[0002] 搜索引擎技术正围绕着知识图谱进行着一场变革,其变革的核心是在于从传统的面向无结构化网页文本为主转向以面向“结构化知识为主的新一代知识搜索,从而为用户提供更为精确的检索结果,提升其检索体验。目前知识图谱技术(狭义知识图谱)的核心技术包括含有实体知识的实体知识库(以下简称实体库)及其相关应用技术。

[0003] 在实体库中,一个实体知识主要由其独有的语义编号即语义标识(ID)以及具有明确语义含义的属性属性值组成。例如,对于“百度公司”这样的一个实体知识,实体库会首先赋予全局唯一的ID (假设为Company_XXX)作为其独有的语义编号,并根据该实体所隶属的类别为其添加语义信息,如“成立时间:2000年I月”、“经营范围:网络信息服务”、“董事长:李彦宏”、“子公司:91无线(company_YYY)、爱奇异(company_ZZZ)”等。上述知识可以很好地解决用户关于事实类知识的提问,例如“百度的子公司都有哪些?”或者“百度的董事长是谁? ”,我们只需要将上述问句解析成“ {类别=公司;实体=百度公司(Company_XXX);属性=子公司;属性值=? } ”以及“ {类别=公司;实体=百度公司(company_XXX);属性=董事长;属性值=? } ”便可通过现有的知识图谱检索满足用户需求了。

[0004] 然而,由于实体知识是以实体或者某个虚拟的实体为中心,在描述实体与实体之间的关系时,一种最为常见的手段是将其抽象成一个特定的属性,例如“董事长”、“子公司”、“经营范围”等。这样的抽象虽然可以使得知识表示更加精炼,但却是以丢失细节为代价。

[0005] 以深度问答应用为例,若用户询问“百度公司2013年收购了哪些子公司?”或“百度公司收购91无线和网络电视软件(PPS)视频一共花了多少钱?”这样的问题时,基于传统的实体库知识就无法给出答案。

[0006] 由此可见,基于传统实体库进行深度知识搜索时,经常无法为用户提供检索结果,从而降低了用户的检索体验。

发明内容

[0007] 本发明旨在至少解决上述技术问题之一。

[0008] 为此,本发明的第一个目的在于提出一种事件知识库的构建方法。该方法通过预定义的事件知识结构可以构建事件知识库,基于该事件知识库能够为用户提供准确的搜索结果,提高了用户的搜索体验。 [0009] 本发明的第二个目的在于提出一种事件知识库的构建装置。

[0010] 为了实现上述目的,本发明第一方面实施例的事件知识库的构建方法,包括以下步骤:对文本进行识别,识别出事件挖掘候选语句;对识别出的事件挖掘候选语句进行片段切分,获得句法片段;根据句法片段和预定义的事件知识结构,生成事件知识实例,其中,事件知识实例的个数等于句法片段中包含的动宾片段和主谓片段的个数;以及根据句法片段中包含的动宾片段和主谓片段获得对应的事件挖掘目标语句,对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入事件知识实例中,以完成事件知识库的构建。

[0011] 本发明实施例的事件知识库的构建方法,通过预定义的事件知识结构和获得的语法片段可以构建事件知识库,基于该事件知识库能够将网页知识进行结构化并进一步支持知识之间的推理和计算;另外,还可以对相关事件进行融合,从而可以在用户进行深度知识搜索时,为用户提供准确的搜索结果,进而提高了用户的搜索体验。

[0012] 为了实现上述目的,本发明第二方面实施例的事件知识库的构建装置,包括:识别模块、切分模块、生成模块和写入模块。

[0013] 本发明实施例的事件知识库的构建装置,通过预定义的事件知识结构和获得的语法片段可以构建事件知识库,基于该事件知识库能够将网页知识进行结构化并进一步支持知识之间的推理和计算;另外,还可以对相关事件进行融合,从而可以在用户进行深度知识搜索时,为用户提供准确的搜索结果,进而提高了用户的搜索体验。

[0014] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0015] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,

[0016] 图1是根据本发明一个实施例的事件知识库的构建方法的流程图;

[0017] 图2是根据本发明另一个实施例的事件知识库的构建方法的流程图;

[0018] 图3是根据本发明一个实施例的事件知识库的构建装置的结构示意图;

[0019] 图4是根据本发明另一个实施例的事件知识库的构建装置的结构示意图。

具体实施方式

[0020] 下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

[0021] 在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

[0022] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

[0023] 为了能够将网页文本知识进行结构化并进一步支持知识之间的推理和计算,本发明实施例提出了一种事件知识库的构建方法及装置。下面参考附图描述本发明实施例的事件知识库的构建方法及装置。

[0024] 图1是根据本发明一个实施例的事件知识库的构建方法的流程图。

[0025] 如图1所示,事件知识库的构建方法包括以下步骤:

[0026] SlOl,对文本进行识别,识别出事件挖掘候选语句。

[0027] 事件知识的挖掘目标是自然语言文本,而在网络资源之中,自然语言句子并非都能最终形成事件知识。因此,首先需要对自然语言文本例如网页文本进行识别,识别出事件挖掘候选语句,本实施例中的事件挖掘候选语句至少需要包含一个主实体以及该主实体的核心动作。

[0028] 假如,在本实施例中识别出的事件挖掘候选语句为“91无线,网龙公司的子公司,是中国领先的移动互联网公司,在Sj.91.com和apk.hiapk.com网站上,它为iPhone操作系统和Android操作系统开发和运行两大智能手机应用分发平台。”。

[0029] S102,对识别出的事件挖掘候选语句进行片段切分,获得句法片段。

[0030] 其中,句法片段包括主谓片段、动宾片段、状语片段、主语片段和名词谓语片段等。

[0031] 例如,对通过步骤SlOl获得的事件挖掘候选语句进行片段切分后,可以分为以下片段:

[0032] 主语片段:91无线;名词谓语句片段:网龙公司的子公司;状语片段:在Sj.91.com和apk.hiapk.com网站上;动宾片段:是中国领先的移动互联网公司;主谓片段:它为iPhone操作系统和Android操作系统开发和运行两大智能手机应用分发平台。

[0033] S103,根据句法片段和预定义的事件知识结构,生成事件知识实例,其中,事件知识实例的个数等于句法片段中包含的动宾片段和主谓片段的个数。

[0034] 在本发明的实施例中,预定义的事件知识结构包括事件知识实例标识(ID)、主实体、宾实体和动作四个属性,主实体包括动作的发起者对应的实体信息及其修饰信息,宾实体包括动作的承受者对应的实体信息及其修饰信息,动作包括核心动作及其约束信息;其中:

[0035] a)事件知识实例标识:是事件知识实例的唯一独立标识,主要由事件知识库分配,存储于事件ID属性中;单个事件知识实例中有且仅有一个ID

[0036] b)主实体:标识事件的动作发起者(被字句的主语也算发起者);其“实体”属性域存放实体名以及实体语义ID,而修饰属性域(一个实体可以存在多个修饰属性)存放实体的修饰和限定成份;单个事件知识中,至少需要存在一个主实体属性;主实体可为复数;当然,上述修饰属性域中存放的就是修饰信息;

[0037] c)宾实体:标识事件的动作承受者;其“实体”属性域存放实体名以及实体语义ID ;除了实体词之外,数量词(如,10.39%股份)、时间(日期、时分秒)、时间区间(XX日至YY日、AA点至BB点)、资源UrUuri等)、电话/邮编、位置/方向(如食堂、南边)、工具/材料(如毛线、工资)、比较(如一比二)、方式手段(如手术、低音)、枚举词(如星座、血型)以及普通名词(如手机应用分发平台)等词汇也可以充当宾实体;修饰属性域,主要用于存放宾实体的修饰和限定成分;单个事件知识中,宾实体可缺失;如“乔布斯去世”;当然,上述修饰属性域中存放的就是修饰信息。

[0038] d)动作:标识事件中主实体在事件中的行为;“核心动作”标识主实体的行为本身,单个事件知识中,有且仅有一个核心动作属性(可以存在并列动作,如“开发和运行”);约束属性用于对核心动作进行修饰,约束属性可以存在多个;为约束可以标识上具体属性类型(例如:时间、价格、状态、方位等),并为其对应的属性值指定类型(例如,数量词类型、实体类型)。

[0039] 具体地,根据主谓片段和动宾片段的个数按照预定义的事件知识结构生成事件知识实例,即每个动宾片段和每个主谓片段均对应一个事件知识实例。例如在步骤S102中存在主谓和动宾两种片段,因此需要准备两个事件知识实例即event_l与event_2,如表1所示。同时,将所有非“主谓和动宾片段”划分为主谓和动宾片段的修饰和约束成分。

[0040] 表1包含生成的事件知识实例的事件知识库

Figure CN103699689AD00081

[0042] S104,根据句法片段中包含的动宾片段和主谓片段获得对应的事件挖掘目标语句,对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入事件知识实例中,以完成事件知识库的构建。

[0043] 具体地,该步骤S104可以包括:先对获得的事件挖掘目标语句中的主谓片段进行成分划分,将划分出的所有成分对应写入事件知识实例的主实体、宾实体和动作中;确定获得的事件挖掘目标语句中的动宾片段存在主语片段时,将主语片段写入事件知识实例的主实体中,并对动宾片段进行成分划分,将划分出的所有成分对应写入事件知识实例的宾实体和动作中;然后将获得的事件挖掘目标语句中除主谓片段、动宾片段之外的句法片段进行成分划分,将划分出的所有成分对应写入事件知识实例的修饰信息和约束信息中;其中,成分包括主语、谓语、宾语、主语定语、状语和宾语定语中的一种或多种。

[0044] 在本实施例中,根据句法片段中包含的动宾片段和主谓片段获得的事件挖掘目标语句为:

[0045] event_l挖掘目标语句:91无线,网龙公司的子公司,是中国领先的移动互联网公司;

[0046] event_2 挖掘目标语句:在 Sj.91.com 和 apk.hiapk.com 网站上,它为 iPhone 操作系统和Android操作系统开发和运行两大智能手机应用分发平台。

[0047] 在获得对应的事件挖掘目标语句之后,可以围绕动词开展挖掘,即可以先对事件挖掘目标语句中的主谓片段和动宾片段进行成分划分,然后对其他句法片段进行成分划分。

[0048] 在本实施例中,首先对event_2挖掘目标语句的主谓片段进行主语、主语定语、谓语核心动词、状语以及宾语和宾语定语等成分的划分,并将其分别写入事件知识实例的主实体、宾实体以及动作之中。

[0049] 例如,将“它为iPhone操作系统和Android操作系统开发和运行两大智能手机应用分发平台”划分为以下成分:

[0050] 主语:它;状语:iPhone操作系统和Android操作系统;动词:开发和运行;宾语:两大智能手机应用分发平台,然后将划分后的成分写入表1所示的事件知识库的事件知识实例中,写入后的事件知识库如表2所示。

[0051] 表2写入主谓片段后的事件知识库

Figure CN103699689AD00091

[0053] 然后,对event_l挖掘目标语句的动宾片段进行成分划分,首先判断整条句子中是否存在主语片段,如果存在,将其写入事件知识实例的主实体部分,之后,采取依存句法挖掘寻找出动宾片段中的动词、状语、宾语以及宾语定语等成分,并将其分别写入对应事件知识实例的宾实体以及动作之中,如果不存在主语片段,则直接抛弃当前待挖掘片段。

[0054] 例如,将“是中国领先的移动互联网公司”划分为以下成分:

[0055] 动词:是;宾语:移动互联网公司;宾语定语:中国领先;然后将划分后的成分写入表2所示的事件知识库的事件知识实例中,写入后的事件知识库如表3所示。

[0056] 表3写入动宾片段后的事件知识库

Figure CN103699689AD00101

[0058] 最后,添加其他修饰成分,例如将event_2挖掘目标语句的状语片段作为右侧最近一个核心动作的约束,添加至事件知识实例之中。例如,将状语片段:“在Sj.91.com和apk.hiapk.com网站上”加入到事件知识库的事件知识实例中,如表4所示。

[0059] 表4写入状语片段后的事件知识库

Figure CN103699689AD00102

[0061] 然后,将名词谓语句片段对应加入事件知识库的事件知识实例中,具体地,首先判断整条句子中是否存在主语片段,如果存在,将其写入对应事件知识实例的主实体的修饰部分,如果不存在主语片段,则直接抛弃当前片段。例如,将名词谓语句片段“网龙公司的子公司”加入事件知识库的事件知识实例中,如表5所示。

[0062] 表5写入名词谓语句片段后的事件知识库

Figure CN103699689AD00111

[0064] 其中,表中用加粗字体标注的部分为当前表中的新增部分,通过上述表1-表5可以看出事件知识库的动态构建过程。

[0065] 由此可见,本发明实施例主要通过从网页文本句子中碎片化地收集并填充预定义结构的事件知识库的方式来收集事件知识实例。但对于一个完整的事件,单个事件中的信息可能是片面的,以表6中的三条事件知识实例为例,这三条事件知识实例分别从不同的侧面以不同的语序描述了 “百度收购91无线”这样一个事件,但仅通过一条事件知识实例所获取的信息是片面的。

[0066] 表6写入三条事件知识实例的事件知识库

[0067]

Figure CN103699689AD00121

[0068] 而为了保证在事件知识库中,能够尽可能多地收集一个事件相关信息,我们需要对上述碎片化的事件知识实例进行融合,从而形成一条包含更多细节信息、更为完整的事件知识实例。

[0069] 因此,如图2所示,该方法在步骤S104之后,还可以包以下步骤:

[0070] S105,对事件知识库中的事件知识实例进行聚类分析,获得等价事件集合。

[0071] 该步骤S105具体可以包括:对事件知识库中的主实体、宾实体且动作的约束信息一致的所有事件知识实例进行聚类,获得第一等价事件,抽取出第一等价事件中的核心动作,生成等价动作词典;以及对事件知识库中的主实体和宾实体一致的所有事件知识实例进行聚类,获得第二等价事件,根据等价动作词典从第二等价事件中挑选出所有核心动作等价的事件知识实例,生成等价事件集合。

[0072] S106,将等价事件集合中所有事件知识实例的信息写入事件知识库中,形成一个新的事件知识实例。

[0073] 对表6知识库中包含的三条事件知识实例进行融合处理过程如下:

[0074] 首先,对施事主实体和受事主实体且约束信息不冲突的所有事件知识实例进行聚类,将同一类别中的所有事件知识实例视为“等价事件”,抽取等价事件的核心动作,形成“等价动作词典”,在此实施例中,“等价动作词典”为“收购、并购和被收购”;再次对施事主实体和受事主实体一致的所有事件知识实例进行聚类,并根据“等价动作词典”从聚类中挑选所有核心动作等价的事件知识实例,形成等价事件集合,在该等价事件集合中的事件知识实例为:event_l, event_2以及event_3 ;然后,选取等价事件集合中的任意事件知识实例为核心事件EV,将集合中其余事件的所有约束以及主实体修饰属性融合进EV之中,形成最终的融合事件知识,并最终加入事件知识库,由知识库分配独立的事件ID。通过上述融合处理,event_l, event_2以及event_3将被融合成一个全新的事件知识实例event_4,如表7所示。

[0075] 表7融合后的事件知识库

Figure CN103699689AD00131

[0077] 上述事件知识库的构建方法,通过预定义的事件知识结构和获得的语法片段可以构建事件知识库,基于该事件知识库能够将网页知识进行结构化并进一步支持知识之间的推理和计算;另外,还可以对相关事件进行融合,从而可以在用户进行深度知识搜索时,为用户提供准确的搜索结果,进而提高了用户的搜索体验。

[0078] 图3是根据本发明一个实施例的事件知识库的构建装置的结构示意图。

[0079] 如图3所示,该事件知识库的构建装置包括:识别模块310、切分模块320、生成模块330和写入模块340,其中:

[0080] 识别模块310用于对文本进行识别,识别出事件挖掘候选语句;切分模块320用于对上述识别模块识别出的上述事件挖掘候选语句进行片段切分,获得句法片段;生成模块330用于根据切分模块获得的句法片段和预定义的事件知识结构,生成事件知识实例,其中,事件知识实例的个数等于句法片段中包含的动宾片段和主谓片段的个数;写入模块340用于根据句法片段中包含的动宾片段和主谓片段获得对应的事件挖掘目标语句,对获得的事件挖掘目标语句进行成分划分,并将划分后的成分对应写入事件知识实例中,以完成事件知识库的构建。

[0081] 在本实施例中,上述句法片段包括主谓片段、动宾片段、状语片段、主语片段和名词谓语片段中的一种或多种。上述预定义的事件知识结构包括事件知识实例标识、主实体、宾实体和动作四个属性,上述主实体包括动作的发起者对应的实体信息及其修饰信息,上述宾实体包括动作的承受者对应的实体信息及其修饰信息,上述动作包括核心动作及其约束信息,其中:

[0082] a)事件知识实例标识:是事件知识实例的唯一独立标识,主要由事件知识库分配,存储于事件ID属性中;单个事件知识实例中有且仅有一个ID ;

[0083] b)主实体:标识事件的动作发起者(被字句的主语也算发起者);其“实体”属性域存放实体名以及实体语义ID,而修饰属性域(一个实体可以存在多个修饰属性)存放实体的修饰和限定成份;单个事件知识中,至少需要存在一个主实体属性;主实体可为复数;当然,上述修饰属性域中存放的就是修饰信息;

[0084] c)宾实体:标识事件的动作承受者;其“实体”属性域存放实体名以及实体语义ID ;除了实体词之外,数量词(如,10.39%股份)、时间(日期、时分秒)、时间区间(XX日至YY日、AA点至BB点)、资源UrUuri等)、电话/邮编、位置/方向(如食堂、南边)、工具/材料(如毛线、工资)、比较(如一比二)、方式手段(如手术、低音)、枚举词(如星座、血型)以及普通名词(如手机应用分发平台)等词汇也可以充当宾实体;修饰属性域,主要用于存放宾实体的修饰和限定成分;单个事件知识中,宾实体可缺失;如“乔布斯去世”;当然,上述修饰属性域中存放的就是修饰信息。

[0085] d)动作:标识事件中主实体在事件中的行为;“核心动作”标识主实体的行为本身,单个事件知识中,有且仅有一个核心动作属性(可以存在并列动作,如“开发和运行”);约束属性用于对核心动作进行修饰,约束属性可以存在多个;为约束可以标识上具体属性类型(例如,时间、价格、状态、方位等),并为其对应的属性值指定类型(例如,数量词类型、实体类型)。

[0086] 上述写入模块340在获得对应的事件挖掘目标语句之后,可以围绕动词开展挖掘,即可以先对事件挖掘目标语句中的主谓片段和动宾片段进行成分划分,然后对其他句法片段进行成分划分。

[0087] 具体地,上述写入模块340可以用于:对获得的事件挖掘目标语句中的主谓片段进行成分划分,将划分出的所有成分对应写入上述事件知识库中对应事件知识实例的主实体、宾实体和动作中;在确定获得的事件挖掘目标语句中的动宾片段存在主语片段时,将上述主语片段写入上述事件知识库中对应事件知识实例的主实体中,对上述动宾片段进行成分划分,将划分出的所有成分对应写入上述事件知识库中对应事件知识实例的宾实体和动作中;以及将获得的事件挖掘目标语句中除主谓片段、动宾片段之外的句法片段进行成分划分,将划分出的所有成分对应写入上述事件知识库中对应事件知识实例的修饰信息和约束信息中;其中,上述成分包括主语、谓语、宾语、主语定语、状语和宾语定语中的一种或多种。

[0088] 另外,该装置还可以包括丢弃模块350,如图4所示,该丢弃模块350用于确定获得的事件挖掘目标语句中的动宾片段不存在主语片段时,丢弃上述动宾片段。

[0089] 包含上述识别模块310、切分模块320、生成模块330、写入模块340和丢弃模块350的装置的工作过程可参见图1,此处不赘述。

[0090] 进一步地,该装置还可以包括:融合模块360,融合模块360用于在上述写入模块340将划分后的成分对应写入上述事件知识实例中之后,对上述事件知识库中的事件知识实例进行聚类分析,获得等价事件集合;以及将上述等价事件集合中所有事件知识实例的信息写入上述事件知识库中,形成一个新的事件知识实例。

[0091] 具体地,上述融合模块360可以用于:对事件知识库中的主实体、宾实体且动作的约束信息一致的所有事件知识实例进行聚类,获得第一等价事件,抽取出第一等价事件中的核心动作,生成等价动作词典;以及对事件知识库中的主实体和宾实体一致的所有事件知识实例进行聚类,获得第二等价事件,根据等价动作词典从第二等价事件中挑选出所有核心动作等价的事件知识实例,生成等价事件集合。

[0092] 包含上述识别模块310、切分模块320、生成模块330、写入模块340、丢弃模块350和融合模块360的装置的工作过程可参见图2,此处不赘述。

[0093] 上述事件知识库的构建装置,通过预定义的事件知识结构和获得的语法片段可以构建事件知识库,基于该事件知识库能够将网页知识进行结构化并进一步支持知识之间的推理和计算;另外,还可以对相关事件进行融合,从而可以在用户进行深度知识搜索时,为用户提供准确的搜索结果,进而提高了用户的搜索体验。

[0094] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

[0095] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

[0096] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

一种网页信息提取的方法和设备 【百度】

技术领域

[0001] 本发明涉及搜索引擎技术,尤其涉及一种网页信息提取的方法和设备。

背景技术

[0002] 随着互联网上信息的爆炸性增加,如何能够从海量信息中找到有用信息已经成为用户的最大愿望,人们也付出了很多努力来寻找解决方法。搜索引擎的出现在一定程度上满足了用户的需求,如百度、谷歌、雅虎等。

[0003] 在现有技术中,用户通常是输入查询序列进行检索,搜索引擎从互联网中找到匹配该查询序列的网页,然后将网页的标题网页的URL地址以及一段来自网页的摘要信息在搜索结果页中进行显示,供用户判断该网页是否具有其所需要的信息,在大多数情况下,网页的摘要信息并不携带可以反映该网页特征的关键信息,而仅仅是从网页文本中基于用户查询序列抽取的一段文字。但是实际上,用户往往最终是通过这些关键信息来判断哪些网页才是其所需要的,这是因为,对于不同页面类型的网页来说,除了标题、正文等内容主体之外,可以反映该网页特征的关键信息是不同的,例如,对于新闻页面来说,新闻的发布时间和新闻的来源对于用户是非常重要的,因为用户不会关注过期的新闻或者来源不可靠的新闻;对于论坛页面来说,回帖人数和回帖时间说明了谈论主题受欢迎的程度,用户往往借此来判断是否应该对该主题进行关注;而对于文件下载页面来说,用户通常会选择被下载次数多的文件进行下载,等等。因此,目前搜索结果页中所提供的信息是无法让用户快速、准确地判断其需要的网页,用户必须要根据摘要信息先筛选部分网页,然后逐一进入到这些网页中通过其中的关键信息进行最终的确定。如此一来,用户不但需要执行多次点击操作,还需要花费大量时间浏览网页内容,从而大大降低了用户的搜索效率。

[0004] 因此,亟需提出一种可以快速、有效地提取出可以反映该网页特征的关键信息的方法和设备。

发明内容

[0005] 本发明的目的是提供一种网页信息提取的方法和设备,可以快速、有效地将网页中可以反映该网页特征的关键信息提取出来。

[0006] 根据本发明的一个方面,提供了一种网页信息提取的方法,该方法包括以下步骤:

[0007] 根据用户搜索时输入的查询序列进行搜索,获取与所述查询序列相匹配的网页;

[0008] 从所述网页中提取出可以反映该网页特征的关键信息;

[0009] 将所述关键信息在搜索结果中进行显示。

[0010] 根据本发明的另一个方面,还提供了一种网页信息提取的设备,包括:

[0011] 匹配搜索装置,用于根据用户搜索时输入的查询序列进行搜索,获取与所述查询序列相匹配的网页;

[0012] 信息提取装置,用于从所述网页中提取出可以反映该网页特征的关键信息;

[0013] 结果展示装置,用于将所述关键信息在搜索结果中进行显示。

[0014] 与现有技术相比,本发明具有以下优点:可以快速、有效地将网页中可以反映该网页特征的关键信息提取出来,并将该关键信息提供给用户,便于用户根据该关键信息准确判断是否需要查看该网页,从而提高了用户的搜索效率,提升了用户的使用体验。

附图说明

[0015] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

[0016] 图1为根据本发明一个方面的网页信息提取的方法流程图;

[0017] 图2为根据本发明一个优选实施例的从网页中提取出可以反映该网页特征的关键信息的方法流程图;

[0018] 图3为根据本发明另一个优选实施例的从网页中提取出可以反映该网页特征的关键信息的方法流程图;

[0019] 图4为根据本发明一个优选实施例的网页模板库建立的方法流程图;

[0020] 图5为根据本发明一个优选实施例的在所搜索结果中对所述关键信息进行展示的不意图;

[0021] 图6为根据本发明一个优选实施例的网页信息提取的设备示意图;

[0022] 图7为根据本发明另一个优选实施例的网页信息提取的设备示意图;以及

[0023] 图8为根据本发明一个优选实施例的模板库建立装置示意图。

具体实施方式

[0024] 下面结合附图对本发明作进一步详细描述。

[0025] 图1为根据本发明一个方面的网页信息提取的方法流程图,如图所示,该方法包括以下步骤:

[0026] 在步骤SlOl中,根据用户搜索时输入的查询序列进行搜索,获取与所述查询序列相匹配的网页。

[0027] 具体地,获取用户在搜索引擎(如计算机搜索引擎或者手机搜索引擎)中输入的查询序列后,基于该查询序列在互联网的网页内进行搜索,以获取与所述查询序列相匹配的网页,其中,实现搜索匹配为本领域技术人员所公知的技术,在此不再赘述。

[0028] 接着,执行步骤S102,从所述网页中提取出可以反映该网页特征的关键信息。

[0029] 具体地,用户往往是通过网页中的一些关键信息,来判断一个网页是否是其所需要的,例如,对于提供新闻的网页,用户需要根据新闻的发布时间以及新闻的来源判断新闻的时效性,而对于提供文件下载的网页,用户需要根据下载次数来判断该文件是否是优质资源,其中,新闻的发布时间以及来源就是该新闻网页的关键信息,而下载次数就是该下载网页的关键信息,这些关键信息对于用户来说是非常重要的。本发明提供了两种从网页中提取出关键信息的方法。下面对第一种方法进行说明,如图2所示,该方法包括以下步骤:

[0030] 在步骤S1021中,获取所述网页的配置文件,该配置文件中包括可以反映该网页特征的关键信息的位置信息。

[0031] 具体地,互联网站点在形成网页的时候,网页的开发者可以按照一定的规则在网页内形成配置文件,将该网页的关键信息的位置信息记录在该配置文件中,其中,所述位置信息优选为该关键信息在网页内的XPath路径。这些配置文件在用户查看网页的时候是看不到的,而搜索引擎通过一定的方式可以从网页内获取到该配置文件并对其内容进行解析。在本实施例中,所述配置文件为嵌入在所述网页内的XML文件。

[0032] 在步骤S1022中,根据所述关键信息的位置信息,从所述网页中提取出所述关键信息。

[0033] 具体地,在获取了关键信息在网页中的XPath路径后,即可根据该XPath路径,从网页中提取出所述关键信息。

[0034] 对于不具有配置文件的网页,可以采用第二种方法提取关键信息,请参考图3,如图所示,该方法的步骤包括:

[0035] 步骤S1021’,在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板;以及,步骤S1022’,根据所述网页模板,从所述网页中提取出所述关键信息。

[0036] 由于这种方法是基于网页模板库的,所以在对这种方法进行具体描述之前,首先对网页模板库进行说明,请参考图4,图4为根据本发明一个优选实施例的网页模板库建立的方法流程图,如图所示,该方法包括如下步骤:

[0037] 步骤S401,确定网页的页面类型。

[0038] 具体地,由于不同页面类型的网页,其关键信息也是不同的,例如,提供新闻的网页,其关键信息主要是新闻的发布时间以及新闻的来源,而提供文件下载的页面,其关键信息主要是文件被下载的次数,因此,需要首先确定互联网中网页的页面类型。在确定网页的页面类型时,主要的依据是网页的结构和主题这两个特征,这是因为,同一种页面类型的网页通常会具有相似的结构和/或相近的主题,例如,大部分论坛性质的网页,其结构会比较相似,即,必定会有一个首贴,如果有回帖的话,回帖会在首贴后以“楼层”的形式逐一排列,且各回帖在外观上是相似的;而大部分提供商品信息的网页,其主题都会比较相似,即,均会在网页内显示商品的信息,例如价格、出厂日期等。所以,可以将具有相似结构和/或主题的网页划分至同一页面类型下。基于对大量网页的结构和/或主题的分析,可以将网页主要分为以下几种类型:视频页面、图片页面、下载页面、论坛页面、博客页面、新闻页面、小说页面、问答页面、黄页页面以及商情页面,其中,所述大量网页是搜索引擎从互联网上抓取回来的,其数量可以高达百万甚至千万,通常存放在网页库中。

[0039] 步骤S402,对于各网站下不同页面类型的网页,提取出相应的网页模板。

[0040] 具体地,对于同一种页面类型的网页来说,尽管这些网页的结构和/或主题是相似的,但是如果这些网页是分别属于不同的站点,那么形成这些网页所使用的网页模板是不同的,也就是说,同一站点下同一种页面类型的网页,其关键信息的内容以及关键信息在网页中的位置信息是相同的(在某些情况下,同一站点下同一种页面类型的网页也会采用不同的网页模板,例如新模板和旧模板),而不同站点下同一种页面类型的网页,其关键信息的内容以及关键信息在网页中的位置信息必然是不同的。因此,如果希望准确地提取出关键信息,在确定了网页的页面类型后,还需要根据网页所属的站点对网页进一步进行分类,将同一站点下同一种页面类型的网页划分在一起,从而便于在后续的步骤中对网页模板进行提取。

[0041] 在对同一种页面类型的网页进行划分的时候,常用的一种方法是根据网页的URL地址进行划分,这是因为同一个站点下网页的URL地址往往具有一定的规律性。以问答页面为例说明,例如,“百度知道”网页的URL地址中包括“http: //zhida0.baidu.com/quest1n/”,而 “SOSO 问问”网页的 URL 地址中则包括“http://wenwen.sos0.com/z/”,因此,通过网页的URL地址可以准确地将同一页面类型的网页按照站点进行分类。

[0042] 接着,对同一站点下同一种页面类型的网页进行网页模板的提取,即提取这些网页中的任何一个网页的网页模板,作为这些网页共同的网页模板,其中,网页模板的提取是本领域的技术人员所公知的技术,在此不再进行赘述。但是,由于在某些情况下,同一站点下同一种页面类型的网页有可能会采用不同的网页模板,例如新模板和旧模板,那么在网页模板提取前,优选地,还需要对同一站点下同一种页面类型的网页是否采用的是相同的网页模板进行判断,从而可以有效地保证最终提取出的网页模板能够覆盖到尽可能多的网页。

[0043] 对同一站点下同一种页面类型的网页是否采用的是相同的网页模板进行判断的方法如下:获取同一站点下具有相同页面类型的大量网页,对网页中的内容进行分析,提取出在网页中出现频率比较高的词条(下文用高频词表示)及该高频词在网页内的位置信息,例如该高频词的XPath路径或者该高频词在网页中的物理坐标,对于内容相同且位置信息也相同的高频词,则可以认为这些高频词所对应的网页使用的是相同的网页模板,那么提取这些网页中的任何一个网页的网页模板即可。以“百度知道”为例,经过对大量“百度知道”网页内容的分析,可以发现“最佳答案”、“悬赏分”、“解决时间”、“提问者”、“浏览次数”、“回答者”以及“其他回答”这些词条在“百度知道”网页中出现的频率远远高于其他词条出现的频率,因此,认为上述词条为“百度知道”网页的高频词,然后获取这些高频词在每个网页中的XPath路径,并对所有高频词的XPath路径进行比较,如果比较的结果显示同一高频词在所有网页中的XPath路径均相同,则认为所有的网页均采用相同的网页模板,那么提取这些网页中的任何一个网页的网页模板,即可作为这些网页共同的网页模板;如果比较的结果显示有同一个高频词具有两个或者两个以上XPath路径,则认为这些网页采用了两个或者两个以上网页模板,那么需要分别进行提取。

[0044] 除了通过利用高频词对是否采用相同的网页模板进行判断之外,在其他实施例中,还可以提取同一站点下具有相同页面类型的大量网页中的一个或者几个特型值,然后通过比较该一个或者几个特型值在这些网页中的位置信息是否相同来进行判断。仍以“百度知道”为例进行说明,“百度知道”网页中,问题解决的具体时间即为一个特型值,是其他页面类型的网页所不具备的,那么,对大量“百度知道”网页中问题解决时间的XPath路径进行抽取比较,如果这些XPath路径相同,则认为这些网页采用的是相同的网页模板,否则可以认为这些网页采用了多个网页模板,其中,提取的特型值的数量越多,判断越为准确。此外,如果是基于高频词来提取网页模板的,则在网页模板中对该高频词进行标注,如果是基于特型值来提取网页模板的,则在网页模板中对该特型值进行标注。

[0045] 步骤S403,基于所述页面类型对每一种网页模板下的网页进行分析,确定可以反映该网页特征的关键信息在网页内的位置信息。

[0046] 具体地,对每一种网页模板下的网页进行分析,从其DOM树中提取出这些网页共同的节点信息,即,不发生变化的节点信息。仍以上述“百度知道”为例进行说明,经分析,文本节点“最佳答案”、“悬赏分”、“解决时间”、“提问者”、“浏览次数”、“回答者”以及“其他回答”即为“百度知道”网页共同的节点信息。其中,每个文本节点都会对应相应的内容,例如,“解决时间”的内容为具体的日期,“浏览次数”的内容为具体的数值。

[0047] 由于提取出的节点信息是这些网页所共有的,所以在这些节点信息所对应的内容中,必然包括了可以反映该网页特征的关键信息。那么接下来,根据该网页的页面类型,从所述节点信息中获取可以反映该网页特征的关键信息在所述页面中的位置信息。仍以上述“百度知道”为例进行说明,“百度知道”的页面类型为问答页面,对于问答页面,用户往往比较关注问题的具体解决时间、以及有多少答案可以供参考,所以,在众多提取出来的文本节点中,“解决时间”所对应的具体内容以及“回答者”的个数才是真正可以反映“百度知道”网页特征的关键信息,因此,从DOM树中提取出“解决时间”以及“回答者”所对应内容的XPath路径。

[0048] 上述DOM树的节点信息分析以及关键信息XPath路径的提取,均为本领域技术人员所公知的技术,在此不再赘述。

[0049] 步骤S404,记录网页模板、关键信息的位置信息、以及网页模板与关键信息的位置信息之间的对应关系,建立网页模板库。

[0050] 具体地,对于不同的网页模板,在关键信息的位置信息确定后,记录所述网页模板、所述位置信息及其之间的对应关系,形成网页模板库。优选地,需要定期更新网页模板库,从而保证网页模板库中的网页模板可以覆盖到尽可能多的网页。

[0051] 下面,基于上述网页模板库继续对提取网页关键信息的第二种方法进行说明,如图3所示,首先执行步骤S1021’,在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板。

[0052] 具体地,对于搜索结果中的网页,首先提取出该网页的URL地址,通过该URL地址可以确定该网页所属的站点,并且可以初步确定该网页所可能对应的网页模板。每个网页模板中会标注有高频词,提取该高频词及其位置信息,然后在该网页中对该高频词及其位置信息进行匹配,如果该网页中高频词及其位置信息与某一个网页模板中的完全相同,那么认为二者匹配成功,即可以确认该网页所采用的是哪个网页模板。对于网页中对特型值标注的情况,其处理过程相似,在此不再赘述。

[0053] 在其他实施例中,还可以根据所述网页的URL地址,从关联文件中获取所述网页URL地址与网页模板之间的对应关系,其中,所述关联文件是预先制定好的,其记录了网页URL地址和网页模板之间的对应关系,例如,凡是包括“http://zhida0.baidu.com/quest1n/”字样的URL地址的网页均是采用“百度知道”的网页模板,那么如果搜索结果中网页的 URL 地址为 ^http://zhida0.baidu.com/ quest 1n/121922729.html”,则认为该网页采用的是网页模板库中“百度知道”的网页模板。

[0054] 接着,执行步骤S1022’,根据所述网页模板,从所述网页中提取出所述关键信息。

[0055] 具体地,在网页模板库中,存在与每个网页模板相对应的关键信息的位置信息,所以,在确定了所述网页采用的网页模板后,从网页模板库中可以直接获取到关键信息的位置信息,根据该位置信息,即可从所述网页中提取出可以反映该网页特征的关键信息。

[0056] 优选地,在形成网页模板库的过程中,当已经将网页模板和关键信息的位置信息进行对应之后,还可以根据所述网页模板和所述位置信息,将该网页模板下所有网页中的关键信息预先提取出来。如果搜索结果中的网页包括在网页库中,则可以直接获得该网页的关键信息,从而更加有效地提高用户的搜索效率。

[0057] 优选地,对于具有配置文件的网页,除了根据配置文件中的信息提取出所述网页的关键信息外,还可以利用上述提取关键信息的第二种方法来获取其关键信息,并将两种方法所获得的关键信息进行合并,如此一来,可以更加准确地获取到所述网页的关键信息。

[0058] 继续参考图1,执行步骤S103,将所述关键信息在搜索结果中进行显示。

[0059] 具体地,在搜索结果中,除了和传统显示方式一样,将所述网页的标题、摘要信息以及URL地址进行显示之外,还要将提取出的关键信息也展示给用户,使得用户可以通过参考该关键信息,对是否需要点击查看该网页做出判断。请参考图5,图5为根据本发明一个优选实施例的在所搜索结果中对所述关键信息进行展示的示意图,如图所示,用户的查询序列为“搜索引擎如何工作”,在搜索结果页中,第一条搜索结果所返回的网页是论坛页面,其中黑色框中的内容即为该网页的关键信息,该关键信息可以反映出“搜索引擎如何工作”这个主题在该网页内受到关注的程度,对于第二条搜索结果亦是如此,第二搜索结果所返回的网页是问答页面,黑色框中的关键信息反映了“搜索引擎如何工作”这个问题的回答情况。这些关键信息有助于用户对搜索结果的选择。本领域的技术人员应该理解,关键信息显示的位置、方式等可以有多种选择,在此对其不做任何的限定。

[0060] 执行上述步骤后,可以快速、有效地将网页中可以反映该网页特征的关键信息提取出来,并将该关键信息提供给用户,便于用户根据该关键信息准确判断是否需要查看该网页,从而提高了用户的搜索效率,提升了用户的使用体验。

[0061] 相应地,本发明还提供了一种网页信息提取的设备,请参考图6,图6为根据本发明一个优选实施例的网页信息提取的设备示意图。如图所示,该设备包括匹配搜索装置601、信息提取装置602以及结果展示装置603,下面对上述装置的具体工作过程进行说明。

[0062] 首先,所述匹配搜索装置601获取用户在搜索引擎(如计算机搜索引擎或者手机搜索引擎)中输入的查询序列后,基于该查询序列在互联网的网页内进行搜索,以获取与所述查询序列相匹配的网页。

[0063] 接着,所述信息提取装置602从所述网页中提取出可以反映该网页特征的关键信肩、O

[0064] 具体地,互联网站点在形成网页的时候,网页的开发者可以按照一定的规则在网页内形成配置文件,将该网页的关键信息的位置信息记录在该配置文件中,其中,所述位置信息优选为该关键信息在网页内的XPath路径。在本实施例中,所述配置文件为嵌入在所述网页内的XML文件。对于具有配置文件的网页,所述信息提取装置602从所述网页中获取并解析其配置文件,提取出关键信息的位置信息,并根据所述关键信息的位置信息,从所述网页中提取出所述关键信息。

[0065] 最后,如图5所示,所述结果展示装置603将所述网页的标题、摘要信息、URL地址、以及提取出的关键信息展示给用户,使得用户可以通过参考该关键信息,对是否需要点击查看该网页做出判断。本领域的技术人员应该理解,所述结果展示装置603对关键信息显示的位置、方式等可以有多种选择,在此对其不做任何的限定。

[0066] 请参考图7,图7为根据本发明另一个优选实施例的网页信息提取的设备示意图。如图所示,该设备包括匹配搜索装置601、信息提取装置602、结果展示装置603、模板匹配装置604以及模板库建立装置605,下面对上述装置的具体工作过程进行说明。

[0067] 首先,所述匹配搜索装置601获取用户在搜索引擎(如计算机搜索引擎或者手机搜索引擎)中输入的查询序列后,基于该查询序列在互联网的网页内进行搜索,以获取与所述查询序列相匹配的网页。

[0068] 接着,所述模板匹配装置604在网页模板库70中对所述网页进行匹配,获取与所述网页相对应的网页模板,所述信息提取装置602根据所述网页模板,从所述网页中提取出所述关键信息。

[0069] 在对所述模板匹配装置604和信息提取装置602的工作过程进行具体说明之前,首先对网页模板库70进行说明,其中,所述网页模板库70是由所述模板库建立装置605建立起来的,所述网页模板库70包括网页模板、可以反映该网页模板下网页特征的关键信息的位置信息及其二者之间的对应关系。如图8所示,所述模板库建立装置605包括类型确定单元6051、模板提取单元6052、网页分析单元6053以及信息记录单元6054,其中:

[0070] 所述类型确定单元6051,用于确定网页的页面类型。

[0071] 具体地,基于对大量网页的结构和/或主题的分析,所述类型确定单元6051将具有相似结构和/或主题的网页划分至同一页面类型下,其中,所述页面类型包括视频页面、图片页面、下载页面、论坛页面、博客页面、新闻页面、小说页面、问答页面、黄页页面或者商情页面。

[0072] 所述模板提取单元6052,用于对于各网站下不同页面类型的网页,提取出相应的网页模板。

[0073] 具体地,对于同一种页面类型的网页来说,尽管这些网页的结构和/或主题是相似的,但是如果这些网页是分别属于不同的站点,那么形成这些网页所使用的网页模板是不同的,也就是说,同一站点下同一种页面类型的网页,其关键信息的内容以及关键信息在网页中的位置信息是相同的(在某些情况下,同一站点下同一种页面类型的网页也会采用不同的网页模板,例如新模板和旧模板),而不同站点下同一种页面类型的网页,其关键信息的内容以及关键信息在网页中的位置信息必然是不同的。因此,如果希望准确地提取出关键信息,在所述类型确定单元6051确定了网页的页面类型后,所述模板提取单元6052还需要根据网页所属的站点对网页进一步进行分类,将同一站点下同一种页面类型的网页划分在一起,从而便于在后续的步骤中对网页模板进行提取。

[0074] 在所述模板提取单元6052对同一种页面类型的网页进行划分的时候,常用的一种方法是根据网页的URL地址进行划分,这是因为同一个站点下网页的URL地址往往具有一定的规律性。以问答页面为例说明,例如,“百度知道”网页的URL地址中包括“http://zhida0.baidu.com/quest1n/”,而“S0S0 问问”网页的 URL地址中则包括“http://wenwen.sos0.com/z/",因此,通过网页的URL地址,所述模板提取单元6052可以准确地将同一页面类型的网页按照站点进行分类。

[0075] 接着,所述模板提取单元6052对同一站点下同一种页面类型的网页进行网页模板的提取,即提取这些网页中的任何一个网页的网页模板,作为这些网页共同的网页模板,其中,网页模板的提取是本领域的技术人员所公知的技术,在此不再进行赘述。但是,由于在某些情况下,同一站点下同一种页面类型的网页有可能会采用不同的网页模板,例如新模板和旧模板,那么在网页模板提取前,优选地,所述模板提取单元6052还需要对同一站点下同一种页面类型的网页是否采用的是相同的网页模板进行判断,从而可以有效地保证最终提取出的网页模板能够覆盖到尽可能多的网页。

[0076] 所述模板提取单元6052对同一站点下同一种页面类型的网页是否采用的是相同的网页模板进行判断的方法如下:所述模板提取单元6052获取同一站点下具有相同页面类型的大量网页,对网页中的内容进行分析,提取出在网页中出现频率比较高的词条(下文用高频词表示)及该高频词在网页内的位置信息,例如该高频词的XPath路径或者该高频词在网页中的物理坐标,对于内容相同且位置信息也相同的高频词,则所述模板提取单元6052认为这些高频词所对应的网页使用的是相同的网页模板,那么提取这些网页中的任何一个网页的网页模板即可。以“百度知道”为例,经过对大量“百度知道”网页内容的分析,可以发现“最佳答案”、“悬赏分”、“解决时间”、“提问者”、“浏览次数”、“回答者”以及“其他回答”这些词条在“百度知道”网页中出现的频率远远高于其他词条出现的频率,因此,所述模板提取单元6052认为上述词条为“百度知道”网页的高频词,然后所述模板提取单元6052获取这些高频词在每个网页中的XPath路径,并对所有高频词的XPath路径进行比较,如果比较的结果显示同一高频词在所有网页中的XPath路径均相同,则认为所有的网页均采用相同的网页模板,那么提取这些网页中的任何一个网页的网页模板,即可作为这些网页共同的网页模板;如果比较的结果显示有同一个高频词具有两个或者两个以上XPath路径,则认为这些网页采用了两个或者两个以上网页模板,那么需要分别进行提取。

[0077] 除了通过利用高频词对是否采用相同的网页模板进行判断之外,在其他实施例中,所述模板提取单元6052还可以提取同一站点下具有相同页面类型的大量网页中的一个或者几个特型值,然后通过比较该一个或者几个特型值在这些网页中的位置信息是否相同来进行判断。仍以“百度知道”为例进行说明,“百度知道”网页中,问题解决的具体时间即为一个特型值,是其他页面类型的网页所不具备的,那么,所述模板提取单元6052对大量“百度知道”网页中问题解决时间的XPath路径进行抽取比较,如果这些XPath路径相同,则认为这些网页采用的是相同的网页模板,否则可以认为这些网页采用了多个网页模板,其中,提取的特型值的数量越多,判断越为准确。此外,如果所述模板提取单元6052是基于高频词来提取网页模板的,则在网页模板中对该高频词进行标注,如果所述模板提取单元6052是基于特型值来提取网页模板的,则在网页模板中对该特型值进行标注。

[0078] 所述网页分析单元6053,用于基于所述页面类型对每一种网页模板下的网页进行分析,确定可以反映该网页特征的关键信息在网页内的位置信息。

[0079] 具体地,所述网页分析单元6053对每一种网页模板下的网页进行分析,从其DOM树中提取出这些网页共同的节点信息,即,不发生变化的节点信息。仍以上述“百度知道”为例进行说明,经所述网页分析单元6053分析,文本节点“最佳答案”、“悬赏分”、“解决时间”、“提问者”、“浏览次数”、“回答者”以及“其他回答”即为“百度知道”网页共同的节点信息。其中,每个文本节点都会对应相应的内容,例如,“解决时间”的内容为具体的日期,“浏览次数”的内容为具体的数值。

[0080] 由于所述网页分析单元6053提取出的节点信息是这些网页所共有的,所以在这些节点信息所对应的内容中,必然包括了可以反映该网页特征的关键信息。那么接下来,所述网页分析单元6053根据该网页的页面类型,从所述节点信息中获取可以反映该网页特征的关键信息在所述页面中的位置信息。仍以上述“百度知道”为例进行说明,“百度知道”的页面类型为问答页面,对于问答页面,用户往往比较关注问题的具体解决时间、以及有多少答案可以供参考,所以,在众多提取出来的文本节点中,“解决时间”所对应的具体内容以及“回答者”的个数才是真正可以反映“百度知道”网页特征的关键信息,因此,从DOM树中提取出“解决时间”以及“回答者”所对应内容的XPath路径。

[0081] 对于不同的网页模板,在关键信息的位置信息确定后,所述信息记录单元6054记录所述网页模板、所述位置信息及其之间的对应关系,形成网页模板库70。优选地,所述模板库建立装置605需要定期更新网页模板库70,从而保证网页模板库70中的网页模板可以覆盖到尽可能多的网页。

[0082] 下面,基于上述网页模板库70继续对所述模板匹配装置604和信息提取装置602进行说明。

[0083] 所述模板匹配装置604,在网页模板库70中对所述网页进行匹配,获取与所述网页相对应的网页模板。

[0084] 具体地,对于搜索结果中的网页,所述模板匹配装置604首先提取出该网页的URL地址,通过该URL地址可以确定该网页所属的站点,并且可以初步确定该网页所可能对应的网页模板。每个网页模板中会标注有高频词,所述模板匹配装置604提取该高频词及其位置信息,然后在该网页中对该高频词及其位置信息进行匹配,如果该网页中高频词及其位置信息与某一个网页模板中的完全相同,那么所述模板匹配装置604认为二者匹配成功,即可以确认该网页所采用的是哪个网页模板。对于网页中对特型值标注的情况,所述模板匹配装置604的处理过程相似,在此不再赘述。

[0085] 在其他实施例中,所述模板匹配装置604还可以根据所述网页的URL地址,从关联文件中获取所述网页URL地址与网页模板之间的对应关系,其中,所述关联文件是预先制定好的,其记录了网页URL地址和网页模板之间的对应关系,例如,凡是包括“http://zhida0.baidu.com/quest1n/”字样的URL地址的网页均是采用“百度知道”的网页模板,那么如果搜索结果中网页的URL地址为“http://zhida0.baidu.com/quest1n/121922729, html”,则认为该网页采用的是网页模板库70中“百度知道”的网页模板。

[0086] 接着,所述信息提取装置602根据所述网页模板,从所述网页中提取出所述关键信息。

[0087] 具体地,在网页模板库70中,存在与每个网页模板相对应的关键信息的位置信息,所以,所述模板匹配装置604在确定了所述网页采用的网页模板后,所述信息提取装置602从网页模板库70中可以直接获取到关键信息的位置信息,根据该位置信息,即可从所述网页中提取出可以反映该网页特征的关键信息。

[0088] 优选地,所述模板库建立装置605在形成网页模板库70的过程中,当已经将网页模板和关键信息的位置信息进行对应之后,还可以根据所述网页模板和所述位置信息,将该网页模板下所有网页中的关键信息预先提取出来。如果所述匹配搜索装置601所获取的网页包括在网页库中,所述信息提取装置602则可以直接获得该网页的关键信息,从而更加有效地提高用户的搜索效率。

[0089] 最后,如图5所示,所述结果展示装置603将所述网页的标题、摘要信息、URL地址、以及提取出的关键信息展示给用户,使得用户可以通过参考该关键信息,对是否需要点击查看该网页做出判断。本领域的技术人员应该理解,所述结果展示装置603对关键信息显示的位置、方式等可以有多种选择,在此对其不做任何的限定。

[0090] 实施上述具体实施方式,有效地解决了现有技术中出现的问题,可以快速、有效地将网页中可以反映该网页特征的关键信息提取出来,并将该关键信息提供给用户,便于用户根据该关键信息准确判断是否需要查看该网页,从而提高了用户的搜索效率,提升了用户的使用体验。

[0091] 本发明提供的网页信息提取的方法可以使用可编程逻辑器件结合来实现,也可以实施为计算机程序软件,例如根据本发明的实施例可以是一种计算机程序产品,运行该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述网页信息提取的方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如热拔插技术存储设)。所述内置介质包括但不限于可重写的非易失性存储器,例如RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如盒带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。

[0092] 以上所揭露的仅为本发明的一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

生成文本摘要的方法及装置 【百度】

技术领域

[0001] 本发明涉及自然语言处理技术领域,尤其涉及一种生成文本摘要的方法及装置。

背景技术

[0002] 新闻报道的第一段或学术论文中的摘要通常应包含所述新闻报道或学术论文的核心知识,而针对长篇文本进行核心知识提取,一直是自然语言处理的重点任务。该任务有助于用户对长篇文本的内容进行简单的了解,还可以帮助用户确认该长篇文本是否符合其需求,同时节省了阅读时间。

[0003]例如,在搜索引擎中,输入搜索词“王菲个人资料”,依照目前的摘要自动生成技术得到的摘要如图1所示,其中仅包含了搜索词中的关键字,并没有给出用户需求的一些资料,从而使得用户无法通过该摘要对长篇文本所表达内容进行了解。

发明内容

[0004] 本发明实施例的目的在于,提供一种生成文本摘要的方法及装置,能够为用户提供代表核心主题的简短的文本摘要,从而方便用户对长篇文本所表达内容进行了解。

[0005] 为实现上述发明目的,本发明的实施例提供了一种生成文本摘要的方法,包括:获取内容文本;对所述内容文本进行分句以及词法句法分析,获取多个句子的句法结构;从所述句法结构中提取知识点,并将所述知识点进行合并得到知识网络;根据所述知识网络生成文本摘要。

[0006] 本发明的实施例还提供了一种生成文本摘要的装置,包括:内容文本获取模块,用于获取内容文本;句法结构获取模块,用于对所述内容文本进行分句以及词法句法分析,获取多个句子的句法结构;知识网络生成模块,用于从所述句法结构中提取知识点,并将所述知识点进行合并得到知识网络;文本摘要生成模块,用于根据所述知识网络生成文本摘要。

[0007] 本发明实施例提供的生成文本摘要的方法及装置,通过对获取的内容文本进行分句以及词法句法分析得到多个句子的句法结构,从该句法结构中提取知识点,并将知识点进行合并得到知识网络,再根据知识网络最终生成文本摘要,生成的文本摘要可提供代表核心主题的简要介绍,从而使得用户可通过简短的文本摘要对长篇文本所表达内容进行了解。

附图说明

[0008] 图1是示出现有技术摘要生成技术生成的摘要的示意图;

[0009] 图2是示出本发明实施例一的生成文本摘要的方法的流程图;

[0010] 图3是示出本发明实施例一的句子“冰雨是刘德华演唱的歌曲”为例的句法结构示意图;

[0011] 图4是示出本发明实施例一的句子“冰雨是刘德华演唱的歌曲”为例的知识网络示意图;

[0012] 图5是示出本发明实施例一的百度词条“王菲”中“个人生活”为例的知识网络示意图;

[0013] 图6是示出本发明实施例一的百度词条“王菲”中“个人生活”为例生成的文本摘要示意图;

[0014] 图7是示出本发明实施例二的生成文本摘要的装置的逻辑框图。

具体实施方式

[0015] 本发明的基本构思是,通过对获取的内容文本进行分句以及词法句法分析得到多个句子的句法结构,从该句法结构中提取知识点,并将知识点进行合并得到知识网络,再根据知识网络生成文本摘要,从而方便用户对长篇文本所表达内容进行了解。

[0016] 下面结合附图对本发明实施例一种生成文本摘要的方法及装置进行详细描述。

[0017] 实施例一

[0018] 图2为本发明实施例一的生成文本摘要的方法的流程图。可在例如搜索引擎服务器上执行所述方法。所述生成文本摘要的方法包括如下步骤:

[0019] 步骤101:获取内容文本。例如,内容文本可以是用户根据搜索词获取的任一搜索结果条目的内容文本。

[0020] 步骤102:对所述内容文本进行分句以及词法句法分析,获取多个句子的句法结构。

[0021] 如前所述,根据本发明的示例性实施例,可以对内容文本进行语料处理得到处理后的多个句子,然后对每个句子进行词法句法分析得到句法结构。具体的,可以按照代表句子结束的标点符号,例如“ ! ”、“。”、“?”,对内容文本进行分句得到多个句子,并依据语序对多个句子进行过滤得到过滤后的多个句子,过滤步骤的目的是去除杂乱无章的句子,再对过滤后的多个句子分别进行指代消解得到语料处理后的多个句子。

[0022] 优选地,针对每个句子,可以进行如下词法句法分析处理:对所述句子进行分词得到多个分词;从所述多个分词中识别出实体词;对所述多个分词进行词性标注,并根据标注的词性对所述实体词和多个分词进行依存分析得到句法结构。例如,如图3所示,其示出了句子“冰雨是刘德华演唱的歌曲”进行词法句法分析后获得的句法结构。

[0023] 步骤103:从所述句法结构中提取知识点,并将所述知识点进行合并得到知识网络。

[0024] 在步骤102获取多个句子的句法结构之后,根据本发明的示例性实施例,可以从句法结构中提取多个子树,从子树提取多个知识点,再对提取的知识点进行合并,最终生成知识网络。

[0025] 优选地,从子树提取多个知识点的处理,可以包括:识别每个子树的语序,如果所述子树的语序为正常语句,则直接从所述子树提取知识点,如果所述子树的语序为非正常语句,则将所述子树的语序由非正常语句转换成正常语句,并从转换语序后的子树中提取知识点,这里,需要说明的是,非正常语句为非主谓宾语序的语句,所述非主谓宾语序的语句可包括,但不限于,被字句、动词修饰名词的逆序结构等。

[0026] 图4是示出本发明实施例一的句子“冰雨是刘德华演唱的歌曲”为例的知识网络示意图,以下结合图4及具体的处理示例,对步骤203进行进一步详细说明。

[0027] 首先,进行子树提取,子树I的根节点为“是”,对应的子节点为“冰雨”、“歌曲”,子树2的根节点为“歌曲”,对应的子节点为“演唱”;其次,识别每个子树的语序,识别子树I为正常语句,子树2为动词修饰名词的逆序结构,因子树I是正常语句,可直接从子树I提取知识点,因子树2为非正常语句,即动词修饰名词的逆序结构,则需转成正常语句,再从转换语序后的子树2中提取知识点,具体的,可将根节点改为“演唱”,“歌曲”作为其子节点,此处完成了子树提取多个知识点的步骤,最后对提取的知识点进行合并,最终生成知识网络,可以通过子树I得知“冰雨”等价于歌曲(关系词为“是”,表示等价),则将子树2中的“歌曲”替换成“冰雨”,进行两个子树的合并,最终得到“刘德华演唱冰雨”。

[0028] 优选地,所述句法结构中提取知识点,并将所述知识点进行合并得到知识网络的处理,还可以包括:根据知识点所来源的网站质量和网站数量对合并后的知识点进行校验。具体的,通过知识点来源的网站质量,例如新闻网站的质量就高于贴吧等论坛网站的质量,以及网站的数量等确定知识点的可信性。

[0029] 步骤104:根据所述知识网络生成文本摘要。根据本发明的示例性实施例,获取所述内容文本的标题,过滤所述知识网络中与所述标题不相关的知识点,按照预定规则对过滤后的知识网络中的知识点进行摘要组织,生成文本摘要。

[0030] 具体的,为了获得简短并包含核心主题的摘要,可仅保留与内容文本的标题相关的知识点,过滤掉一些关于背景描述或无实际知识的信息等知识点,然后按照预定规则对过滤后的知识网络中的知识点进行摘要组织,其中,预定规则可以是按照知识网络中的知识点所在句子的顺序进行组织,或是按照知识点的类型进行组织。

[0031] 以百科词条“王菲”中“个人生活”的前三大段内容为例,内容文本具体如下:1969

年王菲生于北京,曾用名王靖雯,王菲的爸爸是煤炭工程师,他的工作岗位在煤矿。妈妈是煤矿文工团的女高音,往往是一个演出刚刚结束,行李放在家里尚没有打开,新的演出任务又来了,不得不又匆匆登车而去。王菲虽然出身知识分子家庭,但是童年却并不快乐。1996年7月,王菲和窦唯结婚。1997年I月,王菲在北京协和医院产下窦靖童。1999年,王菲和窦唯婚变。1999年8月,窦唯与王菲正式离婚。2000年6月,梁朝伟在铜锣湾的StoneGrill酒吧搞派对,庆祝凭《花样年华》获戛纳影帝,谢霆锋、王菲同时出席。两人恋情公开。2002年3月28日谢霆锋接受电台访问时,暗示他已与王菲分手。2002年7月,张柏芝与谢霆锋分手。2003年6月与王菲与谢霆锋复合。9月王菲、谢霆锋买戒指;11月两人又分手了。

[0032] 图5是示出本发明实施例一的百度词条“王菲”中“个人生活”为例的知识网络示意图,如图5所示,该知识网络图主要是针对实体“王菲”进行展开的,其中也含有其他相关人物的事件活动,如“谢霆锋与张柏芝”、“梁朝伟搞派对”等事件。其中椭圆框中标记的是实体,曾用名、爸爸、妈妈这三个方表示静态属性,生于、产下、结婚、离婚、获、搞、恋情公开、分手、复合以及买戒指表示动态事件,剩余的方框表示关系发生的条件等元素信息(例如如王菲与窦唯结婚事件中,“1996年7月”表示结婚这一事件发生的时间条件)。将上述知识网络中的知识点的类型进行组织,具体的,将知识点分成静态知识和动态知识,静态知识表示实体的某些属性(如人物的出生年月、父母、子女、作品等),动态知识表示发生在实体上的事件(如结婚、离婚、毕业、工作等信息);对于动态知识,可按照事件发生的时间进行排序(若无时间表示,则按照其在文本中出现的句子进行排序),如图6所示,最终生成文本摘要。

[0033] 通过该生成文本摘要的方法,可以对获取的内容文本进行分句以及词法句法分析得到多个句子的句法结构,从该句法结构中提取知识点,并将知识点进行合并得到知识网络,再根据知识网络生成文本摘要,该方法能够为用户提供代表核心主题的简短的文本摘要,从而方便用户对长篇文本所表达内容进行了解。

[0034] 实施例二

[0035] 图7是本发明实施例二的生成文本摘要的装置的逻辑框图。参照图7,所述生成文本摘要的装置包括内容文本获取模块201、句法结构获取模块202、知识网络生成模块203和文本摘要生成模块204。

[0036] 内容文本获取模块201用于获取内容文本。

[0037] 句法结构获取模块202用于对内容文本进行分句以及词法句法分析,获取多个句子的句法结构。

[0038] 知识网络生成模块203用于从句法结构中提取知识点,并将知识点进行合并得到知识网络。

[0039] 文本摘要生成模块204用于根据知识网络生成文本摘要。

[0040] 优选地,知识网络生成模块203包括:子树提取单元,用于从句法结构中提取多个子树;知识点提取单元,用于从子树提取多个知识点;知识点合并单元,用于对提取的知识点进行合并,生成知识网络。

[0041] 优选地,知识网络生成模块203还包括:知识点校验单元,用于根据知识点所来源的网站质量和网站数量对合并后的知识点进行校验。

[0042] 优选地,知识点提取单元用于识别每个子树的语序,如果所述子树的语序为正常语句,则直接从子树提取知识点,如果子树的语序为非正常语句,则将子树的语序由非正常语句转换成正常语句,并从转换语序后的子树中提取知识点,这里,需要说明的是,非正常语句为非主谓宾语序的语句。

[0043] 优选地,文本摘要生成模块204用于获取内容文本的标题;过滤知识网络中与标题不相关的知识点;按照预定规则对过滤后的知识网络中的知识点进行摘要组织,生成文本摘要。

[0044] 优选地,句法结构获取模块202包括:语料处理单元,用于对内容文本进行语料处理得到处理后的多个句子。

[0045] 词法句法分析单元,用于对每个句子进行词法句法分析得到句法结构。

[0046] 优选地,语料处理单元用于对内容文本进行分句得到多个句子,并依据语序对多个句子进行过滤得到过滤后的多个句子,对过滤后的多个句子分别进行指代消解得到语料处理后的多个句子。

[0047] 优选地,词法句法分析单元用于对句子进行分词得到多个分词,从多个分词中识别出实体词,对多个分词进行词性标注,并根据标注的词性对实体词和多个分词进行依存分析得到句法结构。

[0048] 通过该生成文本摘要的装置,可以对获取的内容文本进行分句以及词法句法分析得到多个句子的句法结构,从该句法结构中提取知识点,并将知识点进行合并得到知识网络,再根据知识网络生成文本摘要,该方法能够为用户提供代表核心主题的简短的文本摘要,从而方便用户对长篇文本所表达内容进行了解。

[0049] 在本发明所提供的几个实施例中,应该理解到,所公开的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

[0050]另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

[0051] 上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

[0052] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。