搜索引擎(15篇)
1.搜索引擎 篇一
NO、I网站内容优化
一个网站的诞生,首要决定的就是主题,想表达什么内容,希望解决用户的什么问题,能给用户带去什么样的有用信息,这也是搜索引擎来到你的网站第一个要认识要了解的重要点。
NO、2网站更新频率
众所周知,互联网时代是信息海量传输的时代,那么最及时,最新的咨询信息自然是最抢手的,搜索引擎判断一个网站的存活情况自然要根据你网站的更新频率来下结论,所以要保证用户来到你的网站能获得最新的信息。可如果是一个企业展示型网站或一个淘宝客网站,需要更新的内容并不多,怎么办呢?
方法1:给网站加上新闻版块或一些行业动态等版块,把这些版块合理放到每一个页面;
方法2:加一个随机调用版块,比如dede系统中的orderby=rand标签,可以让某一个版块的文章每次都按不同的顺序随机调用。
简单一点说就是让搜索引擎觉得你的网站是有人照看的,有人更新的,这样才能给予一个网站最基本的重视。
NO、3网站内容原创性
互联网衍生了一个同质化严重的时代,大量信息的重复性发表与传播现象充斥着网络世界的各个角落,要想自己的网站长久被搜多引擎喜爱,那只有提高原创率才能达成,
试想,如果某一天,整个互联网到处都充满是一样的内容,那还怎么发展,搜索引擎也是为了防止这一点的发生,才尽量督促各网站都写点和别人不一样的内容。当然原创内容于新手站长来讲是一个不小的挑战,但这是作为一个站长的基本功,如果实在无法,当然你可以进行伪原创。
NO、4网站的健康程度
这个健康是指你的网站会不会经常挂掉,是不是经常打不开,或者出现大量的404以及内部链接做的怎么样,一个好的健康的网站能够确保搜索引擎的蜘蛛自由顺畅地游走于你的网站的每个角落。
NO、5网站的受欢迎程度
比如有多少人来到了你的网站,PV能达到多少?游客来到了你的网站访问了多少网页,访问深度是多少?跳出率又有多少,是否比同行业的网站高?这些都可以判断出一个网站是不是受欢迎,是不是招人待见。
NO、6网站的重要性
如何判断你的网站或某个网页是否对别人重要,这个网站或网页的重要也就是指你的URL是否经常被引用,有两种方法可以判断:
方法1:站内是否有相关的锚文本引用这个URL,比如内容中的锚文本还有次导航中的锚文本,如果在主导航中出现则更佳;
方法2:站外的网页中是否有很多锚文本指向你的URL。
其实就是简单有效的外链建设和高明的内链设置。
2.搜索引擎 篇二
1 大规模数据库资源深入开发的新技术
1.1 数据仓库技术
数据仓库是支持管理决策过程、面向主题、集成的、稳定的数据集合, 它将大量用于事务处理的传统数据库进行清理、抽取和转换, 并按决策主题的需要进行重新组织。数据仓库的逻辑结构可分为近期基本数据层、历史数据层和综合数据层 (其中综合数据是为决策服务的) 。数据仓库中数据的物理存储形式有多维数据库组织形式和基于关系数据库组织形式两种。前者的数据组织以空间超立方体形式存在, 后者由关系型事实表和维表组成。这种高度集中的数据为各种不同决策需求提供了有用的分析基础。
1.2 联机分析处理 (olap) 技术
随着数据仓库的发展, olap也得到迅速发展。olap是在联机事务处理 (oltp) 基础上发展起来的一种共享多维信息的快速分析技术, 这与数据库中多维数据组织正好形成相互结合、相互补充的关系。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等。
olap技术中比较典型的应用是对多维数据进行交互式查询和数据分析, 交互式操作有多种, 主要包括对多维数据的切片和切块、钻取、旋转等, 它便于使用者从不同角度提取有关数据。olap技术还能够利用分析过程对数据进行深入分析和加工。
1.3 数据挖掘 (dm) 和知识发现 (kdd)
dm和kdd也是为解决数据库数据量的爆炸性增长与开发利用困难的矛盾应运而生的信息技术。kdd是从数据库大量的数据中通过分析提取出隐含的、新颖的、有效的并能被人理解的规则或模式的高级处理过程。这里的规则或模式即是我们平常所说的知识。它给出数据的某些特性或数据之间的关系, 是对数据处理后获取的更深层次的可供决策支持的信息。实际上从逻辑关系上讲, dm和kdd是包含关系, dm是kdd中的一个步骤, 它主要是利用某些特定的知识发现算法, 在一定的运算效率的限制内, 从数据中发现出有关的知识, 但dm是kdd中最重要的一步。因此, 往往可以不加区别地使用kdd和dm。
2 网上信息资源开发利用的新技术———搜索引擎的使用及技术动向
搜索引擎是指因特网上专门提供查询服务的一类网站, 这些网站通过网络搜索软件 (又称为网络搜索机器人) 或网站登录等方式, 收集因特网上大量网站的页面, 经过加工处理后建库, 从而能够对用户提出的各种查询作出响应, 提供用户所需的信息。据cnnic于2000年7月27日发布的统计资料, 搜索引擎的使用已经占到网络应用的55.91%, 成为中国当前第二大互联网应用, 仅次于收发e-mail, 搜索引擎的重要性已成为网站建设的重要功能。
2.1 搜索引擎的使用
目前几个比较大的中文搜索引擎是:雅虎中国 (网址:http://cn.yahoo.com (简体) ) ;搜狐 (网址:http://www.sohu.com) ;新浪 (网址:http://www.sina.com.cn) ;网易 (网址:http://www.163.com) 等, 这些网站一般都提供“分类检索”和“关键词查询”的普通搜索功能, “分类检索”是从搜索首页按照树型的主题分类逐层点击来查找所需信息的方法;“关键词查询”是用所需信息的主题 (关键词) 进行查询的方法。
在internet如此浩瀚的信息海洋里寻找信息, 首先, 应该使用一个以上搜索引擎。除非你第一次就发现完美的搜索结果, 否则就应该搜索第二次和第三次。如果你不搜索一个以上搜索引擎, 你将错过很多网络资源。其二, 平时通过大量实践, 仔细体会每个搜索引擎的特色和功能。其三, 统计表明, 很多用户只输入一个词进行查询, 查询结果往往有很多不需要的匹配。建议同时使用多个词以缩小搜索范围。其四, 如果你最初的查找并不成功, 可以用同义词进行查找。
2.2 搜索引擎的主要技术
一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。
2.2.1 搜索器:
搜索器的功能是在互联网中漫游, 发现和搜集信息。它常常是一个计算机程序日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息和定期更新已经搜集过的旧信息, 以避免死连接和无效连接。搜索器的实现常常采用分布式、并行计算技术, 以提高信息发现和更新的速度。
2.2.2 索引器:
索引器的功能是理解搜索器所搜索的信息, 从中抽取出索引项, 用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。索引算法对索引器的性能 (如大规模峰值查询时的响应速度) 有很大的影响。
2.2.3 检索器:
检索器的功能是根据用户的查询在索引库中快速检出文档, 进行文档与查询的相关度评价, 对将要输出的结果进行排序, 并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
2.2.4 用户接口:
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框, 复杂接口可以让用户对查询进行限制。
2.3 未来发展趋势
随着www信息的指数增加, 目前的搜索引擎存在搜索速度慢、死链接太多、重复信息或不相关信息较多, 越来越难以满足人们各种信息需求, 搜索引擎将向智能化、精确化、交叉语言检索、多媒体检索、专业化等适应不同用户需求的方向发展。
2.3.1 智能化的搜索引擎:
智能检索系统是搜索引擎的发展方向。它利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理, 用自动获得的知识进行信息搜集过滤, 自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力, 从而提供个性化的服务。
2.3.2 实现交叉语言的检索:
搜索引擎对多种语言的数据库进行交叉语言信息检索, 返回能够回答用户问题的所有语言的文档。若配上机器翻译, 就可使返回结果以用户熟悉的语言显示。虽然该技术目前还处于初步研究阶段, 其难点在于语言之间在表达方式和语义对应上的不确定性, 但其确是发展方向。
2.3.3 多媒体搜索引擎:
随着宽带技术的发展, 未来的互联网是多媒体数据的时代。开发出可查询图象、声音、图片和电影的搜索引擎是一个新的方向。
2.3.4 专业化搜索引擎:
综合性的搜索引擎收录各方面、各学科、各行业的信息, 而专题性的搜索引擎则是为了专门收录某一行业、某一主题和某一地区的信息而建立, 保证了对该领域信息的收录齐全与更新及时, 非常实用, 如商务查询、企业查询、人名查询、电子邮件地址查询和专业信息查询等。
参考文献
[1]李建中.数据库技术向何处去.http://www.cci-dent.com, 1999/12.
[2]张澜, 康增培.数据仓库白皮书.http://www.cci-dent.com, 2001/3.
[3]赛迪网咨询部.国内搜索引擎市场调查报告.http://www.ccident.com/market/report/2000/10/25/
[4]李晓明, 刘建国.搜索引擎技术及趋势.http://www.ccident.com, 2000/3.
[5]刘晓华.搜索相擎挑战智能化[J].微电脑世界, 2000 (1) .
3.搜索引擎 篇三
一、嗅觉灵敏搜影片——狗狗影视搜索
二、免费下载正版电影——百度影视搜索
三、影视BT种子搜索群
——BT@China搜索引擎
四、又一个BT种子搜索站
——飞客BT搜索引擎
五、分类直达式视频搜索
——Movie34电影搜索引擎
六、专做电影搜索的引擎
——搜影免费电影搜索
七、全国影院信息早知道
——Mtime时光网
八、BT资源搜索一网打尽
——SOWANG BT搜索引擎
九、热搜影视在线观看
——SOWANG免费在线影视搜索
FLV电影如何下载?
4.搜索引擎概述 篇四
搜索引擎通常由搜索器(又称作网络蜘蛛——WebSpkier,爬行,机器人——Robots等)和检索程序两部分组成。网络蜘蛛在网络间连续不断地来回交叉搜索,对所有发现的网站和网页进行判断和标记;检索程序则负责对搜索到的信息进行整理、分类和索引,并对用户提出的各种检索要求作出响应,
搜索引擎的运行速度一般都非常快.每次检索只要几秒种即可完成。每一个搜索引擎实际上就是一个庞大的网上信息数据库,而资金与技术则是影响每一个搜索引擎知名度的主要因素。为了扩大影响,争取用户,许多搜索引擎站点如今已不再单纯地提供网络搜索服务.而是发展成为包括网络搜索、网络新闻、网络游戏、网上聊天、免费电子信箱等诸多内容在内的综合性网络服务媒体。
5.搜索引擎教学反思 篇五
本节课以“搜索引擎”作为课程整合的切入点,采用主题任务进行驱动教学,有意识的开展信息技术与研究性学习相联系的横向综合的教学,涉及语文、英语、物理、艺术四门学科,学生在完成任务的同时,也完成了本节课所需要掌握的学习目标。
1、本节课突出了课程整合的教学思想,不仅有利于学生网上搜索技巧的掌握,还是研究性学习课程的一次拓展,使学生体会到信息技术是一个有力的学习工具。同时也加强了学生信息素养的培养,为学生的终身学习打下了良好的基础。
2、本节课教学任务的完成情况:目标明确,任务设计合理,各个层次的学生都有所收获。通过访问教学网页和填写表格的方式,每个学生都有自主探索、分组协作的机会。在整堂课中间及时进行归纳提升有利于学生学习任务的完成和归纳总结能力的培养,最后的评价总结简明扼要,让学生在成功的喜悦中激发起对信息技术这门课程的兴趣和喜爱,但评价还稍显不足。
6.搜索引擎风险减少? 篇六
安全研究员BenEdelman重审了他今年三月做出的搜索引擎风险报告,在早先的报告中,他表示搜索结果中有5%的危险等级会被SiteAdvisor标记成红色或黄色,也就意味着点击这些链接会给使用者带来一定的风险。现在的报告则说明这种风险稍微有点下降,仅有.%的站点被认为是可能存在危险的,
SiteAdvisor是著名杀毒软件厂商McAfee提供的一种服务,它主要对木马、病毒、流氓软件和垃圾邮件危险等级进行评估,Edelman在SiteAdvisor的监测之下对几个主流搜索引擎作了测试,他用这些网站分别搜索500个流行词汇,包括雅虎、MSearch(并非WindowsLiveSearch)、AOL、Ask.com当然还有Google。
这个研究不仅评估了风险机率,同时也注意了链接类型,在三月份的研究中,赞助链接风险是非赞助链接的一倍多(8.5%VS.%),这说明搜索引擎对这些广告赞助商的链接并没有进行很好的过滤工作,只要有钱,不管它会对用户带来怎样的危害。Google声称它正在努力检测危险链接,但这一过滤措施也仅用于非赞助链接中。
7.搜索引擎技术及趋势 篇七
搜索引擎 (Search Engine) 是随着WEB信息的迅速增加, 从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计, 全球目前的网页超过8亿, 有效数据超过9T, 并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息, 必然会“大海捞针”无功而返。
搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息, 对信息进行理解、提取、组织和处理, 并为用户提供检索服务, 从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务, 搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索引擎的关键技术进行简单的介绍, 以起到抛砖引玉的作用。
1. 搜索引擎系统分类
按照信息搜集方法和服务提供方式的不同, 搜索引擎系统可以分为三大类:
(1) 目录式搜索引擎:
以人工方式或半自动方式搜集信息, 由编辑员查看信息之后, 人工形成信息摘要, 并将信息置于事先确定的分类框架中。信息大多面向网站, 提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能, 所以信息准确、导航质量高, 缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:、、、Go Guide等。
(2) 机器人搜索引擎:
由一个称为蜘蛛 (Spider) 的机器人程序以某种策略自动地在互联网中搜集和发现信息, 由索引器为搜集到的信息建立索引, 由检索器根据用户的查询输入检索索引库, 并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预, 缺点是返回信息过多, 有很多无关信息, 用户必须从结果中进行筛选。这类搜索引擎的代表是:Alta Vista、Northern Light、Excite、Infoseek、Inktomi、、、;国内代表为:“天网”、悠游、Open Find等。
(3) 元搜索引擎:
这类搜索引擎没有自己的数据, 而是将用户的查询请求同时向多个搜索引擎递交, 将返回的结果进行重复排除、重新排序等处理后, 作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全, 缺点是不能够充分使用所使用搜索引擎的功能, 用户需要做更多的筛选。这类搜索引擎的代表是Web Crawler、Info Market等。
2. 性能指标
我们可以将WEB信息的搜索看作一个信息检索问题, 即在由WEB网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率 (Recall) 和精度 (Pricision) 衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率, 衡量的是检索系统 (搜索引擎) 的查全率;精度是检索出的相关文档数与检索出的文档总数的比率, 衡量的是检索系统 (搜索引擎) 的查准率。对于一个检索系统来讲, 召回率和精度不可能两全其美:召回率高时, 精度低, 精度高时, 召回率低。所以常常用11种召回率下11种精度的平均值 (即11点平均精度) 来衡量一个检索系统的精度。对于搜索引擎系统来讲, 因为没有一个搜索引擎系统能够搜集到所有的WEB网页, 所以召回率很难计算。目前的搜索引擎系统都非常关心精度。
影响一个搜索引擎系统的性能有很多因素, 最主要的是信息检索模型, 包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。
3. 主要技术
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
(1) 搜索器
搜索器的功能是在互联网中漫游, 发现和搜集信息。它常常是一个计算机程序, 日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息, 同时因为互联网上的信息更新很快, 所以还要定期更新已经搜集过的旧信息, 以避免死连接和无效连接。目前有两种搜集信息的策略:
●从一个起始URL集合开始, 顺着这些URL中的超链 (Hyperlink) , 以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL, 但常常是一些非常流行、包含很多链接的站点 (如Yahoo!) 。
●将Web空间按照域名、IP地址或国家域名划分, 每个搜索器负责一个子空间的穷尽搜索。
搜索器搜集的信息类型多种多样, 包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。
搜索器的实现常常用分布式、并行计算技术, 以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
(2) 索引器
索引器的功能是理解搜索器所搜索的信息, 从中抽取出索引项, 用于表示文档以及生成文档库的索引表。
索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关, 如作者名、URL、更新时间、编码、长度、链接流行度 (Link Popularity) 等等;内容索引项是用来反映文档内容的, 如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项 (或称短语索引项) 两种。单索引项对于英文来讲是英语单词, 比较容易提取, 因为单词之间有天然的分隔符 (空格) ;对于中文等连续书写的语言, 必须进行词语的切分。
在搜索引擎中, 一般要给单索引项赋与一个权值, 以表示该索引项对文档的区分度, 同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。
索引表一般使用某种形式的倒排表 (Inversion List) , 即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置, 以便检索计算索引项之间的相邻或接近关系 (proximity) 。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时, 必须实现即时索引 (Instant Indexing) , 否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能 (如大规模峰值查询时的响应速度) 有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。
(3) 检索器
检索器的功能是根据用户的查询在索引库中快速检出文档, 进行文档与查询的相关度评价, 对将要输出的结果进行排序, 并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
(4) 用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎, 高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法, 以充分适应人类的思维习惯。
用户输入接口可以分为简单接口和复杂接口两种。
简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制, 如逻辑运算 (与、或、非;、-) 、相近关系 (相邻、NEAR) 、域名范围 (如.edu、.com) 、出现位置 (如标题、内容) 、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。
4. 未来动向
搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术, 所以具有综合性和挑战性。又由于搜索引擎有大量的用户, 有很好的经济价值, 所以引起了世界各国计算机科学界和信息产业界的高度关注, 目前的研究、开发十分活跃, 并出现了很多值得注意的动向。
(1) 十分注意提高信息查询结果的精度, 提高检索的有效性
用户在搜索引擎上进行信息查询时, 并不十分关注返回结果的多少, 而是看结果是否和自己的需求吻合。对于一个查询, 传统的搜索引擎动辄返回几十万、几百万篇文档, 用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途, 包括使用智能代理跟踪用户检索行为, 分析用户模型;使用相关度反馈机制, 使用户告诉搜索引擎哪些文档和自己的需求相关 (及其相关的程度) , 哪些不相关, 通过多次交互逐步求精。二是用正文分类 (Text Categorization) 技术将结果分类, 使用可视化技术显示分类结构, 用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容类聚, 减少信息的总量。
(2) 基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型 (如Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、用户模型 (如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤 (包括兴趣过滤和不良信息过滤) , 并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力, 从而提供个性化的服务。智能代理可以在用户端进行, 也可以在服务器端运行。
(3) 采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构, 两种方法各有千秋。但当系统规模到达一定程度 (如网页数达到亿级) 时, 必然要采用某种分布式方法, 以提高系统性能。搜索引擎的各个组成部分, 除了用户接口之外, 都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现, 以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上, 以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索, 以提高检索的速度和性能。
(4) 重视交叉语言检索的研究和开发
交叉语言信息检索是指用户用母语提交查询, 搜索引擎在多种语言的数据库中进行信息检索, 返回能够回答用户问题的所有语言的文档。如果再加上机器翻译, 返回结果可以用母语显示。该技术目前还处于初步研究阶段, 主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天, 无疑具有很重要的意义。
5. 学术研究
目前搜索引擎领域的商业开发非常活跃, 各大搜索引擎公司都在投巨资研制搜索引擎系统, 同时也不断地涌现出新的具有鲜明特色的搜索引擎产品, 搜索引擎已经成为信息领域的产业之一。在这种情况下, 对搜索引擎技术相关领域的学术研究得到了大学和科研机构的重视。如Stanford大学在其数字图书馆项目中开发了Google搜索引擎, 在Web信息的高效搜索、文档的相关度评价、大规模索引等方面作了深入的研究, 取得了很好的成果。
NEC美国研究所的Steve Lawrence和C.Lee Giles 1998年和1999年连续两年在《自然》和《科学》杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会议TREC也从1998年开始增加了Web Track课题, 以考察Web文档与其它类型文档在检索性质上的不同之处, 并将测试在大规模的Web库 (如100G字节) 上进行信息检索的算法性能。
由美国Infornotics公司主办的搜索引擎国际会议从1996年开始, 每年举行一次, 对搜索引擎技术进行总结、讨论和展望, 参加者有著名的搜索引擎公司、大学和研究机构的学者, 对搜索引擎技术起到了很好的推动作用。另外像IEEE主办的国际万维网会议、人机交互会议已有越来越多关于搜索引擎技术研究的文章发表。
国内先后有北京大学、清华大学、国家智能研究中心等高校和研究单位对搜索引擎技术开展研究, 并开发出了几个较好的系统。如由北京大学计算机系网络研究室开发的“天网”中英文搜索引擎 (http://pccms.pku.edu.cn:8000/gbindex htm) , 在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平, 为国内用户提供了很好的互联网搜索服务, 受到了用户的好评
6. 搜索引擎分类
搜索引擎按其工作方式主要可分为三种, 分别是全文搜索引擎 (Full Text Search Engine) 、目录索引类搜索引擎 (Search Index/Directory) 和元搜索引擎 (Meta Search Engine) 。
(1) 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎, 国外具代表性的有Google、Fast/All The Web、Alta Vista、Inktomi、Teoma、Wise Nu等, 国内著名的有百度 (Baidu) 。它们都是通过从互联网上提取的各个网站的信息 (以网页文字为主) 而建立的数据库中, 检索与用户查询条件匹配的相关记录, 然后按一定的排列顺序将结果返回给用户, 因此他们是真正的搜索引擎。
从搜索结果来源的角度, 全文搜索引擎又可细分为两种, 一种是拥有自己的检索程序 (Indexer) , 俗称“蜘蛛” (Spider) 程序或“机器人” (Robot) 程序, 并自建网页数据库, 搜索结果直接从自身的数据库中调用, 如上面提到的7家引擎;另一种则是租用其他引擎的数据库, 并按自定的格式排列搜索结果, 如Lycos引擎。
(2) 目录索引
目录索引虽然有搜索功能, 但在严格意义上算不上是真正的搜索引擎, 仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词 (Keywords) 查询, 仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project (DMOZ) 、Look Smart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
(3) 元搜索引擎 (META Search Engine)
元搜索引擎在接受用户查询请求时, 同时在其他多个引擎上进行搜索, 并将结果返回给用户。著名的元搜索引擎有、、等 () , 中文元搜索引擎中具代表性的有。在搜索结果排列方面, 有的直接按来源引擎排列搜索结果, 如Dogpile, 有的则按自定的规则将结果重新排列组合, 如Vivisimo。
除上述三大类引擎外, 还有以下几种非主流形式:
1) 集合式搜索引擎:如Hot Bot在2002年底推出的引擎。该引擎类似META搜索引擎, 但区别在于不是同时调用多个引擎进行搜索, 而是由用户从提供的4个引擎当中选择, 因此叫它“集合式”搜索引擎更确切些。
2) 门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务, 但自身即没有分类目录也没有网页数据库, 其搜索结果完全来自其他引擎。
3) 免费链接列表 (Free For All Links, 简称FFA) :这类网站一般只简单地滚动排列链接条目, 少部分有简单的分类目录, 不过规模比起Yahoo等目录索引来要小得多。
8.搜索引擎暗战 篇八
在简洁、平静的搜索框之后,每天都上演着新鲜动荡,甚至是惊心动魄的商业争斗。在中国的搜索引擎市场,每天部有数十万的企业将总额为1,400万元的费用直接交给百度、Google或其他搜索引擎,为的只是在某个关键词的搜索中,自己的网页能排在搜索结果的显眼位置。这在搜索业界被称为搜索引擎营销(SEM)。
为了争夺最有利的位置,那些付钱给搜索引擎的企业们争相调高自己的出价,增加被搜寻信息者点击的机会。同时,这些位置的争夺者也会使用一些技巧和手段来打压对手,直至闹得不可开交。
桔子酒店最近就将格林豪泰酒店和雅虎中国告上了法庭,原因是在雅虎中国网站上搜索“桔子酒店”,出现的结果顶端标题显示的竟然是“订桔子酒店不如来格林豪泰酒店”等字样,点击后直接进入格林豪泰酒店的网站。桔子酒店认为格林豪泰擅自使用自己的名称进行搜索引擎关键词推广,目的在于混淆消费者认知,吸引客源,挤占桔子酒店的市场份额,称此行为已构成不正当竞争,索赔10万元。
类似的商业斗争故事每时每刻都在搜索框背后上演,除了付费进行SEM,还有数百万的各种网站也都在暗地里争夺着各式各样的关键词搜索结果排名。这种方式在搜索业内被称为搜索引擎优化(SEO),几乎每一个在互联网上提供服务的组织和个人都会直接或间接地参与此间,花费远远超过SEM。
争夺欲望聚集中心
搜索是通向整个世界的兴趣和欲望的窗口,基于此,搜索引擎在互联网上就成为了巨大的欲望搜集器,通过一个搜索框源源不断地获知人们想要了解什么和得到什么。在欲望获知的同时,搜索引擎还放出自己的“蜘蛛”去互联网上扒取各式各样的信息,然后进行分析整理。当某人在搜索框释放出自己的欲望时,搜索引擎就会把扒回来的信息以纵向排序的方式呈现在他眼前。
这就是Google、百度等主流搜索引擎在过去10年内打造的消费者搜索服务模式,这种模式靠不断的产品推广与时间的沉淀,形成了号召力极大的消费者品牌。在互联网上,这便意味着巨大的流量:Google的流量全球第一,百度的流量中国第一。它们依靠一个简单的搜索框搜集人们的欲望,在互联网上横亘成为了一个海量的流量获取平台,这也是判断一个搜索引擎是否主流或成功的首要指标。
要成为一个大的流量获取平台,在不同国家的市场上,各家搜索引擎公司采取的是不同的市场策略,典型的如:Google用的是技术与创新能力形成的世界级公司的品牌影响力,并通过这种影响力逐步渗透到各个市场;百度在中国则靠的是贴近于本土用户行为习惯的产品,如mp3下载和贴吧。
Google在进入中国的四年间,推出了
系列本地开发的产品,如春运搜索、大学搜索等,但这些产品的影响力远远不如百度的“贴吧”或“百科”,只能处于“追赶百度”的状态。6月中,Google中国还因“大量传播淫秽色情和低俗信息”被央视数度曝光,大中华区总裁李开复也被相关部门约谈。这无疑构成巨大的挑战。
在李开复看来,Google在中国的四年做了三件基础性的工作:第一件是组建了一支符合公司价值观的工程师队伍;第二件是坚决把中文搜索做好,获得更多的中国用户;第三件是做一些独特的、只有中国能做的技术。
“我们原本希望也能像美国那样,通过口口相传取得成功,但这个计划进展不如美国快,我们认识到在中国要做大量的市场认知工作。”李开复总结这四年说,“虽然我们的中文搜索是最好的,但不是每个互联网用户都知道,我希望能将品牌的推广和认知做得更好。”最近,他频频在一些电视娱乐节目、户外广告上露脸,为的就是提高在中国消费者群体中的品牌认知度。“在学习、贴近、理解大众用户,让中国用户感觉Google离你并不远。”李开复说。
Google进入中国四年最近遭遇危机的例子,在一定程度上说明,搜索引擎首先必须具备的能力是让用户对其某类产品形成使用习惯,成为巨大的流量获取平台,并由此在消费者层面形成品牌。只有这样才可能再谈搜索引擎是如何将流量进行商业变现的。
搜索引擎公司不是慈善组织,信息的抓取、存储都需要基础投入,产品的规划与开发、用户使用的便捷也都需要投入大量的人力。在成为消费者层面的流量获取平台之后,搜索引擎还要开发一套商业系统来让流量变现。这套系统,Google和百度有着巨大的差距,这个差距不仅仅存于公司之间,也存于整个搜索生态系统之间。
流最变现能力
“过去的八年,百度只做了一件事,就是让大部分中国网民知道百度是一个能帮助他们找到信息的搜索引擎。”百度副总裁沈皓瑜说。“现在,百度希望升级自己的商业系统,将更多的流量进行商业变现。”
在Google中国陷入危机的同时,百度宣布“增值服务计划”启动,加快了搜索营销体系变革的步伐。之前,百度于4月推出升级的商业后台系统“凤巢”、4月开放“阿拉丁”平台、7月推出“福尔摩斯”计划等,为的都是升级自己的商业变现能力。
成功的搜索引擎除了成为了一个欲望(流量)的聚合中心之外,还担任着另外一个重要角色——流量分配器,将一部分的流量分配给那些付费的商业客户,而在进行流量分配时,是否有公平完整的规则和透明数据支持就成为了搜索引擎商业能力的体现。可以这么理解,搜索引擎的流量获取是为了奠定品牌,而流量分配才是真正的商业能力。
自2001年推出独立搜索服务以来,百度的商业后台从来就没有进行过升级,企业付费在搜索引擎上进行SEM是搜索引擎的主要商业模式,具体方式就是竞价排名。百度也同样如此,但其旧有的推广系统颇为粗犷,当用户搜索关键词时,相关广告简单呈现在搜索结果中,并不能实现对最有价值群体的精确投放,一定程度上对进行SEM活动的客户来说就存在着浪费资金的情况。
在这一点上,谷歌的AdWords系统要远远优于百度原本的竞价排名,AdWords系统背后有上千名工程师在进行开发,有各种复杂的匹配算法,而百度的商业系统开发人员此前一直很少,一定程度上也影响着百度将流量变现的能力。
两年前,百度决定进行商业系统的升级与重塑,直至今年4月新系统“凤巢”才低调亮相。至今,百度为了让客户有适应期,一直保持着两套系统的共存。百度的遗留模式,现在称之为“经典版”,付费的广告链接出现在左侧的搜索结果之中,付费结果带有“推广”二字。“凤巢”被称为“专业版”,减少了和自然搜索结果一起出现的付费链接的数量,提供了至少三个头部位置和右边栏给付费链接,看起来和用起来都和Google的AdWords很像。
实际上,百度的“凤巢”或Google的AdWords系统就是将搜索引擎每天数亿的用户点击“变现”的技术。现在中国大量企业、尤其是中小企业已经将推广的重心“押宝”在搜索引擎之上了。
不过,SEM对于中小企业来说是一项极为复杂的工作,需要数据跟踪、效果分析等各种专业化的工具。在美国,SEM市场极为成熟,既依托于搜索引擎存在,但又独立于搜索引擎,有大量提供自动化工具与服务的第三方公司,其市场容量是搜索引擎市场的1096左右。正是SEM市场的存在,使得Google建立起了一个成熟的搜索生态圈,巩固了其市场地位。所以,搜索引擎的商业变现能力一定程度上也依赖于以之为中心打造的SEM生态圈。
9.《搜索引擎》教学设计 篇九
一、教学目标
1、关于知识方面:
(1)让学生了解搜索引擎的概念;
(2)是学生了解当下流行的相关搜索引擎有哪些。
(3)使学生掌握利用搜索引擎查找资料的方法。
2、关于能力方面:
(1)培养学生对未知知识的探索能力。
(2)锻炼学生的独立自主的学习能力。
(3)教会学生有效使用网络检索信息的能力。
二、学习者特征分析
本次教学针对的是高中学生,在学习能力方面有较强的自控力,思维比较活跃。在学习计算机方面已不像小学、初中生那样对计算机的操作那么陌生,而是基于一定的计算机水平能力之上,所以在讲解本堂课的时候,不用手把手教学,可通过联机的教学方式,为同学边演示边讲解。
三、教学准备
多媒体计算机教室、讲课PPT、相关的投影、教学话筒、音响等。
四、教学内容分析
1、在教学中的重要性
本章内容是高中学生的必修内容强调学生在经历信息获取的过程中,掌握信息获取的思想与方法。因而信息获取就不仅仅是网络上的信息获取。而是学生必须学习的重要内容之一。在众多的网络信息检索方法中,利用搜索引擎使网络信息高效检索成为可能,对搜索引擎的充分认识,选择使用不同类型的搜索引擎会影响搜索的结果和效果。
2、教学重难点
(一)教学重点
1、搜索引擎的有效使用。
2、学会根据分类项目逐级查找信息。
3、搜索引擎中关键词的使用技巧。
(二)教学难点
1、学生自己总结两种搜索方法的优缺点。
2、能够准确的短时间内检索到自己想要搜索的相关信息内容。
五、教学理念和方法
在整个教学过程的进入期间时,可以通过图片或者教学视频引入教学内容。教师有意的引导得出搜索引擎是学生常用的信息搜索工具。在此基础上教师利用多媒体课件讲解搜索引擎的定义和特点。接着使其进行实际操作。在整个教学过程中,教师要注意营造交流的学习氛围。鼓动学生的学习热情。
六、教学过程
(一)、情境引入
师:大家都知道我们美国有一个最传统也是最隆重的一个节日,是什么节?万圣节。那你知道有关万圣节由来以及万圣节方面故事吗?现在网络技术正在飞速发展,我们可以借助网络来查询这么信息。那么,我们如何从因特网上得到这些信息呢?
生:通过这些可激发学生的兴趣。
(二)、课程实施
1、基础内容学习
师:如果知道网站上这些信息的网址,可以直接登录来找到这些信息。但因特网中的信息非常庞大,使我们无法知道网信息的确定位置,怎么办?
生:思考并回答
生:回答用搜索引擎
师:请同学们学一学什么是搜索引擎?有哪些分类? 生:打开书,看书学习什么是搜索引擎?有哪些分类?
师:搜索引擎其实是因特网上的一类网站,它事先将网上各个网站的信息分类并建立索引,然后把内容索引存放在一个地址数据库中,当人们向搜索引擎发出搜索要求时,搜索引擎便在其数据库中搜索,找到一系列相关的信息,将结果以网页的形式返回。
搜索引擎按其工作的方式,主要分为三种:分别是全文搜索引擎(关键词索引型搜索引擎)、目录索引型搜索引擎和元搜索引擎
师生:共同总结常用搜索引擎网址及其所属的类别:
(1)、全文搜索引擎
百度
Google
(2)、目录索引型搜索引擎
搜狐
新浪
教师提出问题:怎么搜索?怎样最准确、最快找到要搜索的相关信息?
布置学生任务,学生带着问题利用教师提供搜索引擎学习资源,自主探索,学习各种搜索引擎的搜索技巧。
任务:
①浏览网站:新浪()。
②有关万圣节的由来以及关于万圣节的故事。
七、课后作业
在课后要结束的时候给同学留一道作业,让学生针对个人的兴趣爱好,搜索一个感兴趣的话题,并给大家讲解一下各网站所能搜索到的信息量分别有什么不同之处和相同之处。
八、教学反思
通过本次课堂,让学生对自已感兴趣的内容进行搜索并不强制要求完成具体的哪一部分,给学生一些自由发空间,提高他们学习的积极性。
结合学生在两个练习实践中的体会,加以引导,归纳出两种查找方法的优缺点。利用搜索引擎查找资料的两种方法:
A、关键字查找
B、分类导航查找
两种方法的优缺点:
分类导航:有较高的查准率,但查全率较低,即资料不够全面,对主题目录分类清晰的适合用分类导航;
10.搜索引擎链接优化分析 篇十
摘要:在网络营销中,链接分析也算是运用得最火的技术,在很多黑帽SEO中也有许多技巧都是根据链接分析的漏洞来放大利用。今天网站推广编辑就来总结一下搜索引擎链接分析的算法。
先来看看PageRank算法,PageRank算法是随机游走模型发展来的,PageRank主要是考虑入链数量和网站推广网页质量两个因素来判断一个网页的重要性。但是由于PageRank没有考虑到主题相关性的问题,然后就延伸出了主题敏感PageRank算法,也叫作Topic Sensitive PageRank,加强了主题相关性链接的网络营销权重值。
同时又有人研究出了智能游走模型和偏置游走模型两个链接算法,这两个算法弥补了PageRank的随机式,因为在正常人浏览网页时不可能是随机点击页面上的链接,而是相关性的链接获得点击的可能性更大,
然后是子集传播模型下的延伸:HITS算法。HITS算法定义了两个页面,分别是Hub页面和Authority页面,Hub页面指包含很多高质量Authority页面链接的页面,比如hao123就是这类页面;Authority页面是某个领域和话题相关的高质量页面,类似于SEO领域的SEOWHY,网络营销搜索引擎里的百度,Google。HITS就是相互扶持,一个好的Hub页面必定指向很多好的Authority页面,一个好的Authority页面必定有很多好的Hub页面指向。
算法的问题还是比较明显的,比如很容易被恶意利用,结构不稳定,计算效率低等原因,后来也就引申出了PHITS算法,这里就不再多做说明了。鉴于PageRank算法和HITS算法的优缺点,又研究出了SALSA算法,主要利用了HITS算法的相关性特点,同时利用了PageRank算法的随机游走模型,也是目前链接分析算法效果最好的网络营销算法之一了。
11.搜索引擎遭遇版权官司 篇十一
11月24日,是Google的庭审日,因为比利时媒体联合指控Google News上发布了他们的新闻报道的标题和片段,侵犯了他们的版权。同一周内,7大唱片公司状告百度侵权案也有了结果,法院认为百度并无主观上的过错因此判决百度胜诉。
一时间,搜索引擎的版权问题又成了焦点话题,越来越多的出版商开始提出反对,这将给搜索引擎带来怎样的影响?
反对四起 诉讼连连
Google面临着来自欧洲报业出版商越来越多的抗议,除与比利时媒体的官司外,麻烦还在其他地方出现。
在丹麦Google被迫推迟了Google News在丹麦的启动日期。丹麦报纸出版商协会法律部负责人Holger Rosendal说,这是因为丹麦的媒体要求得到一个使他们可以“选择加入”Google服务的系统,而不是自动搜索他们的内容。
挪威媒体也写信给这家搜索巨头,反对Google发表其成员的新闻照片。挪威媒体企业协议助理主管Pernelle Borset说:“根据挪威版权法,不经过版权所有者的允许不能使用照片,因此,这件事在这里是个大问题。”
这些抗议显示出一些出版商对Google超出简单搜索的服务范围越来越担心,他们认为Google正成为一家靠其他媒体报道赢利的强大的媒体公司。新闻、图书和其他类型内容的出版商纷纷打起了版权官司,以迫使Google在使用他们的作品前得到他们的同意,甚至向他们做出补偿。
Google回答说它是在法律范围之内行事,因为它只发表出版商内容的片段,并且出版商可以方便地选择退出。它指出,由于内容片段与出版商的出版物链接,因此这为网站带来了访问流量,并且可以帮助宣传原本可能找不到的作品。此外,Google表示,如果搜索引擎被迫必须得到它们所索引的每一个网站的允许,那么搜索服务根本无法运营。
Google公司内容合作伙伴关系副总裁David Eun问道:“如果内容不被索引,就不能被搜索;如果不能被搜索,又如何找到它们?想象一下一个书架上的图书馆没有被索引,或者图书馆没有图书作者目录将会是什么样子。”
然而批评者说,关键就在于此。Google并不是像图书馆那样的公共服务,它是一家寻求利润的公司。Google可能没有“积极地”利用广告把Google News变成摇钱树,但网站将访问者吸引到Google,而访问就意味着白花花的银子。
Google并不是惟一一家受到攻击的公司。代表比利时报业的组织Copiepresse还寄给微软的MSN部门一封禁止通知函,要求它立即从网站上删除比利时报纸的内容,否则将卷入一场法律纠纷。Copiepresse说它还可能起诉其他公司。
在国内,最大的搜索引擎百度也是不止一次被告上法庭。
搜索引擎侵权?
9月份,Google在与Copiepresse的官司的初审裁决中败诉,不得不从其比利时搜索网站和Google News中删除了比利时报纸的内容。而同样受到七大唱片公司起诉的百度,则获得了法院的支持。为此,记者特别咨询了隆德成铭国际知识产权咨询中心主任鹿毅忠律师。
鹿律师表示,我国法律对侵犯知识产权的定义包括两大要素,一是使用了权利人作品的内容,二是以生产经营为目的。他认为,百度只是提供了mp3的链接,并没有真正使用各唱片公司的音乐。“就好比你要买书,我告诉你哪有卖,但你去了怎么得到这本书就与我无关,所以百度没有侵权;但是如果我私自印了这本书卖给你,就是侵权了。”
从这一层面上来讲,Google News是直接使用了比利时媒体的内容,并提供给自己的客户,两个要素都满足,因此构成了侵权的行为。它这是把书或报纸的内容以电子媒体的形式传播。
但是,Google的支持者们并不这么认为。他们表示很多公司,甚至可能是大多数公司,自愿被列在Google的搜索结果中,因为这将给他们的网站带来流量。
佛罗里达的《Tampa Tribune》网站TBO.com总经理Rusty Coats说,Google News是个“功能强大的流量产生器。”据他透露,这家报纸15%的流量来自搜索引擎。Coats说:“我把Google也从增加的流量中受益的事实看做是一种征税。反抗这种征税等于是割了我自己的喉咙。没有100%正面的东西,而Google也不是魔鬼。”
SearchEngineWatch主编Danny Sullivan说,比利时媒体能够“抱团迫使Google投降”,是因为它们在一个小市场中经营。他说,这种行动在更大的市场将困难得多。他批评了Copiepresse的行动,说它可以选择退出Google的搜索,而不是选择打官司。“其意图似乎是他们希望被列在Google中,并能分享部分利润。”
另一些出版商认为与搜索引擎建立更密切的合作伙伴关系可以相互受益。本周,美国的几家大型报业连锁公司宣布了在Yahoo网站上发表分类广告和其他内容的交易。其目的是为Yahoo网站和报纸网站增加流量。
搜索引擎路在何方
法新社、美国作家协会以及其他一些公司也向美国法院提起了诉讼,各种各样的官司将影响到Google和其他搜索引擎索引和显示版权材料的方式。
Google拒绝对案子可能的结果发表评论,但Google公司欧洲企业交流与公共事务经理Rachel Whetstone在Google博客中的一篇文章中承认了案子的重要意义:“我们的确认为本案提出了重要和复杂的问题,它将关系到搜索引擎如何运行。”
审判的结果可能不仅仅是影响Google News。Copiepresse认为,Google通过索引和缓存其成员的内容,实际上是出于商业目的复制他们的作品,并称这就是侵犯版权。它还反对Google未征得同意就使用这些材料。这些论据很可能被应用到其他类型的内容。
如果布鲁塞尔一审法院维持其初审裁决,可能使搜索引擎公司在比利时很难运营。Sullivan说:“你不经过明确的同意无权索引享有版权的网页,目前这一裁决意味着搜索引擎无法在比利时运营。”
对Copiepresse有利的裁决可能会激发其他版权所有者寻求赔偿,并可能影响到其他欧洲国家对搜索引擎公司应用版权法。
显然Google必须更好地教育出版商。Sullivan说:“这些媒体感到不安,但他们做了很多错误的假设。”Google签署了向美联社支付报酬使用其报道的协议,其他报纸被这种似乎是特殊对待的做法所激怒。事实上,Google计划在“超出版权法允许的范围”使用美联社的内容,可能是用于一个新服务。
鹿毅忠律师表示,越来越多的这类诉讼案表明公众的法律意识正不断提高,同时也有利于规范搜索引擎的行为,保证电子形式的作品能够得到应有的回报。但是,简单的诉讼并不是最佳的解决办法,太多的诉讼案也会影响搜索引擎作为一个公司的正常业务。目前,对搜索引擎来说,应该由政府出面,代表公众加强立法。因为搜索引擎作为以营利为目的的组织,不可能靠经营者的自觉来维护公共利益。
另外,从技术上来说,欧洲出版商委员会正在帮助开发一项叫做“自动内容访问协议”的技术,能使报纸对自己的内容被如何使用具有更多控制,选择加入Google提供的链接。Whetstone表示Google已提出加入该项目。
链接:搜索引擎侵权案不完全统计
2006年11月 法国Flach电影公司诉Google法国侵犯其电影《世界与
布什同在》的版权;
2006年9月 挪威媒体联名起诉Google复制其新闻图片;
天极网诉百度实施的不正当竞争行为和侵犯商标权行为;
2006年6月 马帝尼耶集团起诉Google侵犯原作的知识产权;
杭州老虎网络有限公司与百度、奇虎著作权纠纷案;
广州俏佳人文化有限公司诉百度侵犯电视剧音像版权
和信息网络传播权之独家专有权;
2006年年初 比利时媒体诉Google News侵犯其著作权和有关信息库
使用规定;
2005年10月 包括企鹅集团在内的五大出版业巨头起诉Google侵犯
版权;
2005年9月 美国作家协会向Google提出集体诉讼,指责其构成侵权;
环球、百代、华纳、索尼、BMG及其中国子公司新艺
宝和正东唱片诉百度侵犯数百首歌曲版权;
2005年6月 北京新画面影业公司起诉百度及其合作伙伴浙江电
信允许用户下载《十面埋伏》;
12.搜索引擎优化技术研究 篇十二
随着互联网的发展, 网络已成为我们生活和工作的重要组成部分, 网民数量急剧增加, 网络资源丰富多样。对于开发人员而言, 增加网站的访问量、获得客户资源, 是建设网站尤其是企业类网站的初衷。事实表明, 一个设计优秀的网站, 用户对网站的访问量上有六到八成的访问是通过搜索引擎自然检索而访问的。每个企业都想将自己的产品在搜索引擎中排在同类产品的前面, 以便更多的潜在客户点击访问。通过各种方法对网站的搜索引擎优化可以使得网站的自然排名提前。
2 搜索引擎的定义 (Definition of search engine)
搜索引擎是一个对互联网上的信息资源进行搜索整理[1,2], 对数以亿计的网页中的每一个文字 (即关键词) 进行索引, 建立索引数据库, 提供用户查询的系统。当用户在搜索引擎中输入某个关键词进行探索时, 搜索引擎通过复杂的算法分析, 将包含了用户输入的关键词的网页都搜索出来。将这些搜索出来的网页按照一定的顺序依次排列。当用户需要通过网络了解某一方面的信息时, 只需要在搜索引擎中输入自己需要查找的内容, 搜索引擎就可以方便的帮用户搜索到结果, 而且搜索引擎也为信息提供者提供了一种高效的发布途径。常用的搜索系统有谷哥 (Google) 、百度 (Baidu) 、雅虎 (Yooho) 等。
搜索引擎通过探测器在互联网上抓取网页, 并对这些网页进行存储、分类、整理、压缩, 再根据搜索引擎的算法对网页进行编目与索引, 并在这个过程中对网站进行质量评估, 将有价值的网页进行索引, 质量差的网页排除。当用户通过搜索引擎进行搜索时, 搜索引擎根据一定的标准将搜索到的结果显示给用户, 在搜索结果的排名中, 搜索引擎会最有价值的推荐在首位, 较次的排在其他, 以此类推。
3 搜索引擎优化的定义 (Definition of search engineoptimization)
搜索引擎优化, 又称为SEO, 即Search EngineOptimization, 它是一种通过分析搜索引擎的排名规律, 了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。搜索引擎采用易于被搜索引用的手段, 对网站进行有针对性的优化, 提高网站在搜索引擎中的自然排名, 吸引更多的用户访问网站, 提高网站的访问量, 提高网站的销售能力和宣传能力, 从而提升网站的品牌效应。可以简单的将搜索引擎优化理解为一种让某产品或某服务在百度、谷歌、雅虎等搜索引擎中获得良好的排名而赢得更多的潜在客户的技术, 它是进行网站推广、提高网站排名的重要手段之一。
搜索引擎优化公式:SEO=∫CLOCK=∫C1+L2+K3+O4, 其中, ∫是一个积分符号, C=content (内容) , L=link (链接) , K=keywords (关键字) , O=others (其他因素) , 数字表示重要程度。因此, SEO就是一个长期的对“时间”积分的过程, 内容是首要核心, 其次是合理、有效、丰富的内部链接和PR值高的外部链接。PR (PageRank) 值是用来标识网页的等级和重要性, 是搜索引擎排名运算法则 (排名公式) 的一部分。PR分1-10个等级, PR值检查链接该网站的网站个数以及链接该网站的网站是否优秀, 这个值越高说明网站越重要, 在搜索排名中就会靠前。另外关键字是影响网站自然排名的第三个因素。影响搜索引擎自然排名的因素还包括域名、网站架构、服务器、排版等其他因素的影响, 因而对搜索引擎的优化设计是多方面的。
4 搜索引擎优化技术 (Search engine optimizationtechnology)
搜索引擎加强了企业与客户的沟通, 搜索引擎的优化技术有以下几个方面:
4.1 主题要明确, 内容要丰富
在设计制作网站之前, 要清晰设定网络的主题、用途和内容。根据不同的用途来定位网站特性, 可以是销售平台也可以是宣传网站, 网站主题须明确突出, 内容丰富饱满, 以符合用户体验为原则。对于一个网站来说, 优化网站的主题与实际内容才是最为重要的。一个网站需要有鲜明的主题, 丰富的与主题相关的内容, 专注于某些领域的变化的, 及时更新。
4.2 引出链接要人气化
搜索引擎判断网站的好坏的一个标准是外部链接的多少以及所链接的网站质量。创建有人气化的、有意义的引出链接, 提高链接广泛度, 既能提高在搜索引擎的排名, 同时也可以起到互相宣传的作用。研究表明:当一个网站的链接PR值达到4-6, 那么这个网页的访问量比较好;当链接PR值达到7以上, 那么网站的质量与知名度都很优秀了。如果一个网页被其他网页链接得越多, 那么该网页越有可能有最新和最有价值的高质量网页。
尽可能增加与行业网站、地区商务平台和合作伙伴网站之间的链接, 被PR高的网站引用能更快地提高本站的PR, 同时开发人员可以在访问量较大、PR值较高网站上发表与网站主题以及业务相关的信息, 用户在别的网站看到这些信息, 进而访问该网站, 即通过外部链接来提高该网站的访问量。
4.3 关键词设定要突出
网站的关键词非常重要, 它决定网站是否能被用户搜索到, 因此在关键词的选择上要特意注意。关键词的选择必须突出, 遵循一定的原则, 如:关键词要与网站主题相关, 不要一味的追求热门词汇;避免使用含义很广的一般性词汇;根据产品的种类及特性, 尽可能选取具体的词;选取人们在使用搜索引擎时常用到与网站所需推广的产品及服务相关的词。5至10个关键词数量是比较适中的, 密度可为2%—8%。要重视在标题 (Page Title) 、段落标题 (Heading) 这两个网页中最重要最显眼的位置体现关键词, 还须在网页内容、图片的alt属性、META标签等网页描述上均可不同的程度设置突出关键词。
4.4 网站架构层次要清晰
网站结构上尽量避免采用框架结构, 导航条尽量不使用FLASH按钮[3]。首先要重视网站首页的设计, 因为网站的首页被搜索引擎检测到的概率要比其他网页大得多。通常要将网站的首页文件放在网站的根目录下, 因为根目录下的检索速度最快。其次要注意网站的层次 (即子目录) 不宜太多, 一级目录不超过两个层次, 详细目录也不要超过四个层次。最后, 网站的导航尽量使用纯文字进行导航, 因为文本要比图片表达的信息更多。
4.5 页面容量要合理化
网页分为静态网页与动态网页两种, 动态网页即具有交互功能的网页, 也就是通过数据库搜索返回数据, 这样搜索引擎在搜索时所费的时间较长, 而且一旦数据库中的内容更新, 搜索引擎抓取的数据也不再准确, 所以搜索引擎很少收录动态网页, 排名结果也不好。而静态网页不具备交互功能, 即单纯的信息介绍, 搜索引擎搜索时所费时间短, 而且准确, 所以愿意收录, 排名结果比较好。所以网站要尽量使用静态网页, 减少使用动态网页。
网页容量越小显示速度越快, 对搜索引擎蜘蛛程序的友好度越高, 因而在制作网页的时候要尽量精简HTML代码, 通常网页容量不超过15kB。网页中的Java.script和CSS尽可能和网页分离。应该鼓励遵循W3C的规范使用, 更规范的XHTML和XML作为显示格式。
4.6 网站导航要清晰化
搜素引擎是通过专有的蜘蛛程序来查找出每一个网页上的HTML代码, 当网页上有链接时就逐个搜索, 直到没有指向任何页面的链接。蜘蛛程序需要访问完所有的页面需要花费很长的时间, 所以网站的导航需要便于蜘蛛程序进行索引收录。可根据自己的网站结构, 制作网站地图simemap.html, 在网页地图中列出网站所有子栏目的链接, 并将网站中所有的文件放在网站的根目录下。网站地图可增加搜索引擎友好度, 可让蜘蛛程序快速访问整个站点上的所有网页和栏目。
4.7 网站发布要更新
为了更好的实现与搜索引擎对话, 将经过优化的企业网站主动提交到各搜索引擎, 让其免费收录, 争取较好的自然排名[4]。一个网站如果能够进行有规律的更新, 那么搜索引擎更容易收录。因而合理的更新网站也是搜索引擎优化的一个重要方法。
5 结论 (Conclusion)
企业网站为了提高在电子商务中的竞争力会使用很多网络推广的方法, 针对不同的搜索引擎进行合理的搜索引擎优化是网站维护中的重要工作。在搜索引擎中会经常更新对网站排名的规则, 而规则的改变也会影响到网站的排名, 使得网站的排名发生变化。所以在网站的维护中应该根据搜索引擎排名算法的变化而更新自己网站的搜索引擎优化, 以适应变化。
参考文献
[1]Bing Liu, 著.俞勇, 等, 译.WEB数据挖掘[M].北京:清华大学出版社, 2009.
[2]赖雯雯.浅议电子商务网站的搜索引擎优化[J].科技创新导报, 2011, 21:21.
[3]刘芳.电子商务网站营销初探[J].中小企业管理与科技, 2011, 24:282.
13.搜索引擎 篇十三
据Wordpress官方博客消息,为了提升wordpress插件目录的搜索功能,使用户获得较好的搜索体验,目前wordpress已在其插件目录及wordpress博客管理后台(添加新插件处)加入了免费开源SQL全文搜索引擎-Sphinx,据目前的测试情况来看,该搜索引擎运行非常好,
目前,wordpress嵌入的Sphinx搜索系统仅收录了来自插件readme.txt 的插件标题、描述、安装、FAQ(常见问题解答)等内容,不过,wordpress开发团队承诺他们将很快添加插件作者、标签等信息到该搜索系统中。
本文出自:chenjinghua.net/wordpress-added-sphinx-to-improve-plugins-directory-search-570.html
14.如何编写搜索引擎优化策略 篇十四
摘要:我一般都会根据网站推广实际情况来决定采取何种方式,不过基本上都会选择内容建设和链接建设同时进行。对于一个成功的站点来说,内容建设和网站推广链接建设是网站终身不可懈怠的工作。
概述
SEO策略应该包括三部分:
内容调查和编写
站点内容排版
网络推广外部链接建设
以上三部分并没有严格的先后次序之分――有些人喜欢内容部分完成后再开始添加网站推广的链接,而有些人则一开始就进行网站推广链接建设,因为他们知道网站推广链接建设是一个长期过程,而且对SEO 有着至关重要的影响。
调查和编写
第一件事就是关键词调查,关键词是搜不尽,查不绝的。一般来说,调查越深入,发现的词条就越多,尽量在允许时间内对这些词条进行进一步分析和研究。反复此过程,最后才能确定网络推广关键词。
记住重要的一点:Google上进行的一半以上的搜索是不一样的!
你需要为选定的每个网络推广关键词产生一个单独的页面―― 一个关键词条,一个页面。这意味着一个站要产生无数页面。
当针对网络推广的关键词条编写页面内容的时候,有很多因素会影响搜索引擎对页面的理解和看法:
外部链接文本
网页标题SEO
标题标签
META标签
页面其它文本
URL
以上每个部分都影响了搜索引擎对页面信息的理解,所以要善加利用,
不过要是过度优化,网站马上会受到搜索引擎的惩罚。
通常来说, 网站的外观和内容能被大众接受,那就能被搜索引擎接受。
网站内容排版,这部分工作的目的是提高主页的页面等级PR。所谓PR,与网站推广外部链接的数量和质量密切相关。 PR值越高,在搜索结果中的排名就可能越前。理论上来讲,网站的每个页面都拥有自己的外部链接和PR 值,但实际上,这不仅不可能,而且也没有必要。
Google认为每个页面的网站推广链接数量最好不要超过50――100。简单来说,随着主页的点击次数的提高,页面的PR值反而会降低。所以我们追求的网站结构是,在每页的链接上限内,给每个页面最少的点击次数。
热门关键词需要更高的PR值才能拥有好的排名。所以,站长们可能会故意在网站结构中设置一些不规则或不相关页面,这样就可以牺牲这些页面来提高重要页面的PR值。
既能提高网站PR 值又不会破坏网站结构的一种方式是在从网站地图页面链回主页。显然,这种方式,结构上是把网站地图纳入主页面,网络推广效果上是增加用户点击其它任何页面的机会。请注意,就是在这种结构中,站长用内部链接中的链接文本来强调某页面的主题
外部链接建设这是SEO策略中最难的部分,不仅需要投入大量精力,更需要创意,找到链接的独特方法。
获得外部链接的方式很多:
交换有情链接
购买单向链接
增加网站创意与特色,链接自然会找上门
在这里我想说,来自权威性网站,如 DMOZ 等的外链对于热门关键词有决定性帮助。 就算是一般关键词,也需要一些好的网络推广链接才能使优化顺利进行,站在Google的角度, 它所看重的链接不是通过金钱或单纯为交换链接而获得的,而是一方由于另一方网站内容或质量上乘,主动要求链接而获得的。因此, 利用网络媒体大力进行宣传,甚至占据新闻头条,是开始链接大战的最佳冲锋号。
15.购物搜索引擎的比较研究 篇十五
随着Internet的不断发展, 电子商务这一全新概念急速兴起, 传统直效营销的许多渠道已被网上购物所取代。然而, 为了获得最实惠的商品, 网上购物消费者必定会登陆不同的网上购物网站, 对同一商品进行比较, 这种行为会消耗客户太多的时间, “比较购物”为解决这一问题打下了坚实的基础。所谓比较购物是指为网上购物消费者提供多个购物网站中同一商品的比较信息, 包括商品价格、支付方式、配送方式、商家信誉度等的比较资料。目前比较购物可以使网上购物消费者足不出户即可“货比三家”, 使消费者在短暂的时间内获得所需商品的详细信息, 从而做出购买决策, 当然, 由于电子商务的整体环境需进一步完善, 比较购物也存在着一定的风险。本文从比较购物搜索引擎的概念着手, 对目前比较流行的几个比较购物搜索引擎进行比较, 以此为基础构建了比较购物搜索引擎的模型, 并以大拿网 (www.danawa.com.cn) 为实例, 证明这个模型是可行的。
2目前常用比较购物搜索引擎的比较
2.1比较购物搜索引擎的概念
随着加入比较购物网站的服务商数量和商品数量的迅速增加, 比较购物网站已经与搜索引擎具有类似的特征, 即作为用户查询商品信息的工具, 为制定购买决策提供支持, 购物搜索引擎可以理解为搜索引擎的一种细分, 即在网上购物领域的专业搜索引擎。购物搜索引擎是从比较购物网站发展起来的, 比较购物最初的设想, 是为消费者提供从多种在线零售网站中进行商品价格、网站信誉、购物方便性等方面的比较资料, 随着比较购物网站的发展, 其作用不仅表现在为在线消费者提供方便, 也为在线销售上推广产品提供了机会, 实际上也就等类似于一个搜索引擎的作用了, 并且处于网上购物的需要, 从比较购物网站获得的搜索结果比通用搜索引擎获得的信息更加集中, 信息也更全面 (如有些比较购物网站除了产品价值信息之外, 还包含了包含对在线销售商的评价等) , 于是比较购物网站也就逐渐演变为购物搜索引擎。因此一些网站开始逐渐放弃“比较购物”一词, 而改称为“比较购物搜索引擎”。
比较购物搜索引擎以满足消费者的实际需求为出发点, 帮助消费者从无数的在线销售网站中找到自己所需要的商品与服务。比较购物搜索引擎将从网上商店抽取的商品信息存储到数据库中, 当消费者查看商品信息时, 系统将根据用户的请求从数据库中提取数据, 显示给消费者。
比较购物搜索引擎区别于一般网页搜索引擎的功能在于, 除了搜索商品、了解商品说明等基本信息外, 还可以进行商品价格比较, 并对商品和在线商家进行评级, 这些评比结果对于消费者购买决策有一定的影响, 尤其对于知名度不是很高的在线商家, 通过比较购物搜索引擎, 不仅增加了被用户发现的机会, 若在评比上有较好的排名, 也有助于增加消费者的信任。因此, 当消费者进入比较购物网站进行商品信息检索时, 就可以获得比较丰富的信息, 使消费者可以做出对自己最好的决定。
2.2比较购物搜索引擎的比较
全国的B2C网上商店已经达到10万家, 网上商品数超过6000万件, 要找到消费者满意的商品相当困难。比较购物成为目前最受欢迎的网上购物方式, 比较购物的优势和好处是用户可以对同一件商品的不同商家、不同报价进行同时对比和选择, 更重要的是用户可以直接比较用户对不同商家同一产品的评论, 对商家提供的配送服务、支付方式、售后服务、打折优惠信息进行透明比较, 一目了然。通过比较购物, 用户只需在一个站点即可真正做到货比多家, 买东西不吃亏。
目前中国出现的比较购物网站正在逐步的完善中, 每个比较购物网站都有自己的特色, 我们将通过表1对5家比较有代表性的比较购物网站进行分析:
目前我国比较购物网站都能够比较准确、及时地提供产品基本信息, 各比较购物网站也有自己的特色, 如:“搜易得”和“中商网”为顾客提供了先行赔付的服务, 消除了购物者的后顾之忧;2006年, “搜易得”推出全新“点击付费模式”, 可以更加直观地更加合理地反映出商户的收益/付出比;“中商网”重视本地化购物, 创新地提出了第三方购物的理念。
3比较购物搜索引擎的模型
随着中国互联网和电子商务的发展, 越来越多的B2C、C2C模式的电子商务网站如雨后春笋般涌现出来, 为广大用户提供了购物的新途径, 并直接促成了“中国互联网的第二个春天”。然而, 网上商店由于其功能的单一性, 消费者必将花费更多的时间和精力对多个网上商店的商品价格、商家信誉、支付方式、配送方式等信息进行多次比较才能获得自己所喜欢的商品。笔者提出的比较购物引擎的模型 (如图1所示) 使这种情况得到了一定的改善, 比较购物网站依托先进的搜索技术, 整合众多电子商务网站的资源, 将其数据库融合为一个数据库, 为广大用户提供卓越的购物导购服务。
整个比较购物的过程大致步骤如下:进入比较购物网站, 填写相关信息 (用户名称、登录密码、邮箱等) 进行注册, 注册成功后再登录网站, 在搜素栏中输入自己所要购买的商品名称后将出现不同的报价范围, 消费者根据自身条件比较、选择适合自己的报价范围, 网站数据库根据消费者的选择来提供相关信息, 消费者再通过比较不同商家的报价、商家信誉、配送方式等信息来选择购物网站进行购买。
4实例研究
比较购物搜索引擎的兴起有效地解决了供应方和需求方的脱节问题, 使消费者的网上购物更加方便、快捷。本文将通过比较购物网站——大拿网来具体描述比较购物搜索引擎的优势。大拿网 (www.danawa.com.cn) 是由北京赛宝时代信息技术有限公司 (Beijing Cyber Times Information Technology co., Ltd) 开发的比较购物网站。大拿网以建立全球最大的中文比较购物网站为目标, 在“互惠互利”的前提下, 竭力发展与广大B2C电子商务网站的合作关系, 为消费者提供了价格比较、综合搜索、信誉评级三项服务。下面以购买“索尼T90”为例简要叙述比较购物流程:进入大拿网 (www.danawa.com.cn) 首页, 选择免费注册进入注册界面填写相关信息提交, 登录大拿网, 在搜索栏中输入要购买的商品名称“索尼T90”, 可以得到不同的报价范围 (如图2所示) , 消费者根据自身需求选择合适的报价范围后, 点击“查看详情”进入如图3所示界面, 可以查看所选报价范围内出售该商品的商家的信用评级、商品的价格、商品的购买信息等, 大拿网还启用纠错系统来不断完善比较购物体系, 消费者根据多方面的比较后选择合适的电子商务网站就可以购得令消费者满意的商品。
5结论
通过本文的比较分析可以知道, 比较购物搜索引擎逐渐被人们所认识、了解并广泛使用是可以理解的。比较购物网站的出现, 使消费者面对众多的网上商店不再感到眼花缭乱而无所适从;比较购物网站的出现, 可以使消费者在最短的时间内, 在浩如烟海的信息海洋中挑选出自己想要的商品, 而且上手简单方便。当然, 由于电子商务整体环境还有待进一步的完善, 比较购物搜索引擎自身也存在一定的局限性, 但是, 比较购物搜索引擎为消费者方便、快捷地购物提出了希望。
参考文献
[1]乔红.关于比较购物的分析[J].价格月刊, 2008, (11) .
【搜索引擎】推荐阅读:
搜索引擎营销主要分为07-15
搜索引擎关键字推广计划08-26
小学信息技术《搜索引擎》教学设计08-22
Flash教程三维引擎初探08-15
发动引擎三年级作文800字12-05
中国诗歌意象大搜索06-17
一1家乡特产大搜索07-02
非公党建创新路 企业发展强引擎12-11
网络搜索中,关键字的正确使用11-23
酷狗教你搜索及收藏某歌手的歌07-20