|
沙发
楼主 |
发表于 2006-6-14 14:11:14
|
只看该作者
6,初阶搜索 在上例子中,你已经知道了最基本的搜索,即查询包含单个关键字的信息。现在,进一步探讨多个关键字以及关键字间不同逻辑关系的查询。 6.1,搜索结果要求包含两个及两个以上关键字 一般搜索引擎需要在多个关键字之间加上“+”,而GOOGLE无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。 示例:搜索所有包含关键词“易筋经”和“吸星大法”的中文网页 搜索:“易筋经吸星大法” 结果:已搜索有关易筋经吸星大法的中文(简体)网页。共约有774项查询结果,这是第1-10项。搜索用时0.24秒。 注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。 6.2,搜索结果要求不包含某些特定信息 GOOGLE用减号“-”表示逻辑“非”操作。 示例:搜索所有包含“易筋经”而不含“吸星大法”的中文网页 搜索:“易筋经-吸星大法” 结果:已搜索有关易筋经-吸星大法的中文(简体)网页。共约有5,150项查询结果,这是第1-10项。搜索用时0.40秒。 注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“易筋经-吸星大法”,搜索引擎将视为关键字为易筋经和吸星大法的逻辑“与”操作,中间的“-”被忽略。 6.3,搜索结果至少包含多个关键字中的任意一个 GOOGLE用大写的“OR”表示逻辑“或”操作。假定你是布兰妮和批头士的歌迷,现在要查找所有关于布兰妮和批头士的中文网页。 示例:搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。 搜索:“BritneyORBeatlesOR布兰妮OR批头士” 结果:已搜索有关BritneyORBeatlesOR布兰妮OR批头士的中文(简体)网页。共约有31,300项查询结果,这是第1-10项。 注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。 6.4,“+”、“-”和“OR”的混合查询 混合查询涉及到逻辑操作符的顺序问题。一般而言,搜索引擎按照从左往右的顺序读取操作符号。如果只涉及“与”操作和“非”操作,则不会产生顺序问题,搜索结果数量和关键字顺序无关,不过,具体搜索的结果顺序会视关键字的顺序而定。单纯的“或”操作也同样道 理。但是,如果“或”查询和其他两种查询混合在一起,问题就复杂了。现在我们做这样的查询:“所有关于Britney或者Beatles、但是没有Madonna相关信息的中文网页”。 搜索:“BritneyORBeatles-Madonna” 结果:已搜索有关BritneyORBeatles-Madonna的中文(简体)网页。共约有16,200项查询结果,这是第1-10项。搜索用时0.23秒。 搜索:“-MadonnaBritneyORBeatles” 结果:已搜索有关-MadonnaBritneyORBeatles的中文(简体)网页。共约有16,200项查询结果,这是第1-10项。搜索用时0.13秒。 搜索:“Britney-MadonnaORBeatles” 结果:找不到和您的查询-Britney-MadonnaORBeatles-相符的网页 搜索:“BritneyOR-MadonnaBeatles” 结果:找不到和您的查询-BritneyOR-MadonnaBeatles-相符的网页 可见,“或”操作的前后两个关键字必须是默认的“与”查询,否则,搜索引擎将无法完成搜索。
6.5,用“+”和“-”减少冗余信息 通常情况下,用一个关键字查询,会得到很多和查询目的不相关的冗余信息。我们总是希望,搜索结果的第一个条目中就包含所需要的信息。“+”和“-”很多时候就起到缩小搜索结果的范围,以提高查询结果命中率。 例:查阅天龙八部具体是哪八部。 分析:如果光用“天龙八部”做关键字,搜索结果有20,300项,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的资讯。可以用两个方法减少无关结果。 1,如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字。“天龙八部阿修罗”的搜索结果就只有1,050项,可以很快找到全部八部。 2,如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录。“天龙八部佛教-金庸”的查询结果为1,120项,可以迅速找到需要的资料。 7,辅助搜索 7.1,通配符问题 很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。GOOGLE不支持通配符,只能做精确查询,关键字中的“*”或者“?”会被忽略掉。 7.2,关键字的字母大小写 GOOGLE对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。 7.3,搜索整个句子 GOOGLE的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。 示例:搜索包含“long,longago”字串的页面。 搜索:“\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"longlongago\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"” 结果:已搜索有关longlongago的中文(简体)网页。共约有16,500项查询结果,这是第1-10项。搜索用时0.06秒。。 7.4,搜索引擎忽略的字符和词汇 GOOGLE对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。 示例:搜索关于第一次世界大战的信息 搜索:“\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"worldwari\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"” 结果:\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"i\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"使用过于频繁,没有被列入搜索范围。已向英特网搜索\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"worldwari\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\".共约有7,370项查询结果,这是第1-10项。搜索用时0.17秒。 7.5,强制搜索 如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。 示例:搜索包含“WhoamI?”的网页。如果用“\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"whoami?\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"”,“Who”、“I”、“?”会被省略掉,搜索将只用“am”作关键字,所以应该用强制搜索。 搜索:“\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"+who+am+i\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"” 结果:已向英特网搜索\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"+who+am+i\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\".共约有332,000项查询结果,这是第1-10项。搜索用时3.68秒。 注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。 8,进阶搜索 上面已经探讨了GOOGLE的一些最基础搜索语法。通常而言,这些简单的搜索语法已经能解决绝大部分问题了。不过,如果想更迅速更贴切找到需要的信息,你还需要了解更多的东西。 8.1,对搜索的网站进行限制 “site”表示搜索结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。 示例:搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。 搜索:“金庸site:edu.cn” 结果:已搜索有关金庸site:edu.cn的中文(简体)网页。共约有1,730项查询结果,这是第1-10项。搜索用时0.23秒。 示例:搜索包含“金庸”和“古龙”的中文新浪网站页面, 搜索:“金庸古龙site:sina.com.cn” 结果:已在sina.com.cn搜索有关金庸古龙的中文(简体)网页。共约有734项查询结果,这是第1-10项。搜索用时0.12秒。 示例:搜索新浪文教频道中关于鲁迅的信息。 搜索:“鲁迅site:edu.sina.com.cn” 结果:已在edu.sina.com.cn搜索有关鲁迅的中文(简体)网页。共约有672项查询结果,这是第1-10项。搜索用时0.24秒。 注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸site:edu.sina.com.cn/1/”的语法是错误的。 8.2,查询某一类文件(往往带有同一扩展名) “filetype:”,这是个尚在测试阶段的GOOGLE特色查询,不过功能已经非常强大,可以做很多意想不到的事情哦。 最重要的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前GOOGLE检索的PDF文档大约有2500万左右。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。 示例:搜索关于电子商务(ECOMMERCE)的PDF文档。 搜索:“ecommercefiletypedf” 结果:已向英特网搜索ecommercefiletypedf.共约有25,500项查询结果,这是第91-100项。搜索用时0.44秒。 下面是某项搜索结果: [PDF]www.ecommerce.gov/apec 文档类型DF/AdobeAcrobat-一般文字档 Page1.APartnershipoftheBusinessCommunityWithAPECEconomiesE-COMMERCE READINESSASSESSMENTGUIDEwww.ecommerce.gov/apecPage2.... www.ecommerce.gov/apec/docs/readiness_guide_files/readiness_guide_5.pdf-类似网页 可以看到,GOOGLE在PDF档前加上了[PDF]的标记,而且,GOOGLE把PDF文件转换成了文字档,点击“一般文字档”,可以粗略的查看该PDF文档的大致内容。当然,PDF原有的图片以及格式是没有了。 搜索PDF文档还可以用“inurl:”语法。比如上例,也可以用“inurldfecommerce”。搜索结果数量大致相同,不过查询结果顺序则略有很大差别。 注意,上述查询均是对PDF内文的检索,“ecommerce”这个关键字是包含在PDF文档中的。 “filetype”的另一个强大用处则在图片搜索。下文将对GOOGLE的图片搜索功能作详细说明,此处只是略提一下。进入“http://images.google.com/”,查找关于本拉登的JPG图片。 搜索:“BinLadenfiletype:jpg” 结果:搜索有关BinLadenfiletype:jpg的图片()。(试验版)共约有1,630项查询结果,这是第1-20项。搜索用时0.14秒。 除此之外,我尚未发现其他的filetype用法。如果有谁知道,请给我发邮件。预先感谢。8.3,搜索的关键字包含在URL链接中 “inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相 关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。 示例:查找MIDI曲“沧海一声笑”。 搜索:“inurl:midi沧海一声笑” 结果:已搜索有关inurl:midi沧海一声笑的中文(简体)网页。共约有16项查询结果,这是第1-10项。搜索用时0.16秒。 示例:查找[M$]网站上关于windows2000的安全课题资料。 搜索:“inurl:securitywindows2000site:[M$].com” 结果:已在[M$].com内搜索有关inurl:securitywindows2000的网页。共约有188项查询结果,这是第1-10项。搜索用时0.27秒。 注意:“inurl:”后面不能有空格,GOOGLE也不对URL符号如“/”进行搜索。例如,GOOGLE会把“cgi-bin/phf”中的“/”当成空格处理。 “allinurl”语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。 示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。 语法:“allinurl:\\\\\\\"cgi-bin\\\\\\\"phf+com” 搜索:已向英特网搜索allinurl:\\\\\\\"cgi-bin\\\\\\\"phf+com.共约有37项查询结果,这是第1-10项。搜索用时0.36秒。 8.4,搜索的关键字包含在网页标题中 “intitle”和“allintitle”的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内 容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。 示例:查找日本明星藤原纪香的照片集。 搜索:“intitle:藤原纪香写真” 结果:已搜索有关intitle:藤原纪香写真的中文(简体)网页。共约有465项查询结果,这是第1-10项。搜索用时0.16秒。
9,其他罕用语法 9.1,搜索所有链接到某个URL地址的网页 如果你拥有一个个人网站,估计很想知道有多少人对你的网站作了链接。而“link”语法就能让你迅速达到这个目的。 示例:搜索所有含指向华军软件园“www.newhua.com”链接的网页。 搜索:“link:www.newhua.com” 结果:搜索有链接到www.newhua.com的网页。共约有856项查询结果,这是第1-10项。搜索用时0.17秒。 注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOOGLE忽略。 9.2,查找与某个页面结构内容相似的页面 “related”用来搜索结构内容方面相似的网页。例:搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related:wwwsina.com.cn/index.shtml”。 9.3,从GOOGLE服务器上缓存页面中查询信息 “cache”用来搜索GOOGLE服务器上某页面的缓存,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。 示例:查找GOOGLE缓存的中文yahoo首页 搜索:“cache:www.yahoo.com.cn” 结果:这是Google内http://cn.yahoo.com/的页库快照。 Google已先预览各网站,拍下网页的快照存档。 这网页可能有更新的版本,请按此查看新版。 Google和网页作者无关,不对网页的内容负责。 ... 9.4,info info用来显示与某链接相关的一系列搜索,提供cache、link、related和完全包含该链接的网页的功能。 示例:查找和新浪首页相关的一些资讯。 搜索:“info:www.sina.com.cn” 结果:有关www.sina.com.cn的网页信息。 新浪首页 北京站上海站广东站....首页,|,新闻,|,体育,|,财经,|, 科技,|,娱乐,|,游戏,|,军事,|,健康,|,教育,|,汽车,|, 女性,|,个人家园.... 简介:位于北京的新闻中心,包括新闻与评论。 类别:World>ChineseSimplified>新闻 Google提供这个网址的信息: 查看Google网页快照里www.sina.com.cn的存档 寻找和www.sina.com.cn类似的网页 寻找网页有链接到www.sina.com.cn 寻找网页包含有\\\\\\\"www.sina.com.cn\\\\\\\"
|
|