找回密码
 立即注册
搜索
总共850条微博

动态微博

查看: 1390|回复: 9
打印 上一主题 下一主题
收起左侧

百思不得其解, 到底哪里有问题? (我碰到的实际问题, 郁闷着. 请大家帮忙)

[复制链接]

210

主题

3101

帖子

8万

积分

跳转到指定楼层
楼主
发表于 2007-9-5 13:00:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

我正在一个database查文献, 请看:
(1) 我查 electromagnetic shielding hardening, 得到143条目
(2) 我查 electromagnetic shielding, 得到153条目
(3) 我查 electromagnetic shielding hardening, 得到15条目www.ddhw.com
(4) 我查 electromagnetic  hardening shielding, 得到39条目
(5) 我查 electromagnetic hardening, 得到50条目
 
我原指望, 按逻辑, 上述结果应该有如下关系的:
(1) + (3) = (2)
(3) + (4) = (5)
(1) + (3) + (4) = (2) + (5) - (3)
 
但显然, 事实上, 上述结果不符这些等量关系.  不知是search engine的毛病, 还是我的毛病? (我要睡着了).  请大家帮帮忙, 解释一下为啥会如此. 
 
 
 
www.ddhw.com

 
回复

使用道具 举报

5685

主题

9773

帖子

35万

积分

沙发
发表于 2007-9-5 18:11:46 | 只看该作者

试重做一次,你应该可以看出原因。[:-D]


  试重做一次,你应该可以看出原因。




回复 支持 反对

使用道具 举报

5

主题

97

帖子

767

积分

板凳
发表于 2007-9-5 20:18:10 | 只看该作者

回复:百思不得其解, 到底哪里有问题? (我碰到的实际问题, 郁闷着. 请大家帮忙)


很简单, and 和not并不是在现有的结果上筛选,而是重新搜索。比如你搜索 朱镕基,出来很多结果,然后朱镕基 not 李鹏,又出来很多结果,如果是在朱镕基的基础上减去李鹏,那么很多网页应该是一样的,可事实上,非常不同。所以可以确定,不是在在现有的结果上筛选,每次都是新搜索。
 
 
至于怎么搜索,结果怎么产生,这个算法都是很复杂的。
 


 
回复 支持 反对

使用道具 举报

3376

主题

5929

帖子

16万

积分

地板
发表于 2007-9-5 21:57:29 | 只看该作者

回复:百思不得其解, 到底哪里有问题? (我碰到的实际问题, 郁闷着. 请大家帮忙)


很有意思的发现。如果单单从逻辑的角度来说,这的确是个问题。
 
现在既然有这样的结果,那就说明,除了逻辑之外,一定还有其他影响因素。
 
我的猜测是,对于 NOT 与 AND 这两个逻辑也许用在不同的对象上。
简单假设一下:所有的论文都包含“摘要”和“关键字”部分。我们用某个关键字查询的时候,数据库可能在论文的“摘要”和“关键字”这两部分查找。如果发现有,就选出来。
 
但是如果面对逻辑关系的时候,这样的关键字只在“关键字”部分查询,而不在“摘要”部分查询(否则可能会有很多应该选出来的文章被排除掉)。
 
如果我的猜测正确的话,如果你查 hardening hardening,应该会有少许结果出来。
www.ddhw.com

 
回复 支持 反对

使用道具 举报

210

主题

3101

帖子

8万

积分

5#
 楼主| 发表于 2007-9-6 08:11:19 | 只看该作者

谢谢各位回答! 我的说明和感觉.....


开心金牌两位的说法, 我理解似乎是说这里的search类似于google或yahoo搜索, 搜到的条目可能会有重复, 也可能有省略; 而且变化很快, 前后两次搜索可能就会有不同. 但我搜的是一个相对稳定的database, 几天都不会变的, 更不要说前后两次了.
 www.ddhw.com
新新说的是有漏网之鱼的意思, 我猜想也是如此. 关键就是不清楚是怎么漏的了.  这也是我感困惑的地方: 怎么机器都这么不牢靠呢?
 
我试了新新说的, 搜了 shielding shielding, 和 hardening hardening 等等, 但结果都是0.
 www.ddhw.com
我仔细看了搜到的条目, 好象是这样的: 在
(1) 搜 electromagnetic shielding hardening
www.ddhw.com
(3) 搜 electromagnetic shielding hardening
两者的结果中, 有几条是重复的. 也就是说有这样两种可能: 要么在(1)中没有把所有的"带有hardening"的鱼排除在外; 要么在(3)中让某些"不带hardening"的鱼混进来了.  (1)+(3)=158, 而(2)=153, 也即有5条鱼在(1)和(3)重复出现了.
 www.ddhw.com
类似地, (3)和(4)中也有重复的鱼, 所以(3)+(4)>(5).
 
但我还是想不通, 鱼到底是怎么漏网的. (说明: 我每次搜的范围都是一样的: title, abstract, key words).
www.ddhw.com

 

  本贴由[husonghu]最后编辑于:2007-9-6 0:24:27  

回复 支持 反对

使用道具 举报

5685

主题

9773

帖子

35万

积分

6#
发表于 2007-9-6 23:59:05 | 只看该作者

还未能证明有漏网之鱼,有沒有想过可能是滥於充数问题?重搜一次..


最多只是153条目,条目又不多,比较一下,可能有些条目不应该全在也说不定呢!将1、2、3に条目分別copy下来,用2的条目先删去与1、3一样的条目內容再比较吧!比较数字沒意思,就比较条目內容吧!
www.ddhw.com

 
回复 支持 反对

使用道具 举报

5

主题

97

帖子

767

积分

7#
发表于 2007-9-7 06:09:15 | 只看该作者

回复:谢谢各位回答! 我的说明和感觉.....


原来是学校图书馆的数据库啊,那就可能是因为SQL语句的“select.... from..... where” 语句,有很多不同的表达,可能并不是每个都是在原来的where后边添新条件加以限制。
 
这得问问那个程序员,看看他的具体程序代码是什么,才能解释。这么干猜估计是不行的。
 
 
www.ddhw.com

 
回复 支持 反对

使用道具 举报

5

主题

97

帖子

767

积分

8#
发表于 2007-9-7 06:26:35 | 只看该作者

回复:回复:谢谢各位回答! 我的说明和感觉.....


另外,更奇妙的是,SQL对于大小写,空格,都敏感。比如你的图书进库的时候,书名输成
< A>  
 
这三者完全是不一样的。
 
比如说 select  * from book  where  book_title=
那如果当时输入的时候另外两个,肯定就出你这种现象,难免多一个,或者少一个,尽管你肉眼看上去三者是一样的。
还有就是,返回的时候,也有很多参数,所以到底怎么返回的,也都是问题。只能看源代码,才能找出真正原因。猜没法猜,太多可能了。
 
 
 
 
www.ddhw.com

 
回复 支持 反对

使用道具 举报

210

主题

3101

帖子

8万

积分

9#
 楼主| 发表于 2007-9-7 10:47:43 | 只看该作者

多谢楼上各位的热心. 我受益不少.[@};-][@};-][@};-][@};-]


  多谢楼上各位的热心. 我受益不少.




回复 支持 反对

使用道具 举报

24小时热帖
    一周热门
      原创摄影
        美食美文
          您需要登录后才可以回帖 登录 | 立即注册

          本版积分规则

          Archiver|手机版|珍珠湾ART

          Powered by Discuz! X3 © 2001-2013 All Rights Reserved