一 12
2010年一月12日,星期二,下午 11:11 | 分类:
杂七杂八 |
给我留言 |
Windows XP、Windows Vista、Windows Server 2008,以及处于测试阶段的Windows 7,都有32位(x86)和64位(x64)两种版本。面对两种版本光盘镜像下载,常常让有些网友不知所措:究竟选择哪个版本更好一些?下面,我用最简洁的文字尽可能作最详尽的回答:两者之间存在的“五大不同”。与此同时,着重说明Microsoft Windows64位(x64)操作系统,相对于32位(x86)操作系统的最大优势和劣势是什么? 第一,设计初衷不同。64位操作系统的设计初衷是:满足机械设计和分析、三维动画、视频编辑和创作,以及科学计算和高性能计算应用程序等领域中需要大量内存和浮点性能的客户需求。换句简明的话说就是:它们是高科技人员使用本行业特殊软件的运行平台。而32位操作系统是为普通用户设计的。 第二,要求配置不同。64位操作系统只能安装在64位电脑上(CPU必须是64位的)。同时需要安装64位常用软件以发挥64位(x64)的最佳性能。32位操作系统则可以安装在32位(32位CPU)或64位(64位CPU)电脑上。当然,32位操作系统安装在64位电脑上,其硬件恰似“大马拉小车”:64位效能就会大打折扣。 第三,运算速度不同。64位CPU GPRs(General-Purpose Registers,通用寄存器)的数据宽度为64位,64位指令集可以运行64位数据指令,也就是说处理器一次可提取64位数据(只要两个指令,一次提取8个字节的数据),比32位(需要四个指令,一次提取4个字节的数据)提高了一倍,理论上性能会相应提升1倍。 第四,寻址能力不同。64位处理器的优势还体现在系统对内存的控制上。由于地址使用的是特殊的整数,因此一个ALU(算术逻辑运算器)和寄存器可以处理更大的整数,也就是更大的地址。比如,Windows Vista x64 Edition支持多达128 GB的内存和多达16 TB的虚拟内存,而32位CPU和操作系统最大只可支持4G内存。 第五,软件普及不同。目前,64位常用软件比32位常用软件,要少得多的多。道理很简单:使用64位操作系统的用户相对较少。因此,软件开发商必须考虑“投入产出比”,将有限资金投入到更多使用群体的软件之中。这也是为什么64位软件价格相对昂贵的重要原因(将成本摊入较少的发售之中)。 总而言之,Microsoft Windows 64位操作系统,必须“上”靠64位主机硬件的支撑,“下”靠64位常用软件的协助,才能将64位的优势发挥到极致,“三位一体”缺一不可(道理很简单:操作系统只是承上启下的运行平台)。至于64位电脑可以安装32位操作系统,64位操作系统可以安装32位软件,那是设计上的“向下兼容”,不是64位设计初衷的本来含义(如上所述)。 最后顺便提醒有些网友: 1.64位电脑虽然可以安装32位操作系统,但是32位电脑绝对不能安装64位操作系统。这点至关重要务必牢记,以避免盲目下载和安装。 2.在64位电脑运行的32位操作系统上,不能采取硬盘安装方式安装64位操作系统。如若安装,首选光盘格式化安装方式,也可采用比较 繁琐的DOS安装方式。 3.使用虚拟机安装操作系统,实际上就是在目前运行的操作系统上安装软件。因此,在32位操作系统上不能虚拟安装64位操作系统。
(阅读更多精彩内容...)
八 25
2009年八月25日,星期二,下午 3:03 | 分类:
杂七杂八 |
给我留言 |
如何选择你的第二个单反镜头? 题注:本文旨在向初阶摄影爱好者介绍主要的焦段分类和用途,以帮助他们选购合适自身需要的镜头。以下的文字转译自Slrgear.com。原著:J.Schneider和D.Etchells。如欲转载,请知会著者并注明出处。 单镜反光相机的最大优势是可以根据需要更换镜头。这一特点提供了无可比拟的灵活性。你可以从超广角到超远摄的范围中选出适合你的摄影主题需要的镜头。再加上所见即所得这一特点,单反相机已成为职业摄影人和业余爱好者的热门摄影工具。然而,为了最大的发挥单反相机的潜能,你必须选择出合适的镜头。其中,如何选择好你的第二个镜头是最关键的一个决定。本文的目的是协助你做出这一选择。 技术注解:1)什么是影像圈? 影像圈是指镜头可以覆盖的感光元件或胶片面积。目前,许多镜头厂商都有专门为非全幅面感光元件生产的小像场镜头。相比于为全画幅生产的镜头,小像场镜头的优点的质量,体积和价格,但小像场镜头无法应用于应用了全画幅感光元件的单反相机。非全幅画幅在价格和体积上的优势是全画幅无法取代的,所以业余级的单反相机会一直使用非全幅画幅。但是,假如你认为自己将来会升级到体积较巨大的全画幅相机,你就应该关注下文列出的35mm像场镜头。 技术注解:2)什么是IS和VR IS和VR分别是佳能和尼康公司的产品线中的光学防抖镜头的标识。光学防抖技术通过移动镜头中的部分镜片来实现手持拍摄抖动的补偿。相比起无防抖的镜头,光学防抖镜头可以使你用更慢的快门速度或更小的光圈来获得清晰的影像。 正文 1. 第一个镜头:配套镜头 许多单反用户的第一个镜头是18-55mm f/3.5-5.6这一标准变焦镜头(35mm等效焦距28-85mm)。佳能,尼康和宾得等相机厂商都将这一从广角到中长焦的3倍变焦镜头作为相机配套镜头出售。这是镜头具有体积小,轻便和廉价这三大优势,它无疑是廉价一般用途镜头的最佳选择。另外,部分厂商还会将18-70mm镜头(35mm等效焦距28-105mm)作为配套镜头。 2. 第一个镜头的另一种选择: 1)大变焦比变焦镜头。 第一个镜头的另一种选择是如同18-200mm f/3.5-6.3(35mm等效焦距28-300mm)大变焦比的变焦镜头。这种11倍的变焦镜头不可能将所有的任务都做得很好(你必须接受一定程度的锐度降低和一个较小的最大光圈值),但是,这种镜头是去旅行时希望用一个镜头兼顾所有的拍摄任务的最佳选择。另外,对一部分不愿意更换镜头的单反用户,这个也是最佳选择,这样可以避免感光元件入灰尘的问题。 Eg. Nikon 18-200mm f/3.5-5.6G IF-ED AF-S DX VR APS-C:比副厂镜头更好的光学素质,光学防抖,更昂贵的售价。 Olympus 18-180mm f/3.5-6.3 Zuiko Digital 3/4系统专用镜头。 Sigma 18-200mm f/3.5-6.3 DC APS-C:在小光圈时有较好的光学素质,低廉的售价。 Sigma 18-125mm f/3.5-5.6 DC APS-C:更低廉的售价,更好的光学素质,但长焦端较短。 Tamron 18-200mm f/3.5-6.3 XR Di II LD Aspherical IF AF APS-C:在光学素质上有一定的缺陷,但仍不失为大变焦镜头一个很好的选择。18-250mm是一个更好的选择。 Tamron 18-250mm [...]
(阅读更多精彩内容...)
八 25
2009年八月25日,星期二,下午 3:03 | 分类:
杂七杂八 |
给我留言 |
对于一种胶卷,有着相当多的快门速度和光圈组合可在达到同样合适的曝光量。例如,将某一快门速度调快一档,这时胶卷上所接受的曝光量则为原快门速度时的一半,为了保持总的曝光量不变,就必须相应地将光圈开大一级。当然,也能用另一种方法来取得总的曝光量不变,那就是将快门速度调慢一档,而将光圈缩小一级。除了获得合适的曝光量外,由于下面三条原因,你则必须用某一种具体的快门速度和光圈的组合。 ◆1、为了使相机的减轻晃动,一个通用的快门速度是1/125秒。而1/250秒这一较高的快门速度则可以用来拍摄相当清晰的照片。使用长焦,必须配以较高的快门速度,然而此时你又必须使光圈较正常的开大一些才能获得合适的曝光量。要记住,当按下快门钮时,即使是使用较高的快门速度,也要尽可能地使你手中的相机保持平稳。 ◆2、抓住动作。1/125秒的快门速度能抓住人的步行动作。当然,当使用较高的快门速度时,是有可能抓住如跑动着的人等稍快一些的动作的。使用较高的快门速度时,必须用较大的光圈,以保持获得相同的曝光量。例如某一胶卷在充足的阳光下使用时的指南是1/125秒、f/8,那么获得同样曝光量的快门速度和光圈的另外组合可以是1/250秒、f/8或者1/500秒、f/5.6。 ◆3、景深的控制。在保持正确的曝光量的同时,通过使用或大或小的光圈配以适当的快门速度能增加或减少清晰程度或景深。 下面是拍摄照片时选择快门速度和光圈最佳组合的准则。 选择光圈(f值) ◆ f/2.8: 具有该镜头最佳的结像品质。比上述较大的孔径具有稍大的景深。 提供有限的清晰聚焦的范围,以便当照明情况较最佳状态稍差时获得合适的曝光量,例如多云的天气或者在阴影处。 ◆ f/4和f/5.6: 具有中等(适度)的景深。适用于户外日光下拍摄。具有极好的成像品质。 ◆ f/8: 具有很大的景深。适合于户外日光照明条件下拍摄。具有极好的成像品质。 选择快门速度 ◆ 1和1/2秒: 使用相机支架(如三脚架)。适合在暗淡照明情况下使用小光圈获得大景深和足够的曝光量(如现场光或摄影灯照明)。适合拍摄无生命的物体和稳定不动的被摄体。 ◆ 1/4秒: 使用相机支架。这是适于拍摄成年人肖像最慢的快门速度。适合在暗淡照明条件下使用小光圈以获得大景深和足够的曝光量。适合稳定的被摄体。 ◆ 1/8秒: 使用相机支架。对于在限定范围内拍摄成年人比用1/4秒快门速度时更好。适合在暗淡照明条件下使用小光圈以获得大景深和足够的曝光量。适合稳定的被摄体。 ◆ 1/15秒: 使用相机支架。当相机上安装标准镜头或者广角镜头时,如在曝光时相机能握持得相当平稳的话,那么有些人能手持相机进行拍摄。适合在闇弱照明条件下,使用小光圈以获得大景深和足够的曝光量。 ◆ 1/30秒: 这档快门速度是在手持相机进行拍摄并在该相机上配以标准镜头或广角镜头时,被推荐的最慢快门速度。为了获得清晰度高的照片,相机必须握持的极平稳。这档快门速度适合大多数现场光摄影。适合在多云天气或阴影处用小光圈以获得大景深。 ◆ 1/60秒: 这档快门速度适于照明条件不太理想,如多云的天气、在阴影处等户外日光下拍摄照片用。对使用小光圈以增大景深来说,该速度是很有用的。在较明亮的现场光照明的场所也使用这档快门速度。使用这档快门速度,相机意外地受到震动而使拍摄失败的情况要比使用1/30秒快门速度时来得少些。适用于单反相机的闪光灯同步。 ◆ 1/125秒: 这是户外日光下拍摄照片最好的快门速度。在明亮的照明情况下,使用中等大小的光圈到小光圈能产生很好的景深。使用这档快门速度,能使来自相机本身的微弱震动减到最小。能抓住一些中等速度的动作,如走动着的人,儿童的游戏或是自由活动着婴孩。对于手持相机并安装上焦距小于105mm的中焦距镜头进行拍摄,该速度具有一定的保险性。这档快门速度被推荐用于某些单镜头反光照相机使用闪光灯拍摄。 ◆ 1/250秒: 适合抓住一般速度的运动体,例如以中等速度跑动着的人、游泳运动员、自行车运动员、在一定距离外奔跑着的马、检阅活动、奔跑着的小孩、帆船、棒球运动、以中等速度比赛的足球运动员。当你并不需要大景深,而主要是想抓住动作的时候,可以在户外日光照明情况下用这档快门速度,以使相机的震动程度减至最小。适合于手持相机安装上250mm焦距镜头进行拍摄。 ◆ 1/500秒: 适合抓住运动速度较快的动体,例如中等距离外的运动员、奔跑着的马、跳水运动员、快速骑驶着的自行车运动员、行驶着的轿车或跑动中的篮球运动员。这档快门速度能用来抓住除了最快速度外的所有动体。 ◆ 1/1000秒: 是抓住快速动体的最佳速度。如赛车、摩托车、飞机、快艇、野外和体育场内的比赛专案、网球运动员、滑雪运动员及高尔夫球运动员。因为使用该快门速度时需用比其他快门速度时更大的光圈,因此它的景深最小。这是手持相机安装上400mm以内焦距的长焦距镜头进行拍摄时极好的快门速度。 注:对所有的快门速度来讲,重要的是使手中的相机平稳。当你将相机架在坚固的支撑物上(如三脚架等)使用上面所讲过的那望远镜头进行拍摄时,也能使用较上述与之相匹配的快门速度更慢的快门速度。 景深–景深是指在摄影机镜头或其他成像器前沿着能够取得清晰图像的成像器轴线所测定的物体距离范围。 光轴平行的光线射入凸透镜时,理想的镜头应该是所有的光线聚集在一点后,再以锥状的扩散开来,这个聚集所有光线的一点,就叫做焦点。 在焦点前后,光线开始聚集和扩散,点的影像变成模糊的,形成一个扩大的圆,这个圆就叫做弥散圆。 在现实当中,观赏拍摄的影像是以某种方式(比如投影、放大成照片等等)来观察的,人的肉眼所感受到的影像与放大倍率、投影距离及观看距离有很大的关系,如果弥散圆的直径小于人眼的鉴别能力,在一定范围内实际影像产生的模糊是不能辨认的。这个不能辨认的弥散圆就称为容许弥散圆(permissible circle of confusion)。 [...]
(阅读更多精彩内容...)
六 24
2009年六月24日,星期三,下午 1:01 | 分类:
杂七杂八 |
给我留言 |
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。 TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。 TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。 使用TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。 常见中文分词开源项目: SCWS: Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和PHP 5。 ICTCLAS: 这可是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。 庖丁解牛分词: Java 提供lucence 接口,仅支持Java语言。 CC-CEDICT: 一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。 基于VB/ASP的中文分词 上面的开源项目没有给予VB和ASP的,这里提供一个简单的VB/ASP类,加上词典之后就可以进行分词了,注意这个类只供演示,其分词速度极慢不适合实际应用。 类名为:WordSplit Private rootTable As String Private Function GetCount(ByVal s As String) As Long GetCount = InStr(1, rootTable, s) End Function Public Function WordCount(ByVal strString As [...]
(阅读更多精彩内容...)
六 24
2009年六月24日,星期三,下午 1:01 | 分类:
杂七杂八 |
给我留言(1 条留言) |
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。 什么是中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。 中文分词和搜索引擎 中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)上以“和服”为关键词进行搜索: 在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。 在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。 在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。 这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。 中文分词技术 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: 1)正向最大匹配法(由左到右的方向); 2)逆向最大匹配法(由右到左的方向); 3)最少切分(使每一句中切出的词数最小)。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。 对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。 2、基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 3、基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。 分词中的难题 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。 1、歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。 交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。 2、新词识别 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词? 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。 [...]
(阅读更多精彩内容...)
六 22
2009年六月22日,星期一,下午 2:02 | 分类:
杂七杂八 |
给我留言 |
北京时间2009年6月18日凌晨,苹果官方终于放出了被渲染已久的最新手机固件iPhone 3.0,由于之前全球开发者大会上的华丽铺垫,全球的iPhone忠实用户统一了时区翘首以待,包括中国FANS在内的苹果迷们均在第一时间为自己的手机进行了升级。至此,苹果宣称的具有100多项提升的iPhone3.0固件终于被揭开了神秘面纱。 iPhone 3.0的升级主要着眼于习惯修正和功能补充,由于iPhone市场的不断拓展,全球用户纷繁的使用习惯在不断的冲击着以美国理念为主导的苹果设计师们,在3.0固件发布之前,已经得到市场肯定的苹果手机却承受着来自于各国用户的习惯非议!而事实上,复制粘贴、彩信、短信转发等基础性功能的缺失也的确影响到了用户的正常使用。 在苹果手机最新固件发布之际,我们试着和大家一起印证一下iPhone 3.0的诸多提升点,来看看新固件和以往的2.2.1究竟有哪些不同。在这里还有个小插曲,苹果iPhone3.0新固件一经发布就被用户抓住了小辫子,大家发现3.0正式版跟之前的GM版md5值一样,也就是说苹果发布的所谓正式版iPhone 3.0固件和之前一版的GM版没有丝毫区别。不过大家也不用过分在意,毕竟我们所需要的是稳定的系统和功能提升,而并不是版本号的提升。 一、关于升级 由于目前iPhone 3.0暂时不能解锁越狱,因此升级过程相对简单。而Jailbreak工具合Sim解锁工具将在稍后推出。升级时只需要使用iTunes 8.2,使用官方升级方式刷新固件即可。 二、操作完善 1、复制粘贴功能 复制粘贴功能是iPhone 3.0中最实用的一项提升,在文字编辑状态,双击可以自动选中,左右移动手指可以选择文字,在文字上方同时会弹出剪切、复制、粘贴三项提示;在非编辑状态下,长按文字即可弹出复制功能,操作非常方便。 iPhone 3.0的复制粘贴功能不仅仅可以用在短信功能中,它可以延伸到手机的每个应用角落。 2、短信转发和单条删除功能 在短信阅读界面,点击右上角的编辑,即可弹出删除和转发选项,这标志着iPhone用户终于可以单条删除短信和转发短信了。 3、更多界面下横向键盘 以往iPhone只能在浏览器界面使用横向键盘,这无疑浪费了宽大的屏幕面积。在iPhone 3.0中,有更多界面可以支持横向虚拟键盘输入,而这其中包括了短信、邮件、记事本等输入最频繁的界面。 三、功能补充 1、彩信功能 彩信功能是针对全球手机用户使用习惯进行的功能补充,这项最为稀疏平常的功能在iPhone上,十足费了老劲。iPhone 3.0终究是加入了MMS功能,该功能被完美的融入了以往的短信功能中,同样是以聊天模式呈现。 2、蓝牙立体声 一款音乐手机不支持蓝牙立体声功能实在有欠考虑,苹果在最新手机固件中终于加入了这一功能,iPhone 3.0的蓝牙界面和以往并没有明显变化,所不同的是现在可以连接立体声蓝牙耳机收听音乐了。 小贴士:遗憾的是iPhone 3.0的蓝牙立体声功能还不稳定,笔者配对诺基亚BH-903后不久,蓝牙耳机就出现了死机情况。 3、录音机 虽然有很多第三方软件可以实现录音功能,但是作为一款手机而言,自身没有录音功能也真是说不过去,iPhone 3.0加入了此功能。手机在录音后可以对声音文件进行简单的编辑,也可以通过邮件和朋友分享。 4、音乐摇动控制 摇动控制音乐的功能是在iPhone面试后,竞争对手想出的应对之策。而现在,iPhone同样支持这个好玩的功能。当然,如果你觉得这个功能实用价值不高,同样可以将其关闭。 4、股票功能增强 iPhone 3.0下的股票功能得到了加强,再也不是以往版本上的鸡肋功能了。提升后的股票软件虽然仍然比不了一些专业的炒股软件,但新固件下的功能已经能够独当一面了。 四、细节完善 1、显示通话时间 通话时间显示是对iPhone功能细节的一个完善,iPhone 3.0在通话记录中加入了通话时长的显示,进一步像普通手机功能靠拢。 2、强大的Spotlight搜索 在iPhone 3.0上,以往的分页小圆点左侧出现了一个非常小的放大镜,此标志代表着iPhone的搜索功能。新版固件加入了对Spotlight搜索的支持,只要在待机界面上按home键(或者向左滑动页面),即可弹出搜索框,可以在联系人、邮件、短消息、ipod等内容中找你想要的东西。 3、浏览器自动填充 iPhone上的Safari浏览器功能已经非常完善,如果能解决flash问题就可堪称完美了。虽然3.0的升级并没有解决最大的问题,但加入了浏览器自动填充功能还是挺实用的。 总结:关于升级,iPhone 3.0新固件还有很多细节功能提升,我们会在详细体验之后为大家带来更全面的升级报道。此外,我们更期待iPhone 3GS的发布,期待最新硬件和最新软件结合后的效果。
(阅读更多精彩内容...)
五 31
2009年五月31日,星期天,下午 3:03 | 分类:
杂七杂八 |
给我留言 |
ダカフェ日記 http://dacafe.petit.cc/ 我最喜欢的blog之一,完全的家庭相册,干净的画面,温馨的瞬间。 うちの食卓 http://tfortunati.exblog.jp/ 我最喜欢的blog之二,一个嫁到意大利的日本女子,自己所做的精美食物。 Happy Photo Gallery http://sorahappy.exblog.jp/ 冲绳的异域风光。冲绳位于日本的最南端,日本唯一的亚热带海洋气候,由于临近中国,太平洋战争后又成为驻日美军基地,因此这里成为多种文化的交汇点。 Good Morning オーストラリア http://istdgold.exblog.jp/ 行走在澳大利亚的日本人。相机PENTAX *istD。 シドニーの空のように http://bbs10.as.wakwak.ne.jp/41286/blog/ 住在悉尼的日本人,女,相机CANON EOS 20D。 ハイ、撮ってみました http://maeterupoto2005.txt-nifty.com/maeteru_poto/ 东京周边,绚丽光影。相机Konica Minolta α-9・α-7D。 カメラカメン 写真の時間ですよ http://cameracame.exblog.jp/ 哦,不知道如何介绍,但是看过有感觉。 ときどき写真日和 http://metrotrain.exblog.jp/ 东京市井。以及我唯一见到的拍摄流星的人。相机Nikon D70。 ご近所ネイチャー、今日は何撮る? http://photo-nao.cocolog-tnc.com/gokinjyo/ 住家周围的一景一物,平常世界里的异样惊喜。相机Nikon FM3A。
(阅读更多精彩内容...)
四 02
2009年四月2日,星期四,上午 11:11 | 分类:
杂七杂八 |
给我留言 |
下载了IE8,但同旧版本不同的是,有些页面它不能正常显示,不过,IE8上有一个兼容性按钮,可以点一下,它可能会帮助正常显示那些有问题的网页。当浏览器检测到你打开的网页需要这个按钮,它就出现在顶部的工具栏上,就在地址栏的右边。按钮看起来像是一张撕裂的纸。 为什么需要这个按钮呢?这是因为旧版本IE使用了一些非标准的显示网页的专有技术。一些网站在设计时把这些因素考虑在内了,只在IE下才能正常显示,在其它浏览器下就不行了。具有讽刺意味的是,微软推出的新IE8也摈弃了这些专有技术。因此,兼容性按钮可让新版本IE浏览器在遇到可能存在这个问题的页面时像旧版本那样工作。
(阅读更多精彩内容...)
四 02
2009年四月2日,星期四,上午 11:11 | 分类:
杂七杂八 |
给我留言 |
苹果公司(Apple)的Safari浏览器一直都以速度快知名,并且不断地推陈出新。虽然Safari浏览器多用于苹果自己的Macintosh电脑上(两者捆绑销售),但是Safari也有适用于Windows的版本。此外,它也是iPhone默认的浏览器。
(阅读更多精彩内容...)
三 10
2009年三月10日,星期二,下午 12:12 | 分类:
杂七杂八,
电子商务,
网络营销 |
给我留言 |
写博客是一件美好的事情,千万别让这个年轻的媒体因为“软文”而落得一文不值的下场。
(阅读更多精彩内容...)