奔腾III铜矿处理器采用0.18微米工艺生产,内核集成32KB的一级缓存(包括16KB数据缓存和16KB指令缓存)和256KB的全速二级缓存(其二级缓存采用8路联合机制,运行于与处理器主频相等的速度)。这款处理器内核集成2810万个晶体管,封装形式为FC-PGA,共有370根插脚。其运行频率从500MHz起跳,至1GHz止,采用100MHz及133MHz两种不同版本的前端总线频率,分别用“E”及“EB”来表示。例如奔腾III800E代表800MHz主频,100MHz前端总线频率的处理器,而奔腾III800EB则代表800MHz主频,133MHz前端总线频率的处理器。//by http://CiDu.Net/
奔腾III处理器使用著名的SSE(Streaming SIMD Extension)指令集,拥有不错的性能且发热量很低。其工作电压为1.60v-1.75v,普通的散热风扇就能保证它的稳定运行。超频能力方面,很多低主频100MHz外频的奔腾III处理器都能够轻松的超至133MHz外频使用。//by http://CiDu.Net/
在配套芯片组方面,奔腾III处理器可以使用Intel自己的440BX、810、810E、815、815E、815EP、820,VC820,VIA的693、693A、694以及SIS的630等芯片组。大多数奔腾III系统采用的是SD内存,PC133SD内存提供的1.06GB/s的带宽完全可以满足处理器的需求。当然,也有少数系统例外,如VIA的APOLLO PRO266芯片组使用的是DDR内存,Intel的820使用的是PC600的RAMBUS RDRAM。但是事实证明,这些采用了更先进、更快内存的系统运行起来并不比采用SD的系统更快更稳定。奔腾III处理器的运算单元每次可以传输8bit的数据资料,这样在根据其采用的100MHz或者133MHz外频来计算,CPU本身的数据带宽仅为8bit*100MHz=800MB/s或者8bit*133MHz=1.06GB/s。而运行于100MHz或133MHz的SD内存已经完全可以提供CPU所需的内存带宽,这样看起来使用DDR或着RD内存就显得有些多余。并且由于芯片组本身存在的问题和设计缺陷,这些采用更先进内存的系统不但没有表现出更强的性能,在很多方面甚至要弱于采用SD内存的系统。所以,无论从技术角度还是从多数使用情况上来看,奔腾III是一颗使用SD内存系统的处理器。//by http://CiDu.Net/
(三)奔腾4处理器的基本技术指标:
奔腾4处理器采用了全新设计的NetBurst架构,不再使用以前的100MHz和133MHz单倍速前端总线频率,而是采用了Quad-Speed四倍速的总线设计,系统总线速度等效于400MHz。这样其CPU带宽相比奔腾III就有了几倍的提升,增大了单周期内数据的吞吐量。在指令集方面,Intel为奔腾4特意设计了144条全新的指令,称其为SSE2。早期的奔腾4依然使用0.18微米工艺生产;随着Intel生产工艺的逐步提升,目前所有奔腾4处理器已经全部过渡到0.13微米工艺,主频速度也从0.18微米工艺时的最高2GHz过渡到拥有最新Hyper-Threading(超线程)技术的3.06GHz。//by http://CiDu.Net/
Willamette核心奔腾4处理器:
图(1)奔腾4 Willamette
Willamette核心的奔腾4依然采用和奔腾III处理器一样的0.18微米工艺生产,内核集成20KB的一级缓存(包括8KB的数据缓存和12KB的追踪缓存)和256KB全速二级缓存。由于采用了全新的架构设计,并且采用了超长的20级流水线,奔腾4处理器的晶体管数目达到了史无前例的4200万,核心面积也达到了216mm2,远比奔腾III的核心要大。由于CPU核心异常的脆弱,在奔腾III时代出现过很多因为散热器安装不得当造成压坏CPU核心的情况,因此奔腾4都为CPU加装了保护顶盖,核心不再裸露在外。当然,揭掉顶盖,我们还是可以看到奔腾4那巨大的核心的,如图所示:
图(2)Willamette奔腾4的核心
早期的Willamette奔腾4采用的是Socket423接口,FC-PGA2的封装形式;到后来则转为小型Micro FC-PGA2封装的Socket478接口。这是为了适应更高主频下的电器特性的要求,也是奔腾4处理器今后一段时间将采用的统一接口形式。//by http://CiDu.Net/
Willamette奔腾4由于采用的是0.18微米工艺,因此不但核心面积大,功耗也十分惊人。该款处理器工作电压为1.75v,主频速度从1.3GHz起跳,以每100MHz为间隔至2GHz止。其最大功耗为63w,需要配备专业的散热风扇方能稳定运行。//by http://CiDu.Net/
Willamette奔腾4拥有令人失望的超频能力,这不但因为其本身已经跟高的运行频率,最重要的是其0.18微米的生产工艺已经几乎达到其频率的极限了。在以往的经验中,常规散热条件下能够超频至533MHz外频的可能性简直是微乎其微,一般只能达到118*4或者125*4的外频频率。//by http://CiDu.Net/
Northwood核心奔腾4处理器:
由于Willamette核心的奔腾4处理器采用的是0.18微米的生产工艺,具有成本高、发热量大等严重缺陷,况且相对落后的生产工艺难以让奔腾4设计架构的一大特点——主频优势有更大的发挥空间,所以在Willamette 1.7GHz发布过后不久,Intel宣布了新一代奔腾4处理器的诞生,这就是Northwood。从某种意义上讲,这款新内核新工艺的产品才真正是成熟的、具有不可估量潜力的奔腾4处理器。//by http://CiDu.Net/
图(3)奔腾4 Northwood
Willamette核心的奔腾4初期采用的是较大的封装形式,拥有423根针脚,后期的为了适应更高频率下电器特性的要求,采用了小型的Micro FC-PGA2封装形式,并且针脚增加到478根。Northwood内核的处理器封装形势完全采用Micro FC-PGA2,并采用Socket478接口形式,与478针的Willamette完全兼容。这款处理其在架构及指令集方面与Willamette奔腾4是一样的,所不同的是其采用了更加先进的0.13微米工艺生产,并且其二级缓存容量比Willamette有了一倍的提高,达到了512KB,其晶体管数量同时增加到了5500万个。Intel还特别为Northwood改进了NetBurst架构下那超长的20级流水线算法,再加上多出了一倍的二级缓存,所以即使是在同频率下,其性能也要比老的奔腾4处理器强10%左右。同时,由于采用了新工艺,其内核面积明显减小,这会显著的降低生产成本,同时增加产量。//by http://CiDu.Net/
另外一点Northwood相比Willamette重要的技术提升就是其采用了铜互连的制程。(Willamette采用的依然是老的铝互连的技术)铜拥有比铝更加优异的导电性能,这就可以有效的减少集成电路内部的电阻抗,并且可以有效的降低所需要的工作电压,同时降低功耗和发热量。从电气特性上来看,铜互联技术代表着更高的水准,是今后CPU发展的必经之路。而现在,Northwood核心的奔腾4已经采用了这一先进的技术工艺,在2GHz甚至以上的高频率下,其工作电压仅有1.5v,功耗仅不到50w。//by http://CiDu.Net/
频率方面,Northwood的起跳频率为1.6GHz,之后是1.8GHz,2.0GHz或以上。为了便于区分这两种核心的产品,Intel用1.6AGHz、1.8AGHz和2.0AGHz这样的命名方式来辨明区别。而2GHz以上的频率目前完全是Northwood的天下,Intel在不久前还推出了533MHz外频(四倍速133MHz总线结构)的新一代Northwood B处理器,进一步提高了性能。在3.06GHz(包括)以上的产品中,Intel为奔腾4加入了一项神秘的新技术,这就是Hyper-Threading(超线程)。英特尔开发的这一突破性技术允许软件程序同时处理两项任务——从而可以在更少的时间内完成更多工作。超线程技术通过一次执行软件程序的两个线程实现了这一目标。超线程技术的出现进一步增强了奔腾4处理器的性能,并且在今后软件升级优化方面拥有巨大的潜力。//by http://CiDu.Net/
图(4)Northwood奔腾4 3.06GHz
在超频能力上,Northwood充分发挥了Intel先进成熟的0.13微米工艺的长处,大部分产品都有出色的超频能力。在常规风冷散热条件下,绝大多数1.6AGHz的处理器都能够超至533MHz标准外频使用,使得用户提前享受到了奔腾4 2.13GHz的高速快感。至于1.8AGHz超至2.4BGHz,2.0AGHz超至2.66GHz的事例也是常有耳闻,甚至某些使用极端散热方式的发烧友已经成功地将Northwood超至4GHz以上!这款处理器强大的超频能力为奔腾4处理器大大的争了一口气,充分洗刷了Willamette奔腾4超频能力低下的耻辱。//by http://CiDu.Net/
奔腾4处理器搭配平台:
初期的奔腾4处理器只能搭配Intel自家的850芯片组以及RAMBUS内存使用,由于当时过高的价格以及相对来说较窄的选择范围,造成了其平台的单一。后来Intel迫于市场形势的要求,不得不推出了支持SD内存和DDR内存的845和845D芯片组,而当Northwood推出以后,市面上支持奔腾4的芯片组也逐渐增多和成熟起来,主要产品除了850,845/845D之外,又增加了850E,845E/G/GL/PE/GE,VIA的P4X266/333/400,SIS的645,648等等。但是从技术角度来说,奔腾4处理器搭配RAMBUS RDRAM才真正能够体现出处理器强大的带宽优势。和奔腾III处理器的核心一样,奔腾4处理器的运算单元同样可以每周期传送8bit的数据,但是由于它那突破性的四倍速前端总线设计,其CPU数据带宽达到了8bit*400MHz=3.2GB/s。而能充分满足这一带宽要求的只有PC800 RDRAM。PC133 SD内存的带宽为1.06GB/s,PC2100 DDR内存的带宽也仅有2.1GB/s,就算是眼下较新的,拥有2.7GB/s带宽的PC2700 DDR内存都无法满足400MHz前端总线频率的奔腾4处理器。最新的Northwood B处理器由于采用了533MHz的外频频率,其带宽要求达到了空前的4.26GB/s,按照眼下的情况来看,恐怕只有PC1066 RDRAM和未成型的DDRII内存才能提供足够的带宽。因此,要充分发挥奔腾4处理器的性能优势,因该尽量配合更大带宽的系统内存使用。在内存带宽要求上,奔腾4比奔腾III要敏感的多。至于拥有超线程的奔腾4处理器,它们一样可以被用在上述任何一款平台之上,但是只有最新的850E(第二版BIOS),845PE/GE,VIA的P4X400,SIS的655等芯片组才能够对此项技术提供支持。//by http://CiDu.Net/
图(5)BIOS中的超线程选项
(四)奔腾4处理器深入探讨
关注IPC及奔腾4处理器的执行效能
拥有优秀的设计和先进的制造工艺、更大容量的缓存和出色的系统设计,以及十分重要的一点:相比奔腾III处理器高得多的时钟频率,奔腾4处理器在人们的设想中应该是拥有无与伦比的强大性能。然而根据测试和实际使用证明,奔腾4并没有想象中的那样强大,与它那极高的时钟频率似乎有些不成比例。这种情况在早期的Willamette内核产品中表现得尤为突出。我们借用Tom’s Hardware网站的一张测试图来说明:
图(6)奔腾4与奔腾III的同频率比较
在Tom所作的测试中,奔腾III的频率为7.5*133MHz=1000MHz,未锁频的奔腾4 Willamette工程样品为10*100MHz=1000MHz。我们可以明显地看到,在同频率下,采用更新技术、更先进系统的奔腾4处理器表现出的也就是跟奔腾III不相上下的水平。至于在与同频率的Athlon处理器的对比中,奔腾4更是一败涂地。为什么会出现这样的情况呢?实际上,这是奔腾4处理器自身的设计架构所导致的。//by http://CiDu.Net/
奔腾4的NetBurst架构最明显的优势说到底就是为了能让处理器轻易的就达到极高的频率,这在当时Athlon处理器主频速度全面领先的时候显得尤为必要。为此,Intel为奔腾4内核设计了超长的20集管道流水线,利用管道之间间隔距离越小其数据传输速度越快的特点来提高主频速度。但是,这种设计有一个致命的缺点,即如果数据在管线的最后跳跃到分支预测单元所没有预测到的位置,那么管道内所储存的所有数据都将被一起清除,等待下一次数据的填充。这样一次的预测失误就造成了处理时间上的浪费,影响了执行效能。//by http://CiDu.Net/
造成奔腾4处理器性能不尽人意的原因还有过小的一级缓存设计和浮点指令集单元。奔腾4仅拥有8KB的数据缓存,相比奔腾III少了一半。Intel自己的说法是为了进一步降低一级缓存的延迟,提高数据交换的速度,但这无疑减小了数据存储量。在浮点指令集单元上,奔腾III处理器的MMX和SSE是各有两个单元,而奔腾4仅各为一个。这样的做法是因为Intel为奔腾4量身定做了SSE2双精度浮点指令集,Intel同时希望软件开发商利用SSE2的144条新指令来为奔腾4处理器做优化,这样不但可以补偿比奔腾III处理器少了一半的浮点指令集单元的缺憾,而且可以大大加强奔腾4的浮点运算能力。但是,在运行没有对SSE2指令集做优化的程序的时候,奔腾4的浮点运算单元就会相对的显得脆弱。//by http://CiDu.Net/
所谓事难两全。铜矿奔腾III处理器拥有10级的流水线设计,其频率很难超过1GHz;而奔腾4处理器采用了20级的流水线,频率飙升得很高,但是在执行过程中又造成了性能的下降。事实上,Intel的确有用频率来弥补性能的嫌疑,奔腾4的显著特点之一就是依靠极高的频率来取胜,来弥补执行效能较低的不足。Intel完全达到了目的,在这场频率大战中胜利的天平无可非议的倒向了Intel,甚至就连目前最高频率的AthlonXP处理器在性能上也不是最高主频——奔腾4 3.06GHz的对手。因此,暂时来说,Intel不仅是速度的赢家,同时也是性能的赢家。但是,在谈到性能的时候不得不提的是在广大用户中普遍存在的关于主频和性能关系的误区。在奔腾4面世以后,“IPC”(Instruction per Cycle)这个概念才第一次真正被广大使用者所关注。需要认识到的是,频率的高低根性能的高低并不是成正比的关系,仅以频率来衡量CPU的性能是片面的,执行效能也必须列为考虑的范围之内。因此,仅用时钟频率来比较奔腾4、奔腾III以及Athlon等处理器是不公平的,这是一种对性能的误导。为了防止这种误导造成普遍的认识,AMD甚至在AthlonXP处理器中引入了PR(Performance Rating)的概念。//by http://CiDu.Net/
Hyper Threading(超线程)技术
超线程技术是Intel为了弥补传统处理器在执行单元效能上的利用率不足而开发的一项全新技术。简单来说,超线程技术原理可以被理解为借用了x86平台下的同步多线程技术,即SMT(Simultaneous Multi-Threading)。令一块CPU能够同时处理两个线程的数据。在带有超线程技术的CPU上,每个逻辑处理器带有自身的寄存器。但为了简化这项技术的复杂性, Intel的超线程技术不会试图同时对两个线程的相应指令进行取数/解码操作。相反,CPU将由两个逻辑处理器轮流进行指令取数/解码并尝试同时执行两个线程,因此解决了CPU执行单元利用率低下的问题。在运行针对超线程技术做过优化的操作系统及软件时,CPU的处理能力将有30%以上的提高。//by http://CiDu.Net/
然而在运行没有对超线程技术做过优化或单线程软件时,这一技术的存在反而会降低处理器的处理效能,特别是多线程操作系统运行单线程软件时这一缺点将表现得尤为突出。由于超线程技术是类似于双处理器并行运作的原理,以双线程技术运行常规软件时CPU造成运算出错的几率要比单线程的时候大大增加。//by http://CiDu.Net/
就目前来说,虽然仅有极少数的应用软件对这一技术做过优化,但是随着今后超线程技术的广泛采用,大量对其做过专门优化的操作系统和应用软件便会应运而生。//by http://CiDu.Net/