手机版 | 登陆 | 注册 | 留言 | 设首页 | 加收藏
当前位置: 网站首页 > 基础计算机 > 设计概念整理 > 文章 当前位置: 设计概念整理 > 文章

设计简单的大规模并行处理器的想法

时间:2019-07-04    点击: 次    来源:网络    作者:佚名 - 小 + 大

设计简单的大规模并行处理器的想法
一个简单的大规模并行计算机架构为单芯片多处理器。
为了每秒执行许多指令,应该使用一种新的并行设计来代替冯·诺依曼体系结构。该设计类似于微处理器和内存冯•诺依曼的设计,因为它使用了类似的部件,但这些部件以一种新颖且不明显的方式组合在一起。
这个想法是有成千上万的处理器,每个芯片上都有自己的内存。每个处理器有8千字节的3-晶体管存储器,每个处理器有256个字,256位。它是3个晶体管(和往常一样,额外的2个晶体管作为输出驱动程序),因此可以同时将多个单词读入数据总线,或者将这些单词组合在一起。这使得内存块也可以用作一个门阵列,这样您就可以在一条指令的一个处理器上(每个芯片上有数千个处理器)以两个周期在一个处理器上进行256个128位的比较(不用关心)。
除了内存块,每个物理处理器都有其他的逻辑来实现一个小的、简单的、但是非常灵活的指令集。内存占据了芯片的大部分区域。
所有寄存器都是一个512位寄存器的一部分。512位锁存器保存整个状态(寄存器值)。
512位锁存器中的寄存器值通过物理处理器,通过指令解码和执行逻辑以及内存/门阵列,然后进入另一个512位锁存器。这样就更新了寄存器值,并执行了一条指令。然后将输出锁存器中的结果发送回输入锁存器,为下一条指令的执行做准备。具体来说,没有取操作周期。相反,使用一条read指令来获取数据,但是不需要经常这样做,因为8条32位的指令可以用一条256位的read来获取。
它使用一个非常紧凑的电路来复制1、2、4、8、…或从一个寄存器(512位寄存器的一部分)到另一个寄存器或从256位内存字的一部分到寄存器的256位。面积是N(512)×10 log N(90)左右。写入总是256位。
简单的物理处理器在输入和输出锁存器之间的逻辑中使用额外的锁存器进行流水线操作,以便可以同时处理多个状态(一组寄存器值)(一个“虚拟处理器”)。
时机很简单。在512位锁存器中,每个状态都有一个额外的位,用来表示锁存器中有一个状态。时钟周期期间,每一对门闩是检测这些碎片,如果下面的门闩没有国家和第一锁状态,然后数据监测到以下门闩和下面的门闩的额外的位设置为1(“门闩状态”)和前一门闩的额外复位为0(“门闩没有状态”)。
这就是单个物理处理器的全部功能。
所有的物理处理器都连接为二叉树的叶节点。树的每个分支在每个方向上都有一个512位总线,每个方向上都有一个512位锁存器。这棵树是芯片上的“H树”,总线通过处理器。
状态(锁存器值)(虚拟处理器)可以从一个叶子移动到另一个叶子,通过分支移动到另一个叶子。512位状态的指令寄存器中的地址引导状态从一个分支到另一个分支,直到正确的处理器(叶子)。例如,一个读(或写)指令将有一个要读取的地址。该地址可以指向任何叶子(处理器)(内存块)。
时间仍然是一样的。如果需要进入的下一个锁存器在每个时钟“周期”中都是空的,那么状态就会前进。
处理器通过表查找、门阵列操作和特殊用途的处理器操作(如浮点乘法和加法)来完成几乎所有的功能。第二条指令将第二条操作数读入第三条指令的读地址的另一部分。修改后的第三条指令,然后从表中读取答案。(例如)
一些物理处理器被专门的处理器所取代,以快速完成高精度的运算——例如,流水线式的收缩阵列乘法器。
状态可以通过写入内存与另一个状态通信,以便另一个状态可以从内存中读取值。
状态可以作为指令的一部分创建另一个状态。内存块有一些特殊的位(除了正常使用之外)用于协调状态。当创建子状态并需要子状态的结果时,父状态可以重置其中的一个位,可以循环执行不操作指令,直到子状态将结果保存到内存并设置特殊的“结果就绪”位。通过清除其特殊的额外this- lock -has- A -state位,状态可以自毁。
程序是为状态(虚拟处理器)编写的,而不是为物理处理器编写的。
这种设计通过使用虚拟处理器解决了细粒度并行处理器的两个问题:可编程性(它可以像微处理器一样编程)和处理器间通信(所有(虚拟)处理器(状态)随时访问所有内存)。处理器移动(就像图灵机器一样),而不是数据。
这种设计将并行性发挥到了极致。通过使用门阵列(由它所拥有的特殊内存组成),它可以每秒对以这种方式使用的每两位内存执行数十亿次EOR操作(用于比较),而且大部分内存可以一直以这种方式使用。因此,用这种方式使用256兆字节内存的这种设计的协处理器的PC可以每秒执行10亿、10亿次操作,而且几乎可以像微处理器一样容易地编程!
设计还允许成千上万的虚拟处理器/(内存)芯片(略有修改,每一个芯片,而不是其他芯片),每个256位处理器可以执行指令的速度作为微处理器,指示一样强大的微处理器,能够访问整个记忆和逻辑门阵列和查找表和一些专门的数学)。因此,它可以像现代微处理器一样处理每条指令,但每秒可以执行数千倍的指令。此外,它可以像一个基于微处理器的系统编程。
底线是一样容易程序和编程几乎相同的方式,但许多倍类似的基于微处理器的系统成本,仅仅因为它的时钟频率高,因为它是有效的和基于微处理器的系统效率(也就是说,很少的晶体管处理数据在任何给定的时间)。

上一篇:没有了

下一篇:没有了

备案ICP编号  |   QQ:285250603  |  地址:湛江市  |  电话:15322199012  |  
Copyright © 2026 天人文章管理系统 版权所有,授权www.yajiupc.top使用 Powered by 55TR.COM