Sokmagos processzor architekt - PowerPoint PPT Presentation

1 / 39
About This Presentation
Title:

Sokmagos processzor architekt

Description:

Title: No Slide Title Author: Karoly Laszlo Last modified by: Akos Zarandy Created Date: 3/16/1998 12:45:12 PM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:111
Avg rating:3.0/5.0
Slides: 40
Provided by: Karoly8
Category:

less

Transcript and Presenter's Notes

Title: Sokmagos processzor architekt


1
Sokmagos processzor architektúrák
  • Zarándy Ákos

2
Áttekintés
  • Sok magos processzorok elotérbe kerülése
  • 10, 100, 1000, 10000 magos architektúrák
  • Érzékelo processzortömbök

3
Miért van szükség sok processzorra?
  • Egy magos processzorok elérték a maximális
    tolerálható fogyasztást
  • Sok magos processzorok kisebb teljesítményuek
  • Sokmagos processzorok nem igényelnek gyártás
    technológia váltást
  • Nanotechnológiás eszközök még messze vannak

4
Technológia tartalék
  • Mai 45nm technológia
  • 1 milliárd tranzisztor
  • 4 GHz órajel frekvencia
  • Akár 1500 láb
  • Pentium
  • 4 GHz
  • 50 GOps
  • 130W
  • Intel 8080 processor
  • 1975
  • 2MHz
  • 0.5MOps
  • A teljesítménye elég volt egy ZX Spektrum vagy
    egy Commodore számítógéphez
  • 6 ezer tranzisztor

200,000 db 8080-as felteheto egyetlen chipre!!!
2000x nagyobb órajel érheto el ma!!!
Az egy magos Pentium ma mégis csak
100,000-szor nagyobb teljesítményu!!!
5
Miért csökken az energia szükséglet a sok magos
rendszerekben?
  • Rövidebb jelutak (processzor mellett ott a
    memória)
  • Alacsonyabb órajel, alacsonyabb core feszültség
    (fclockUcore)
  • Fogyasztás arányos a feszültség négyzetével
  • Egy CMOS áramkör fogyasztása (Pw f3clock )
  • Alacsonyabb órajel frekvenciára tervezett
    eszközök energia igénye drasztikusan alacsonyabb
  • Nem kellenek extra erosíto fokozatok, amelyek a
    nagyon gyors jelterjedést biztosítják
  • Órajel
  • Adat
  • Utasítás
  • Trendek
  • Energia növelés nélkül további teljesítmény
    növelés
  • Drasztikus energiacsökkentés, tartva a jelenlegi
    teljesítményt

6
Sokmagos nagy fogyasztású processzorok
  • Pentium család
  • Duo
  • quad
  • Cell processor
  • Terascale

7
Cell MicroprocessorIBM-Sony-Toshiba
  • 1 db Power PC processor
  • 512kByte cash
  • Max 6.4GFlops/25.6GOps
  • Elágazások, ciklusok kezelése
  • 8db processzor mag (SPE)
  • 256kByte memory
  • Max 6.4GFlops/25.6GOps
  • Változó szóhossz (8-128 bit)
  • SIMD
  • Elágazások, ciklusok kezelése
  • Kommunikáció
  • 200 Gbyte/s belso
  • Megosztott (shared) memória modell (DMA-n
    keresztül)
  • 25 Gbyte/s külso

8
Cell Microprocessorfobb paraméterek
  • Teljes sebesség (3.2 GHz)
  • 60 GFlops (single precision)
  • 225 GOPs (8 bit)
  • 2,5 MByte memória összesen
  • 245 millió tranzisztor
  • 235 mm2 szilícium
  • 90nm technológia (65nm-es verzió már készül)
  • 3.2GHz
  • 85W (3.2 GHz)
  • 2,6 GigaOps/W (3.2 GHz)
  • 400 M fejlesztési költség
  • Elsodleges alkalmazás Playstation 3

9
Intel Terascale, 80 magos processzor
  • 8x10 mag
  • 1.28 TFolps
  • 4GHz
  • 275cm2 szilícium felület
  • 65 nm technonlógia
  • 400 KByte memória összesen
  • 100 millió tranzisztor

10
Intel Terascale processzor mag
  • 2db float MAC
  • 2KB adat memória
  • 3KB program memória
  • Regisztertömb
  • Kommunikáció
  • 5 bemenet-5 kimenet
  • Non-blocking
  • Teljes cross bar
  • 32GB/s irányonként

11
Teljesítmény analízis
  • Órajel harmadik hatványával arányos a fogyasztás
  • 11-181W
  • Hatékonnyság
  • 6-27 GFlops/W

12
Sokmagos alacsony fogyasztású érzékelo processzor
tömbök
  • SCAMP
  • 16 ezer processzor
  • 20 Gops, 200mW
  • analóg processzorok
  • Xenon
  • 64 processzor
  • 10 Gops, 20mW
  • Digitális processzorok

13
SCAMP-3 (2005)
  • 0.35?m CMOS (AMS)
  • 1-poly 3-metal
  • 128x128 cells
  • APE cell
  • 50?m ? 50?m
  • 20 MIPS
  • max. 12?W/cell
  • 100 GIPS/W
  • max 200mW (total)

Chief Designer Piotr Dudek, Machester
University http//personalpages.manchester.ac.uk/s
taff/p.dudek/
14
SCAMP Vision Chip
optical input
lens
SCAMP-2 chip
software instructions
processed images/ features/descriptors
15
SCAMP Vision Chip
optical input
SIMD processor array
lens
SCAMP-2 chip
software instructions
processed images/ features/descriptors
16
SCAMP Vision Chip
optical input
SIMD processor array
lens
software instructions
processed images/ features/descriptors
17
Analogue Registers

N

analogue
E

A

B

C

D

H

K

P

Q

O

busses of four
W


adjacent AP
Es

S
i

i

i

i

i

i

i

i

i










analogue
O
A
B
C
D
H
K
P
Q
bus

i

i



PIX
IN
Comparator activity
-
flag

Photodetector

(PIXEL)

array


column
Input

Output

FLAG


output

(latch)

_

V

ref
Switched-current memory cells
18
Transfer A?C

N

analogue
E

A

B

C

D

H

K

P

Q

O

busses of four
W


adjacent AP
Es

S
i

i

i

i

i

i

i

i

i










analogue
A
B
C
D
H
K
P
Q
O
bus

i

i



PIX
IN
Comparator activity
-
flag

Photodetector

(PIXEL)

array


column
Input

Output

FLAG


output

(latch)

_

V

ref
iA ? iC
19
Add A?(DH)

N

analogue
E

A

B

C

D

H

K

P

Q

O

busses of four
W


adjacent AP
Es

S
i

i

i

i

i

i

i

i

i










analogue
O
A
B
C
D
H
K
P
Q
bus

i

i



PIX
IN
Comparator activity
-
flag

Photodetector

(PIXEL)

array


column
Input

Output

FLAG


output

(latch)

_

V

ref
iA ? (iD iH)
20
Divide (AB)?D

N

analogue
E

A

B

C

D

H

K

P

Q

O

busses of four
W


adjacent AP
Es

S
i

i

i

i

i

i

i

i

i










analogue
O
A
B
C
D
H
K
P
Q
bus

i

i



PIX
IN
Comparator activity
-
flag

Photodetector

(PIXEL)

array


column
Input

Output

FLAG


output

(latch)

_

V

ref
21
Conditional IF (AB)gt0

N

analogue
E

A

B

C

D

H

K

P

Q

O

busses of four
W


adjacent AP
Es

S
i

i

i

i

i

i

i

i

i










analogue
A
B
C
D
H
K
P
Q
O
bus

i

i



PIX
IN
Comparator activity
-
flag

Photodetector

(PIXEL)

array


Input

column
Output

FLAG


output

(latch)

_

V

ref
22
Optical (Array-Parallel) Input

N

analogue
E

A

B

C

D

H

K

P

Q

O

busses of four
W


adjacent AP
Es

S
i

i

i

i

i

i

i

i

i










analogue
O
A
B
C
D
H
K
P
Q
bus

i

i



PIX
IN
Comparator activity
-
flag

Photodetector

(PIXEL)

array


Input

column
Output

FLAG


output

(latch)

_

V

ref
  • Integration FPN below 0.4 (rms)
  • Continuous Logarithmic compression

23
Local Transfers
to North

N

analogue
E

A

B

C

D

H

K

P

Q

O

busses of four
W


adjacent AP
Es

S
i

i

i

i

i

i

i

i

i










analogue
O
A
B
C
D
H
K
P
Q
bus

i

i



PIX
IN
Comparator activity
-
flag

Photodetector

(PIXEL)

array


column
Input

Output

FLAG


output

(latch)

_

V

ref
from South
24
APE Implementation (SCAMP-3)
  • 111 transistors
  • 67 control signals, 8 bias voltages
  • 50 ?m x 50 ?m
  • 0.35 ?m technology, 1P3M
  • 1.25 MHz clock
  • 12 ?W (max.)
  • 512 MIPS/mm2,
  • 104 GIPS/W

out news
cmp.
in
flag
registers
photo
25
Output Bottleneck Issue
32 kB
100s frames/sec
128x128 image
Median Filter
Sobel Edge
26
Output Bottleneck Issue
16 kB
100s frames/sec
128x128 image
Median Filter
Sobel Edge
2 kB
1000s frames/sec
Binary Map
27
Output Bottleneck Issue
32 kB
100s frames/sec
128x128 image
Median Filter
Sobel Edge
2 kB
1000s frames/sec
Binary Map
n 15
1 Byte
gt104 frames/sec
Cell Count
28
Példák SCAMP 3 muködésére
Aktív kontúr követés 30 kép/s
Élkiemelés 25 kép/s 1.2mW a teljes képfelvétel és
az élkiemelés (2000 óra egyetlen ceruza elemrol)
29
Finom szemcsés topografikus proceszortömb kínálta
egyéb lehetoségek
  • Beágyazott kép vagy egyéb érzékelo tömb
  • Diffúzió (ellenállás háló)
  • Globális logika, átlag

30
On-chip Sensor Integration
  • Advantages of near pixel processor arrangement
  • Local sensor control (based on the illumination
    distribution of a small neighborhood) ? Local
    sensor adaptation
  • Ultra high speed in decision making
  • 10,000, 20,000 visual decisions/sec

Global sensor control Local sensor control
31
2D ellenállás háló
  • Elsosorban analóg processzor tömbök
  • Adatok azonnal analóg formában vannak
  • TeraOPS számítási teljesítmény, mW-okért
  • Jól használható muvelet

32
Globális logika, átlag
  • Bináris képeken van-e fehér folt?
  • Globális OR kapcsolat
  • 5 ns
  • Analóg memóriákkal globális átlag

GLOBAL OR
33
Durva szemcsés érzékelo processzortömb Xenon
  • 64x64 sensor-processor array
  • Neighboring cells are directly interconnected
  • Each cell is prepared to process 8x8 pixel array
    (scalable)
  • SIMD
  • 10GOPS, 20mW
  • 500GOPS/W
  • On-chip sensors
  • Chief Designer
  • Péter Földesy
  • Eutecus Inc
  • MTA-SZTAKI

34
Cell Architecture
  • Processors
  • Arithmetic
  • Morphologic
  • Memory
  • 8-64 bytes/pixel
  • Pixel representation
  • 1 bit/pixel (binary)
  • 8 or 16 bits/pixel (grayscale)
  • Pixel count
  • from 1 to 64 pixels/cell

35
Achievable Resolution and Speed
  • ASIC implementation
  • 0.18 micron technology, (on-chip sensor)
  • pixel size 32x32 micron
  • 256x256 array on 1cm2 silicon
  • 1,024 parallel processors
  • 100MHz
  • 0.1 Tops (100 GOps)
  • 90 nanometer technology (off-chip sensor)
  • pixel size 12x12 micron
  • 720x720 on 1cm2 silicon
  • 32,400 parallel processors
  • 120MHz
  • 3.8 TOps (3,800 GOps)
  • FPGA implementation (off-chip sensor)
  • Virtex4 LX200
  • 160x160 array
  • 400 parallel processors
  • 150MHz

36
Energia hatékonyság
GOps/W 100 10 1 0.1
Érzékelo tömbprocesszorok
1 10 100 1000 10,000 db processzor
37
Sok magos eszközök hátránya
  • Nincsenek hozzá algoritmusok, szoftverek!

GOps/W 100 10 1 0.1
Konkrét cél alkalmazások (képfeldolgozás)
Érzékelo tömbprocesszorok
Sok magos processzorok FPGA-k
Nagy számítás igényu feladatok (játékok
grafikája, videó kódolás, meterológia)
Egy magos processzorok
Általános célú (PC, szerverek)
1 10 100 1000 10,000 db processzor
Következo 5 év kihívása ilyen algoritmusokat/szoft
vereket készíteni!!!
Playstation 3 500 (Cell microprocessor Linux
alatt)
38
Köszönöm a figyelmet!
39
Measurement results
Gradient
Original image
Maximum filter
2D membrane waves
Write a Comment
User Comments (0)
About PowerShow.com