Dywedwyd bod cwmnïau technoleg naill ai'n sgrialu am GPUs neu ar y llwybr i'w caffael. Ym mis Ebrill, prynodd Prif Swyddog Gweithredol Tesla, Elon Musk, 10,000 o GPUs a dywedodd y byddai'r cwmni'n parhau i brynu llawer iawn o GPUs gan NVIDIA. Ar yr ochr fenter, mae personél TG hefyd yn gwthio'n galed i sicrhau bod GPUs yn cael eu defnyddio'n gyson i sicrhau'r elw mwyaf posibl ar fuddsoddiad. Fodd bynnag, efallai y bydd rhai cwmnïau'n canfod, er bod nifer y GPUs yn cynyddu, mae segurdod GPU yn dod yn fwy difrifol.
Os yw hanes wedi dysgu unrhyw beth i ni am gyfrifiadura perfformiad uchel (HPC), ni ddylid aberthu storio a rhwydweithio ar draul canolbwyntio gormod ar gyfrifiannu. Os na all storio drosglwyddo data yn effeithlon i'r unedau cyfrifiadurol, hyd yn oed os oes gennych y nifer fwyaf o GPUs yn y byd, ni fyddwch yn cyflawni'r effeithlonrwydd gorau posibl.
Yn ôl Mike Matchett, dadansoddwr yn Small World Big Data, gellir gweithredu modelau llai yn y cof (RAM), gan ganiatáu mwy o ffocws ar gyfrifiant. Fodd bynnag, ni ellir storio modelau mwy fel ChatGPT gyda biliynau o nodau yn y cof oherwydd y gost uchel.
“Ni allwch ffitio biliynau o nodau yn y cof, felly mae storio yn dod yn bwysicach fyth,” meddai Matchett. Yn anffodus, mae storio data yn aml yn cael ei anwybyddu yn ystod y broses gynllunio.
Yn gyffredinol, waeth beth fo'r achos defnydd, mae pedwar pwynt cyffredin yn y broses hyfforddi enghreifftiol:
1. Hyfforddiant Model
2. Cais Casgliad
3. Storio Data
4. Cyfrifiadura Carlam
Wrth greu a defnyddio modelau, mae'r rhan fwyaf o ofynion yn blaenoriaethu amgylcheddau prawf cysyniad cyflym (POC) neu brofi i gychwyn hyfforddiant model, gydag anghenion storio data heb eu hystyried yn bennaf.
Fodd bynnag, yr her yw'r ffaith y gall hyfforddiant neu ddefnyddio casgliadau bara am fisoedd neu hyd yn oed flynyddoedd. Mae llawer o gwmnïau'n cynyddu maint eu modelau yn gyflym yn ystod y cyfnod hwn, a rhaid i'r seilwaith ehangu i gynnwys y modelau a'r setiau data cynyddol.
Mae ymchwil gan Google ar filiynau o lwythi gwaith hyfforddi ML yn datgelu bod cyfartaledd o 30% o amser hyfforddi yn cael ei dreulio ar y biblinell data mewnbwn. Er bod ymchwil yn y gorffennol wedi canolbwyntio ar optimeiddio GPUs i gyflymu hyfforddiant, mae llawer o heriau yn parhau o ran optimeiddio gwahanol rannau o'r biblinell ddata. Pan fydd gennych bŵer cyfrifiannol sylweddol, daw'r dagfa wirioneddol mor gyflym y gallwch chi fwydo data i'r cyfrifiannau i gael canlyniadau.
Yn benodol, mae'r heriau o ran storio a rheoli data yn gofyn am gynllunio ar gyfer twf data, sy'n eich galluogi i echdynnu gwerth data yn barhaus wrth i chi symud ymlaen, yn enwedig pan fyddwch chi'n mentro i achosion defnydd mwy datblygedig fel dysgu dwfn a rhwydweithiau niwral, sy'n gosod gofynion uwch ar storio o ran gallu, perfformiad, a scalability.
Yn benodol:
Scalability
Mae dysgu peiriant yn gofyn am drin llawer iawn o ddata, ac wrth i gyfaint y data gynyddu, mae cywirdeb modelau hefyd yn gwella. Mae hyn yn golygu bod yn rhaid i fusnesau gasglu a storio mwy o ddata bob dydd. Pan na all storio raddfa, mae llwythi gwaith data-ddwys yn creu tagfeydd, yn cyfyngu ar berfformiad ac yn arwain at amser segur costus GPU.
Hyblygrwydd
Mae angen cefnogaeth hyblyg ar gyfer protocolau lluosog (gan gynnwys NFS, SMB, HTTP, FTP, HDFS, a S3) i ddiwallu anghenion gwahanol systemau, yn hytrach na chael ei gyfyngu i un math o amgylchedd.
Cudd
Mae hwyrni I/O yn hanfodol ar gyfer adeiladu a defnyddio modelau wrth i ddata gael ei ddarllen a'i ail-ddarllen sawl gwaith. Gall lleihau hwyrni I/O leihau amser hyfforddi modelau o ddyddiau neu fisoedd. Mae datblygu model cyflymach yn trosi'n uniongyrchol i fwy o fanteision busnes.
Trwybwn
Mae trwygyrch systemau storio yn hanfodol ar gyfer hyfforddiant model effeithlon. Mae prosesau hyfforddi yn cynnwys llawer iawn o ddata, fel arfer mewn terabytes yr awr.
Mynediad Cyfochrog
Er mwyn cyflawni trwybwn uchel, mae modelau hyfforddi yn rhannu gweithgareddau yn dasgau cyfochrog lluosog. Mae hyn yn aml yn golygu bod algorithmau dysgu peiriant yn cyrchu'r un ffeiliau o brosesau lluosog (o bosibl ar weinyddion ffisegol lluosog) ar yr un pryd. Rhaid i'r system storio ymdrin â gofynion cydamserol heb gyfaddawdu ar berfformiad.
Gyda'i alluoedd rhagorol mewn hwyrni isel, trwybwn uchel, ac I / O cyfochrog ar raddfa fawr, mae Dell PowerScale yn gyflenwad storio delfrydol i gyfrifiadura cyflymach GPU. Mae PowerScale i bob pwrpas yn lleihau'r amser sydd ei angen ar gyfer modelau dadansoddi sy'n hyfforddi ac yn profi setiau data aml-terabyte. Mewn storfa holl-fflach PowerScale, mae lled band yn cynyddu 18 gwaith, gan ddileu tagfeydd I / O, a gellir ei ychwanegu at glystyrau presennol Isilon i gyflymu a datgloi gwerth symiau mawr o ddata anstrwythuredig.
Ar ben hynny, mae galluoedd mynediad aml-brotocol PowerScale yn darparu hyblygrwydd diderfyn ar gyfer rhedeg llwythi gwaith, gan ganiatáu i ddata gael ei storio gan ddefnyddio un protocol a chael mynediad ato gan ddefnyddio un arall. Yn benodol, mae nodweddion pwerus, hyblygrwydd, scalability, ac ymarferoldeb gradd menter y platfform PowerScale yn helpu i fynd i'r afael â'r heriau canlynol:
- Cyflymu arloesedd hyd at 2.7 gwaith, gan leihau'r cylch hyfforddi model.
- Dileu tagfeydd I/O a darparu hyfforddiant a dilysu model cyflymach, gwell cywirdeb model, gwell cynhyrchiant gwyddor data, a'r enillion mwyaf posibl ar fuddsoddiadau cyfrifiadurol trwy drosoli nodweddion gradd menter, perfformiad uchel, cyd-rededd, a scalability. Gwella cywirdeb model gyda setiau data manylach, cydraniad uwch trwy drosoli hyd at 119 PB o gapasiti storio effeithiol mewn un clwstwr.
- Cyflawni defnydd ar raddfa trwy gychwyn ar raddfa fach ac annibynnol o gyfrifiaduron a storio, gan ddarparu opsiynau diogelu data a diogelwch cadarn.
- Gwella cynhyrchiant gwyddor data gyda dadansoddeg yn ei lle ac atebion wedi'u dilysu ymlaen llaw ar gyfer defnydd cyflymach, risg isel.
- Trosoledd dyluniadau profedig yn seiliedig ar y technolegau gorau o'r brid, gan gynnwys cyflymiad GPU NVIDIA a phensaernïaeth cyfeirio gyda systemau NVIDIA DGX. Mae perfformiad uchel a chyfnewid PowerScale yn bodloni'r gofynion perfformiad storio ym mhob cam o ddysgu peiriannau, o gaffael a pharatoi data i hyfforddiant model a chasgliad. Ynghyd â system weithredu OneFS, gall pob nod weithredu’n ddi-dor o fewn yr un clwstwr a yrrir gan OneFS, gyda nodweddion lefel menter megis rheoli perfformiad, rheoli data, diogelwch a diogelu data, gan alluogi cwblhau hyfforddiant model a dilysu cyflymach i fusnesau.
Amser postio: Gorff-03-2023