Kan pålidelighedsstandarderne for optiske moduler/enheder til datacenter lempes?

Dec 11, 2025|

 

Krav til strømforbrug for datacenter optisk modul

Forskelle i arbejdsmiljøerne for optiske moduler i telekommunikation og datacentre

 

Der er tre hovedforskelle:

 

Forskellige driftstemperaturer

Telekommunikationsapplikationer oplever daglige temperaturvariationer på grund af daglige temperaturforskelle, såvel som sæsonbestemte temperaturvariationer på grund af de skiftende årstider. Optiske moduler skal tilpasse sig disse variationer. Telekommunikations-applikationer er opdelt i indendørs og udendørs miljøer. Indendørs miljøer er 0 ~ 70 grader, almindeligvis kendt som kommerciel kvalitet; udendørs miljøer kræver generelt -40 ~ 85 grader, almindeligvis kendt som industriel kvalitet.

Datacentre er forskellige; deresoptiske modulerbehøver kun at gennemgå en 10 graders temperaturcyklus, hvilket er ekstremt stabilt.

Kan vi sænke kravene til pålidelighedstestning af høj-temperatur og høj-fugtigheds levetid, som vi kræver hver dag i datacentre?

 

Forskellige produktlivscyklusser

 

 

Telekommunikations-applikationer forventes, når de er installeret, at holde i årtier. typiske pålidelighedslivscyklusser er designet og evalueret baseret på 20 år.

Datacenterapplikationer udskiftes typisk hvert andet til tredje år.

 

Okay, så jeg laver noget, der ikke går i stykker i 50 år, men du bruger det i to år og så smider det væk? Kan vi sænke levetidskravene lidt?

info-594-280

 

Forskellige redundansdesigns

Telekommunikationsapplikationer har linjeredundansdesign, men redundansen er ikke stor. Backup-kommunikationskobling bruges på kritiske linjer. Men vi hører ofte nyhedsrapporter om titusindvis af brugere, der er berørt af fejl på en enkelt hovedenhed, hvilket påvirker deres telefonopkald og internetadgang. Kort sagt er optiske modulers manglende evne til at fungere et kritisk problem. Datacentre har meget bredere redundans, især da over 90 % af serverne er cloud-servere. Derfor er brugere næsten uvidende om nogen optisk modulfejl. For leverandører, selvom nogle optiske moduler fejler tilfældigt, kan de blot udskiftes.

Så kan pålidelighedskravene til optiske moduler lempes? Fra et applikationsperspektiv har afslappende krav til pålidelighed ringe indflydelse på kunderne. Det næste spørgsmål er: hvad skal slappes af? Hvordan skal det slappes af? Og hvorfor skal det slappes af?

 

Større fejlkomponenter og årsager til fejl i optiske moduler

info-600-400
 

Facebook udgav fejlstatistikker for en100G optisk modul, der viser, at 97 % af fejlene var laser-relaterede, hvoraf de fleste skete inden for tre måneder efter laserens første operation. Hvis størstedelen af ​​fejlene sker inden for tre måneder, skal definitionen af ​​tidligt svigt så justeres? Blandt de fejlslagne lasere er fejlraten for DFB'er (Digital Bulbs) betydeligt højere end for EML'er (elektromagnetiske laminater) (flere hundrede gange større). Dette rejser spørgsmålet, om Dr. Zeng fra Facebook mener, at DFB'er i direkte modulationstilstand er mere tilbøjelige til at fejle end DFB'er, der udsender lys kontinuerligt (ligesom en stationær ledning kan holde længe, ​​men gentagne bøjninger vil nemt bryde den).

For lasere, som er de primære fejlmål, bør pålidelighedstestning derfor øges på laserwafer-niveau? Hvis det er relateret til moduleringstilstand, bør langtidstestning af-levetid så omfatte verifikation under moduleringstilstand?

 

Slap af krav til pålidelighed

 

Hvis pålidelighedskravene skal lempes, skal vi specifikt reducere antallet af testelementer, sænke testbetingelserne, forkorte testtiden eller reducere antallet af testprøver?

 

Reducere antallet af testelementer?

Faktisk er der ikke mange pålidelighedstestelementer. Selvom en eller to fjernes, er de ikke den høje temperatur og høj luftfugtigheds levetidstest, som producenter af optiske modulenheder bekymrer sig om. Det er snarere nogle mindre vigtige ting. At reducere antallet af testelementer er meningsfuldt, men ikke særlig væsentligt.

 

Reducere testbetingelser?

Dette er muligt, men hvor meget man skal reducere kræver dataanalyse for at finde de passende testbetingelser.

 

info-640-351

 

Komprimer testtiden?

Hvad med 500 timer, ikke 5000 timer, ikke 2000 timer, ikke 1000 timer, men kun 500 timer? På denne måde vil pålidelighedstestning ikke forårsage en lang produktlanceringscyklus.

Intel gav et interessant svar: baseret på GR468's accelerationsfaktor kan en 10-årig levetid testes på 6 uger ved at bruge en accelerationsfaktor på 100x.

Hvis vi derefter øger pålidelighedstesttemperaturen til 130 grader, bliver accelerationsfaktoren 1000x, og en 17-årig levetid kan testes på en uge.

Dette ser ud til at komprimere tiden endnu mere, ikke?

Kunne vi reducere testtiden for lang levetid ved at øge prøvestørrelsen, for eksempel 500 prøver for 500 timers høj temperatur og fugtighed?

 

Reducere stikprøvestørrelsen til pålidelighedstestning?

Broadcom har en statistisk analyse af afvigelsen i levetidsforudsigelse forårsaget af forskellige stikprøvestørrelser. Konklusionen er, at "uanset hvilken teknologi der bruges, kan man ikke forvente at reducere antallet af prøver for at nå målet om at reducere krav til pålidelighed," fordi en lille stikprøvestørrelse i sig selv introducerer bias.

 

Hvis pålidelighedskravene skal lempes, hvordan skal standarden så defineres?

 

For 20 år siden var GR468 et benchmark i den optiske kommunikationsindustri. Faktisk var der en pålidelighedsstandard kaldet GR3013 for korte livscyklusser allerede i 2004.

Denne nye standard med afslappede krav til pålidelighed er dog lidt kendt, i hvert fald har jeg hørt om den.

Denne eftermiddag brugte store producenter stadig GR468 til analyse.

Skal den afslappede pålidelighedsstandard så være en helt ny standardserie? Det indebærer risikoen for noget, der ligner GR3013 - industrien bruger lang tid på at udvikle standarder, og så forbliver de ukendte...

Mulighed to: modificer GR3013 og implementer det, og promover det derefter.

Mulighed tre: udvikle en mere lempelig version af CR468, der er egnet til datacentre.

Dette er et meget specifikt problem i branchekæden-hvordan implementeres det?

 

Det grundlæggende spørgsmål er: "Hvis pålidelighedsstandarderne lempes, vil omkostningerne så blive reduceret?"

 

Hvad får de for datacenteroperatører ved at lempe krav til pålidelighed? Lave omkostninger er deres kernemål. Lasere har den højeste fejlrate. Men producenter som Sumitomo og Broadcom, der producerer lasere, brugte tekst, formler og diagrammer til at formidle budskabet om, at afslappende krav til pålidelighed ikke reducerer omkostningerne. Faktisk øger det omkostningerne, hvis pålidelighedsverifikationsprocessen for laserwafere ændres.

For lasere er pålidelighed afhængig af kontinuerlige teknologiske forbedringer. Afslappende krav til pålidelighed er ikke en måde at reducere omkostningerne på. Som en sætning i Broadcoms præsentation sagde: "Tænk på andre måder at reducere omkostningerne..."

 

Send forespørgsel