136 0 125MB
Norwegian Pages 247 Year 1992
John Watkinson
Digital lydteknikk Forkortet norsk utgave ved Haakon Manheim og Bjørn Aarseth
NBP-DEPOTBfBLfO^EKET PGS TBOKS 27& - 8QU1 MO
I SAMARBEID MED NORSK RIKSKRINGKASTING OPPLÆRINGSAVDELINGEN
© Vett & Viten A/S 1992 ISBN 82-412-0035-8
Oversatt fra engelsk av Unni Bysveen
Denne utgaven er tilpasset norsk programingeniørutdanning. Av den grunn er enkelte av originalutgavens kapitler og avsnitt utelatt, og noe stoff føyet til - Kapittel 9 baserer seg på mer kortfattede tidsskriftartikler av J. W. Internasjonale rettigheter for originalutgaven © John Watkinson 1988
Originalens tittel: The Art of Digital Audio, Focal Press, England Det må ikke kopieres fra denne boka i strid med åndsverkloven og fotografiloven eller i strid med avtaler om kopiering som er gjort med Kopinor, interesseorgan for rettighetshavere av åndsverk. Sats: Røyken Fotosats Printed in Norway 1992 by Engers Boktrykkeri A/S. Otta
Utgiver: Vett & Viten A/S Postboks 3, 1355 Bærum Postterminal
Forord
Innen faglitteraturen er det enkelte bøker som blir kalt standardverker. Det betyr blant annet at de har kvaliteter som gjør at innholdet ikke straks blir foreldet. «The Art of Digital Audio» av John Watkinson er en slik bok. Digital lydteknikk er et fagområde i rivende utvikling, og det er ikke mulig å gi ut en bok om dette emnet uten at det er kommet nye metoder og produkter bare mens den trykkes. På den andre siden ble det teoretiske grunnlaget bak denne teknikken etablert alle rede i 30-årene. Watkinsons innsiktsfulle og grundige behandling av sentrale begreper gjør at hans bok kan leses med utbytte selv etter at alle de konkrete produkter som beskrives er borte. Den boka du holder i hånden er en forkortet utgave. Den er et resultat av behovet for en grundig, men håndterlig bok på norsk innen dette fagområdet. For det første er det blitt lagt vekt på å ta med det mest grunnleggende og «matnyttige» stoffet, for det andre er emner som er behandlet i andre norske bøker sterkt forkortet eller utelatt. Dette gjelder særlig digital signalbehandling og transmisjon. Beskrivelser av enkelte systemer og produkter som vi anser som foreldete eller lite aktuelle er også utelatt. Boka har sin særlige styrke innenfor konvertering, kanalkoding og digitale lagringsmedia, og inneholder en grundig beskrivelse av blant annet DAT- og CD-mediene. Selv om den til tider kan være svært så detaljert, er matematikken holdt på et absolutt minimum. Den egner seg derfor for alle som ønsker seg en grundig innsikt i faget. Et problem vi har hatt under bearbeidelsen av stoffet har vært å velge fagbegreper innen et fag som i stor grad er preget av engelsk. Selv om vi har forsøkt å bruke norske ord i størst mulig ut strekning, har vi i en del tilfelle oversatt tilbake til engelsk. Det gjelder der vi føler at de engelske begrepene er så innarbeidet i fagmiljøet at det ville oppstå kommunikasjonsproblemer dersom man skulle «finne opp» norske ord. Vanskeligheten består blant annet i å være konsekvent, og vi ville være takknemlig for reaksjoner fra leserne dersom de finner begrepsforvirring.
Til slutt vil vi takke forlaget for tålmodighet i den tiden arbeidet med boka kjempet om en plass på dagsorden innimellom de daglige gjøremål.
Oslo i mai 1992
Haakon Manheim
Bjørn Aarseth
Innhold
1. 1.1. 1.2. 1.3. 1.4.
Hvorfor digital? 11 Fordelene ved digital lyd 11 Muligheter 13 Noen typiske maskiner 14 Ulemper 15
2. 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. 2.10. 2.11. 2.12. 2.13.
Konvertering 16 Digitaliseringsmetoder 16 Lydens informasjonsinnhold 19 Sampling og frekvensspeiling 19 Kvantisering 23 Konstruksjon av filtre 27 Valg av samplingsfrekvens 30 Grunnleggende digital til analog konvertering Grunnleggende analog til digital konvertering Svakheter ved konvertere 41 Oversamplingteori 42 En oversampling DAC 44 Oversampling ADC’er 45 Spektralkoding 47
3. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10. 3.11.
Digital lydkoding og behandling Innføring i logikk 48 Binære koder 50 Binær summering 55 Nivåindikering 56 Forsterkningskontroll 58 Digital dither 61 Miksing og kryssfading 61 Kompandering 62 Tidsbasiskorreksjon 64 RAM tidsbasiskorreksjon 65 FIFO tidsbasiskorreksjon 67
4. 4.1. 4.2. 4.3.
Videregående digital lydbehandling 70 Faselinearitet 70 Sammenligning av FIR og IIR-filtre 70 FIR-filtre 71"
4.4. 4.5. 4.6. 4.7.
Behovet for konvertering av samplingsfrekvens Typer frekvenskonverteringer 76 Oppbygning av digitale miksebord 77 Effekter 79
5. 5.1. 5.2. 5.3.
Digitale grensesnitt for lyd 80 PCM-F1-grensesnitt 80 PCM-1610-grensesnitt 80 PCM-3324-grensesnitt 82
32 35
48
75
7
5.4. 5.5. 5.6. 5.7. 5.8.
Melco-grensesnitt 82 AES/EBU-grcnsesnittet 83 Parallelt grensesnitt 91 Fiberoptisk grensesnitt 93 Synkronisering 93
6. 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7. 6.8. 6.9. 6.10. 6.11.
Digital innspilling og kanalkoding 95 Kanalens signal/støyforhold og båndforbruk Hodestøy og hode/båndhastighet 95 Grunnleggende digital innspilling 96 Jittervinduer 100 Kanalens mangler 102 Enkle koder 104 Gruppekoder 106 Lagvise RLL-koder 112 Tilfeldig NRZ 114 Myk degradering 115 Synkronisering 116
95
7. Feilkorreksjon 119 7.1. Meldingens følsomhet overfor feil 119 7.2. Feilmekanismer 119 7.3. Interpolering 120 7.4. Håndtering av feil 120 7.5. Paritet 121 7.6. Kryssordkode 121 7.7. Stokking 123 7.8. Krysstokking 125 7.9. Redigering av stokkede innspillinger 126 8. 8.1. 8.2. 8.3. 8.4. 8.5. 8.6. 8.7. 8.8. 8.9. 8.10. 8.11. 8.12.
Opptakere med roterende hode 128 Bruk av videoopptakere 128 Pseudovideo 129 Sony PCM-omformer 129 EIAJ-formatet 131 Lokalisering av redigeringspunkt i systemer med roterende hode Roterende redigering 135 Montasje 137 Introduksjon til RDAT 139 Sporfølging i RDAT 144 Innspilling i RDAT 149 Redigering i RDAT 153 Kvarttomme roterende 154
9. 9.1. 9.2. 9.3. 9.4.
Digitale båndopptakere med stasjonære hoder 155 DASH-formatet 155 Blokkstruktur og feilkorreksjon i DASH 163 Elektronisk redigering og skjøtebehandling 170 ProDigi-formatet 176
10. 10.1. 10.2. 10.3. 10.4. 8
Diskbasert lydlagring 194 Forskjellige typer platedrev 194 Plateterminologi 195 Oppbygning av en plate 195 Prinsippet om flytehode 196
132
10.5. 10.6. 10.7. 10.8. 10.9. 10.10. 10.11. 10.12. 10.13. 10.14. 10.15. 10.16. 10.17. 10.18. 10.19.
Lese og skrive 197 Winchester-teknologi 198 Disketter 200 Forskjellige typer optiske plater 202 Termomagnetisk optikk 202 Oppbygning av et laserdrev 204 Behandling av feil 204 Filer for dårlige blokker 204 Sektoroverhopping 205 Feilkorreksjon 205 Behandling av feil i WORM-plater 206 Platesystemer i digital lyd 206 Samplingsfrekvens og spilletid 209 Redigering i et platesystem 209 Kringkastingsbruk 212
11. 11.1. 11.2. 11.3. 11.4. 11.5. 11.6. 11.7. 11.8. 11.9. 11.10. 11.11.
Compact Disc 213 Fordeler ved CD 213 Hvordan en CD blir laget 214 Eliminere virkningen av overflatesmuss 217 Punktstørrelse og spordimensjoner 218 Fokuseringssystemer 220 Systemer for sporfølging 224 Kanalkode 226 Rammeinnhold 230 CDsubkode 232 Spillerens oppbygning 238 Betjening av spilleren 242
Appendiks
245
Stikkordregister
247
KAPITTEL 1
Hvorfor digital?
1.1. Fordelene ved digital lyd De første teknikker som ble brukt i lydbehandling og innspilling var forståelig nok analoge. Først mekaniske sylindere og plater uten noen form for signalbehandling, senere magnetisk tråd eller bånd og optiske filmlydspor som var avhengige av forsterknings- og equalisertrinn utstyrt med ra diorør. Den gang var det ikke nødvendig å spesifisere at utstyret var analogt, for det fantes ikke noe det kunne forveksles med. Magnetisk analog innspilling slik vi kjenner den i dag, ble hoved sakelig utviklet under 2. verdenskrig, samtidig med turbojetmotoren, radaren og atombomben. Siden har analog lydbehandling og innspilling gjennomgått en gradvis forbedring. Flersporopptakeren med tilhørende miksebord ble standard for innspilling av visse typer musikk, og moderne systemer har en svært god gjengivelse. Dette har man oppnådd ved å studere svakhetene ved den analoge innspillingsprosessen og således lansert midler for å redusere dem. Vi skal ikke repetere dette fremragende arbeidet her. Det som imidlertid er verdt å sette pris på, er at analog signalbe handling og innspilling nå er en velutviklet teknologi som har nærmet seg de grenser som er be stemt av fysiske lover. Siden det i dag også fins noe man kaller digital lydteknologi, må den tidligere teknologi refere res til som analog. Det vil være hensiktsmessig her å definere de grunnleggende forskjeller mel lom disse. I et analogt system blir informasjon overført ved hjelp av kontinuerlige endringer i et parame ter, f.eks. spenning over en kabel eller feltstyrke på et magnetbånd. Når det gjelder innspilling representerer avstand langs mediet tidsdimensjonen. Jo mer et signal forsterkes, jo flere detaljer kommer frem inntil du når det punkt hvor den aktuelle verdien er usikker på grunn av støy. Et pa rameter kan bare være lik originalen dersom konverteringsprosessen er lineær, ellers oppstår har monisk forvrengning. Hvis mediets hastighet ikke er konstant, representerer det ikke tidsdimensjonen pålitelig. Karakteristisk for et analogt system er at den totale forringelse er summen av alle de forringelser som oppstår i hvert trinn signalet passerer. Dette setter en grense for hvor mange trinn et signal kan passere før det ikke lenger er verdt å høre på. Vi kan betrakte alle forringelser som tillegg av et uønsket signal, f.eks. støy eller forvrengning og tidsustabiliteter som gruppeforsinkelseseffekter og jitter. I et analogt system kan du aldri skille disse effektene fra det originale signalet, i det digitale området kan de fjernes. I et digitalt lydsystem er opplysningene binære. Signalene har bare to tilstander, og forandrer seg til forhåndsfastsatte tider etter en stabil klokke. Støy som forstyrrer det binære signalet, blir forkastet av mottakeren, fordi signalet kun bedømmes etter om det er over eller under en viss ter skel . Imidlertid vil signalet bl i overført med begrenset båndbredde, og dette begrenser takten som spenningen skifter med. Overlagret støy kan forskyve det punktet hvor mottakeren anser tilstan den for endret. Den samme virkning har tidsustabilitet. Denne ustabiliteten blir også forkastet fordi signalet blir justert av en stabil klokke når det mottas, og alle forandringer i systemet skjer etter den klokka. Figur 1.1 viser at hvor mange trinn et binært signal enn passerer, kommer det ut likt, bare forsinket. Det er mulig å overføre en analog kurveform etter en slik signalvei. Den kurveformen må deles inn i like tidselementer (kjent som sampling), og da uttrykkes hver måling som et heltall, som kan overføres med binære siffer (bits). Figur 1.2 viser at signalveien enten kan overføre sampler parallelt på flere kabler, hvor hver kabel fører et binært signal som representerer forskjellige eksponenter av to, eller serielt i en kanal med større overføringshastighet, en prosess man kaller pulskodemodulasjon (PCM). Ulempen er at en enkelt kvalitetslydkanal trenger ca. en million bits pr. sekund. Digital lyd er blitt mulig fordi fremskritt i høytetthetsinnspilling har gjort en slik datahastighet mulig til en overkommelig pris.
11
Fast samplingstidspunkt
Endelig signal identisk med original
Figur 1.1. a. Et binært signal sammenlignes med et terskelnivå og tidskorrigeres - meningen blir uforandret. b.Jitter på et signal kan virke som støy i forhold til faste tidsintervaller, c. Støy på et signal kan virke som jitter når det sammenlignes med en fast terskel.
Sample
Figur 1.2. Når et signal overføres i numerisk form, parallelt eller serielt, sikrer mekanismene i figur 1.1 at den eneste forringelse skjer i konverteringsprosessene.
Enkelt sagt blir signalkurveformen i en digital opptaker overført som om noen målte spennin gen med jevne mellomrom med et digitalt voltmeter og skrev resultatene ned i binær form på en papirrull. I hvilken takt disse målingene ble gjort og voltmeterets nøyaktighet ville være helt be stemmende for kvaliteten, fordi når et parameter uttrykkes som separate tall, kan disse overføres uforandret gjennom en innspillingsprosess. Denne avhengigheten av konverteringskvalitet er pri sen du må betale for å gjøre kvalitet uavhengig av signalvei. Et helt kapittel i denne boken er viet sampling og konvertering, da disse to tingene er helt avgjørende for lydkvaliteten. Denne proses sen kalles ofte «punktprøving» eller «punktmåling» på norsk. Et magnetisk hode kan ikke forstå betydningen av de signaler som passerer gjennom det, så det er ingen forskjell på hode/media grensesnitt mellom analog og digital innspilling. Et digitalt sig nal vil derfor ha de samme forringelser som et analogt: Partikkel støy, forvrengning, drop-out, modulasjonsstøy, kopieffekt, overhøring, o.s.v. Imidlertid virker disse forringelsene forskjellig på signalenes betydning. Som før nevnt benytter digital innspilling en binær kode, og nærvær el ler fravær av feltendringer er det eneste interessante. Forutsatt at feltendringen kan frembringe en avspillingsimpuls som er merkbart større enn støyen, vil den numeriske betydning forbli uforan dret ved moderate forvrengninger av kurveformen. Med andre ord, en bit er en bit samme hva slags form den har. Dette innebærer at bitene på mediet kan være veldig små og pakkes svært tett sammen, slik at vi kan oppnå den nødvendige datarate på en million bits pr. sekund. Hvis vi for følger hullbåndinnspillingen ennå videre, kan vi forestille oss at båndet som spenningen ble no tert på, blir sammenkrøllet. Hvis vi glatter det ut igjen, vil tallene fremdeles være leselige, og kan 12
kopieres nøyaktig over på et annet papir. Til sammenligning kan vi tenke oss at et sammenkrøllet fotografi alltid vil forbli krøllete. Store forstyrrelser i innspillingen, slik som drop-out eller interferens kan gjøre at feltendringer mistes eller simuleres. Resultatet er at noen av de innspilte tallene blir gale. I numeriske systemer er det mulig å lage et feilkorreksjonssystem, men ikke i analoge. Det menneskelige øre er svært følsomt overfor støy som kommer av bitfeil, og et skikkelig konstruert feilkorreksjonssystem er helt nødvendig for å få de gale tallene tilbake til sin opprinnelige verdi. Digital lyd ville antagelig ikke vært teknisk mulig uten et feilkorreksjonssystem. I det digitale området kan signaler lett overføres og lagres i elektroniske kretser. Hastighetsfor skjeller i opptakere gjør at tallene kommer i varierende takt. Ved bruk av midlertidig lagring kan disse tallene leses ut i en konstant takt, noe man kaller tidsbasiskorreksjon. På denne måten kan du eliminere wow, flutter og fasefeil som du får mellom sporene på grunn av båndvibrasjoner og vinkelfeil. De første praktiske anvendelser av digital lyd var ren tidsforsinkelse, som er meget enkelt å oppnå i det digitale området. Et eksempel er gravering av vinylplater, hvor man tidligere måtte bruke en spesiell båndopptaker med et forlyttingshode som tillot graveringsmaskinen å «se» fremover og justere avstanden mellom rillene forut for et høyt stykke musikk. Ren forsinkelse muliggjorde og så den digitale romklangsenhet - ennå et av de første digitale produkter. Den enkle måte å oppnå forsinkelse på gjør det også lett å lage faselineære filtre, fordi du unngår de analoge filternes gruppeforsinkelsesproblemer. Du kan konstruere filtre som virker med matematisk nøyaktighet, uten komponentavvik og med en respons som lett kan forandres. Vi kan summere hovedfordelene ved digital lydinnspilling slik (ikke ordnet etter viktighet, for det vil variere med bruksområde): * I et skikkelig konstruert system er kvaliteten på en digital lydinnspilling uavhengig av hode og medium. Frekvensgang, linearitet og støy bestemmes bare av konverteringsprosessens kvalitet. Man oppnår svært godt dynamikkområde og linearitet, uten modulasjonsstøy, kopieffekt og over høring. Uavhengigheten av mediets kvalitet innebærer at en båndopptaker ikke vil lyde forskjellig ved bruk av forskjellige lydbåndmerker, forutsatt at de har en akseptabel kvalitet. * Digital innspilling er ganske enkelt en rekke tall, og kan derfor kopieres gjennom et ubestemt antall generasjoner uten forringelse. Dette betyr at innspillingens levetid er ubegrenset. Selv om mediet forfaller fysisk kan samplene kopieres til et nytt medium uten tap av informasjon. * Bruken av feilkorreksjonsteknikker eliminerer virkningene av drop-out. I forbrukerprodukter kan feilkorreksjon med fordel brukes for å lette håndteringskravene. * Bruken av tidsbasiskorreksjon ved avspilling eliminerer wow og flutter, og kan videre brukes til å synkronisere mer enn en maskin med nøyaktighet på et sample. * Bruken av digital innspilling og feilkorreksjon tillater at signal/støyforholdet på de innspilte sporene er relativt lite. Sporene kan være smale og på den måten sparer du forbruk av bånd til tross for større båndbredde. * Det er mulig å konstruere svært presise og stabile filtre og equalisere som er faselineære.
1.2. Muligheter Digital lyd kommer gunstig ut av en sammenligning med analog, men det mest spennende er de enorme muligheter du ikke har med analog teknologi. I det digitale området er den originale ly den bare en rekke tall, og disse kan lagres, overføres og behandles på mange forskjellige måter. Dataindustrien har brukt tiår på å perfeksjonere maskiner til å lagre, overføre og behandle tallstrømmer i høy hastighet og til en kostnad som fortsetter å falle. Digital lyd kan dra full nytte av slike teknikker. Innspillingen kan lagres på magnetiske eller optiske plater, som med radialt beve gelige hoder muliggjør rask tilgang til lydinformasjonen. For effektiv lydredigering er dette over legent i forhold til å måtte vente på at båndopptakere skal spole frem og tilbake. Man kan utføre redigering ved å lese av sampler fra to kilder og kryssfade dem i en digital krets. Redigeringen kan simuleres slik at resultatet kan høres, og redigeringspunktet kan flyttes inntil resultatet er tilfreds-
13
stillende. Den ferdigredigerte versjonen kan om nødvendig spilles inn på et annet medium, og kil dematerialet holdes intakt. Ved å bruke datateknologi til å konstruere et miksebord drar du full nytte av programvarens mu ligheter til fleksibilitet. Et analogt bords konfigurasjon er bundet av sin konstruksjon, et digitalt bord kan konfigureres slik operatøren ønsker det, bare ved å velge rekkefølgen på de rutiner som behandler samplene. Kabel- og satellittkommunikasjonsnettverkene i verden blir mer og mer be nyttet til digital overføring, og en pakke med digital lydinformasjon kan sendes like lett som en teleksbeskjed eller bankoverførsel. Når det gjelder omdanning til lyd spiller det ingen rolle hvor dan de originale verdier blir overført, bare de blir matet i riktig rekkefølge i riktig takt til det ende lige bestemmelsessted. La oss ta et ekstremt eksempel. En stereoinnspilling gjøres digitalt, samplene i venstre kanal blir tatt opp på en optisk laserplate og sendt til flyplassen, og samplene i høyre kanal blir tatt opp på en Winchester-plate. Mens venstre kanal blir fløyet over Atlanteren, blir den høyre overført via en billig lavhastighets modemforbindelse til en datamaskin på den an dre siden av jorden. Når laserplaten kommer fra flyplassen, kan du lytte til en perfekt stereogjengivelse av den originale innspillingen. Dette fordi det med digitalteknikk er enkelt å sette sammen datastrømmen og få kanalene i korrekt fase, uavhengig av hvordan de er overført. I virkeligheten ville man selvfølgelig ikke valgt en så innviklet rute, men dette bare for å vise et poeng. Det virke lige potensialet ligger i det faktum at digital lyd, digital video, kommunikasjon og databehandling er så nært beslektet. De som venter å bruke digitale maskiner på samme måte som analoge vil bli svært overrasket dersom de ikke innser dette.
1.3. Noen typiske maskiner For å illustrere mulighetene og for å sette hovedkapitlene i denne boken i perspektiv, følger noen skisser av typiske digitale lydmaskiner. Figur 1.3 viser noen former for digital innspilling, først samplings- og kvantiseringsprosessen som blir forklart i kapittel 2.1 digital form grupperes dataene i blokker, og kodingskretsene i feilkorreksjonssystemet tilfører nye bits, som beskytter dataene mot feil. Disse blokkene omdannes igjen til en bestemt kanalkode som kombinerer dataene med klokkeinformasjon. slik at det er mu lig å finne ut hvor mange bits som ble spilt inn selv om flere nabobits er like. Kapittel 6 omhandler det omfattende emnet kanalkoding.
Figur 1.3. Grunnleggende digital lydinnspilling. De viktigste innspillingsprosesser er stort sett uavhengige av hva slags medium som benyttes, h' ser at lyd kan spilles inn med fast eller roterende hode, på magnetplate eller hånd. Opptakere med fast hode fordeler ofte data fra en lydkanal på flere spor for å redusere båndhastigheten. Hvilket medium som benyttes vil være bestemmende for hvordan man behandler kanalkoding og feilkorreksjon.
14
De kodede dataene blir spilt inn på et medium som kan være optisk eller magnetisk, plate eller bånd, roterende hode, bevegelig hode eller fast hode. Noen medier er slettbare, andre kan bare spilles inn en gang. Kapittel 8 omhandler opptakere med roterende hode, kapittel 9 opptakere med fast hode. Magnetiske plater blir omhandlet i detalj i kapittel 10, sammen med de beslektede em nene innspillbare og slettbare optiske plater. Det viktige emnet Compact Disc forklares i detalj i kapittel 11. Når man spiller av opptaket fra den hypotetiske maskinen på figur 1.3, vil de feil som forårsakes av forskjellige mekanismer bli oppdaget, og deretter rettet eller skjult ved hjelp av de ekstra bitene som blir tilføyd i kodingsprosessen. Kapittel 7 behandler feilkorreksjon så grundig som mulig uten å fortape seg i matematikkens verden. Ved avspilling kan et digitalt opptak behandles før man lytter på det eller tar det opp på nytt. Enkle manipuleringer med digital lyd, slik som volumkontroll og miksing dekkes i kapittel 3. Mer avanserte prosesser, som digital filtrering og samplingsfrekvenskonvertering behandles i ka pittel 4. Den digitale opptaker og den digitale mikser kan godt være to forskjellige enheter av forskjellig fabrikat, og vi må derfor opprette standardiserte forbindelser for digital overføring. Kapittel 5 omhandler i detalj digital kommunikasjon mellom utstyr.
1.4. Ulemper Så langt i sammenligningen mellom digital og analog teknologi er hovedvekten lagt på fordelene ved digital lyd. I rettferdighetens navn må vi også se på noen av problemene forbundet med digital lyd. 1. Mange digitale båndopptakere med fast hode gir mulighet for klipp og lim-redigering, men av grunner vi vil se i kapittel 7, kan digitale opptakere aldri bli så enkle å klippe med som de analoge. 2. Digitale opptakere må benytte tynt bånd med ekstremt jevn overflate for å tillate innspilling av meget korte bølgelengder. Baksidematerialet må være så glatt at innspillingssjiktet ikke øde legges når båndet spoles opp. Dette skaper konflikt med behovet for en ru bakside som er nødven dig for jevn spoling ved høy hastighet. Digitale opptakere med fast hode vil neppe bli i stand til å spole så fort som analoge. 3. Digitale kanalkoder er konstruert for å begrense frekvensområdet spilt inn på mediet, og avspillingskretsene justeres for å godta disse frekvensene. Store vanskeligheter oppstår dersom en digital innspilling må spilles av i en hastighet som avviker fra den normale med mer enn 10-15 %. Analoge opptakere er klart bedre i så måte. 4. Digitale båndopptakere kan ikke spille baklengs, men det er mulig å lage redigeringsprogram som reverserer rekkefølgen på samplene i en innspilling som ligger i elektronisk minne. 5. Ettersom man trenger standard samplingsfrekvenser for utveksling av digitale innspillinger, blir det en konflikt med kravet til å kunne synkronisere til videosignaler, siden de har forskjellige frekvenser i de forskjellige standardene. 6. Naturlig nok er digitale opptakere mer sammensatte enn analoge, hvilket er av betydning for vedlikehold og reparasjon.
KAPITTEL 2
Konvertering
I kapittel 1 så vi at det vesentlige ved digital lyd er at kvaliteten er uavhengig av lagring eller overføringsmedium. Den bestemmes istedet av konverteringsnøyaktigheten mellom de analoge og di gitale områder. I dette kapitlet vil vi se nøyere på teori og praksis ved denne kritiske siden av digital lyd. Det menneskelige øre er forbausende følsomt. Det kan påvise små forvrengninger, og kan god ta et enormt dynamikkområde. Det eneste kvalitetskriterium vi har er at hvis øret ikke kan påvise forringelser, er den gjengitte lyden perfekt. Vanligvis er øret mest følsomt mellom ca. 2 og 5 kHz, og selv om noen er i stand til å høre 20 kHz ved høyt nivå, er det mest sannsynlig at de fleste lyttere ikke kan oppfatte en øvre frekvensgrense opp mot 20 kHz eller 16 kHz. Lenge trodde man at fre kvenser under ca. 40 Hz ikke var viktige, men det er etterhvert blitt klart at gjengivelse av fre kvenser ned mot 20 Hz forbedrer realisme og atmosfære. Et digitalt system kan om nødvendig gi en respons ned mot DC. Ørets dynamikkområde oppnås ved en logaritmisk respons, og oversti ger helt sikkert 100 dB. I dette områdets ytterligheter anstrenger øret seg enten til det ytterste for å høre eller opplever smerte, og ingen av delene er særlig behagelig. Innspilling i dette dynamikkområdet er derfor ikke nødvendig for den vanlige forbruker. Han har neppe noen steder å lytte til dem heller. Viktigere enn dynamikkområde, er antagelig ørets følsomhet for forvrengning. Øret er en slags spektrumanalysator, med frekvensbånd ca. 100 Hz brede under 500 Hz og fra % til 'A oktav bre de over dette, proporsjonalt med frekvensen. Ved et sammensatt spekter beskytter øret seg mot informasjonsoverbelastning ved ikke å registrere energi i enkelte bånd når det er mer energi i et bånd i nærheten. Dette fenomenet kalles maskering, definert som minsket hørbarhet av en lyd i nærvær av en annen. Man oppnår en betydelig informasjonsreduksjon - maskering kan finne sted selv når maskeringstonen opphører før den maskerte lyden opptrer. Et annet eksempel på ørets treghet er Haas-effekten hvor en lydkilde tilskrives den første bølgefront som opptrer selv om et senere ekko er mye sterkere. Ettersom forvrengning resulterer i at energi flytter fra et frekvens bånd til et annet, er kjennskap til maskering viktig for å forutsi hvor hørbar virkningen av for vrengningen vil bli. Før man benyttet digitalteknikk i høykvalitetslyd, trodde man at prinsippene for digitalisering var tilstrekkelig utforsket. Imidlertid viste de skuffende resultater av tidlige di gitale lydmaskiner at dette ikke var tilfelle. Øret kunne påvise ørsmå svakheter ved filtre og kon vertere som kunne overses i f.eks. måleinstrumentbruk. En mer inngående studie av digitalisering ble straks satt i gang, og de viktigste resultatene finner du nedenfor. Det viktige em net oversampling blir også tatt opp her, med de viktige fordeler den har for lyd.
2.1. Digitaliseringsmetoder Et analogt signal er kontinuerlig i tid og uendelig variabelt i spenning, mens et digitalt signal er tidsseparat, og spenningen skifter trinnvis. Tid og spenning er to svært forskjellige dimensjoner og kan derfor behandles hver for seg. Det fins flere metoder for å omdanne en analog kurveform til en bitstrøm, og siden de er beslek tet er det mer nyttig å sammenligne dem enn å sette dem opp mot hverandre. I avanserte konverteringssystemer er det mulig å flytte fra et system til et annet for å kunne kombinere fordelene ved begge. Figur 2.1 og 2.2 viser de viktigste konverteringsprosesser. Konvertering fra kontinuerlig til separat tid kalles sampling, den omvendte prosess kaller vi rekonstruksjon. Vi bruker ordet kvantisering for å uttrykke en analog måling som et tall, men det fins ikke noe uttrykk for den om vendte prosess. Samplingsprosessen produserer pulser hvor amplituden er en analog mengde. Det er som om en rekke pulser med konstant høyde ble amplitudemodulert av inngangssignalet - derav uttrykket pulsamplitudemodulasjon, forkortet PAM. Når disse pulsenes høyde kvantise16
res og uttrykkes i en tallkode, kaller man resultatet pulskodemodulasjon, igjen bedre kjent under forkortelsen PCM. I prinsippet er dette det samme som å logge variasjonene i en sakte skiftende spenning ved å notere avlesningene på et digitalt voltmeter med få sekunders mellomrom, bare at hastigheten er øket når det gjelder lyd. Figur 2.1 viser også at det er mulig å gå rett tilbake til det analoge området fra et PAM-signal, du går utenom hele kvantiseringstrinnet og behandler tids- og spenningsdimensjonene hver for seg. Signalamplituden er bare avhengig av konverterens tallområde, og er uavhengig av inngangsfrekvensen. På samme måte er amplituden på de uønskede signal som oppstår i kvantiseringsprosessen også stort sett uavhengig av inngangsfrekvens. Analog til PCM digital konvertering
Sampling
Kvantisering
Analogt signal
Kontinuerlig tid
Resampling
Rekonstruksjon
PCM digital til analog konvertering
Figur 2.1. Hovedprosessene i PCM-konvertering. Merk at kvantiseringstrinnet kan utelates for å undersøke sampling og rekonstruksjon uavhengig av kvantisering (stiplet pil).
I differensiell pulskodemodulasjon (DPCM) er det kvantiserte parameter forskjellen mellom foregående og nåværende absolutte sampleverdi. Dette begrenser den maksimale hastighet som inngangssignalets spenning kan skifte med, derfor faller tillatt signalamplitude med 6 dB pr. oktav. Den uønskede signalamplituden er konstant, så når inngangsfrekvensen økes vil til slutt nyttesignalet komme ned på samme nivå. Det er mulig å produsere et DPCM-signal fra et PCM-signal ved bare å trekke fra påfølgende sampler, altså digital differensiering. Den omvendte prosess er også mulig ved å bruke en akku mulator til å beregne sampleverdier fra de mottatte forskjellene. Problemet er bare at det er lett å miste signalets basislinje dersom det starter på et vilkårlig tidspunkt, og man trenger et digitalt høypassfilter for å hindre uønskede forskyvninger. I den ekstreme utgaven av DPCM, der bare et binært utgangssignal er tilgjengelig, kaller man prosessen deltamodulasjon. Betydningen av det binære signalet er at det analoge inngangssignalet er over eller under tidligere bitsakkumulering. Systemet viser de samme tendenser som DPCM, bortsett fra at det skjer en drastisk begrensning av hvor raskt inngangssignalet kan endre
17
Differential coding One-bit data
Several data bits
Integrate data SNR falls at 6 dB/oct. Both must use high sampling rates
Differentiate data
One-bit data
Several data bits
PCM coding Nyquitt rate PCM
Figur 2.2. De fire viktigste alternativene til enkel PCM-konvertering blir her sammenlignet. Deltamodulasjon er en enbitsversjon av dijferensiell PCM, og overfører signalets endringen Man kan integrere den digitale utgangen hos begge for å oppnå PCM. E-A(sigma-delta) er enbitsversjonen av Y.-DPCM. Bruken av integrator før differensiator gjør utgangen til ekte PCM, men endrer formen på støyspekteret.
seg. Siden dekoderen også må akkumulere alle differensbitene for å gi et analogt utgangssignal, kan denne funksjonen utføres av en integrator. Med en integrator på inngangen til en deltamodulator responsen med 6 dB pr. oktav, lik amplitudebegrensensingen på 6 dB pr. oktav. Slik blir systemets amplitudegrense uavhengig av fre kvens. Denne integrasjon kalles sigma-delta-modulasjon, siden sigma i matematikken blir brukt om summering. Det overførte signalet er nå inngangssignalets amplitude, ikke endringen. Utgangsintegratoren er derfor unødvendig, og alt du trenger er et lavpassfilter for å jevne ut bitene. Dessverre innebærer bortfallet av integrasjonstrinnet at den uønskede signalamplituden stiger med 6 dB pr. oktav, og blir til slutt like sterk som det ønskede signalet. Prinsippet om bruk av inngangsintegrator kan også brukes i et DPCM-system, og resultatet burde kanskje kalles sigma-DPCM. Forbedringen av dynamikkområde i forhold til sigma-deltamodulasjon, er 6 dB for hver ekstra bit i koden. Det uønskede signalet stiger med 6 dB pr. oktav, akkurat som ved sigma-delta-modulasjon - konverteren endrer formen på støyspekteret, men som vi vil se senere i kapitlet er ordet «støy» ikke helt dekkende. Effekten av et sigma-DPCMsystem er igjen den absolutte signalamplitude, og du trenger en DAC for å motta det, fordi det er en binær kode. Differensialsystemene har den ulempe at et ønsket signal nærmer seg et uønsket etter som fre kvensen stiger, og man må derfor benytte høye samplingsfrekvenser. Man kan konvertere fra sigma-DPCM til konvensjonell PCM ved å redusere samplingsfrekvensen digitalt. Dette har kla re fordeler, som vi vil se når vi diskuterer oversampling (avsnitt 2.10).
18
2.2. Lydens informasjonsinnhold Lyden overføres via et digitalt system som en bitstrøm. Fordi bitene er diskrete er det enkelt å kvantisere strømmen ved å telle antall bits pr. sekund. Det er mye vanskeligere å kvantisere infor masjonsmengden i et analogt system (f.eks. fra en mikrofon). Hvis du likevel gjør det ved å bruke de samme enheter, vil du kunne avgjøre hvilken bithastighet som er nødvendig for å overføre sig nalet uten informasjonstap. Et signal er perfekt overført hvis det har skjedd uten informasjonstap og uten at uønskede signaler er blitt plukket opp underveis. Sammenhengen mellom analoge signaler og informasjonskapasitet ble påpekt av Shannon i et av de viktigste skrifter i denne teknologiens historie. Vi skal her gjenta de deler som er viktige for dette emnet. Prinsippene er enkle og gir god innsikt i de forskjellige modulasjonsmetoders ytelser og muligheter, inkludert digitalisering. 8
6-------------5—
Noe støy, men nivåene kan bestemmes
For mye støy, nivået kan være 5 eller 6
t
Ingen støy
Figur 2.3. For å motta åtte forskjellige nivåer i et signal uforstyrret, må spissverdien av støyen være mindre enn nivåforskjellen. Signal/støyforkc'det må være minst 8:1 eller 18 dBfor å overføre åtte nivåer. Dette kan også overføres av tre bits (23 = 8). For seksten nivåer, måtte signal/støyforholdet være 24 dB, som kunne overføres av fire bits.
Figur 2.3 viser et analogt signal med en viss mengde overlagret støy, som i alle virkelige lydsig naler. Støy defineres som et tilfeldig overlagret signal som ikke har noen sammenheng med det ønskede signal. For ikke å bli lurt bør man forholde seg pedantisk til denne teorien. Støyen er til feldig, og det ønskede signalets spenning er derfor ukjent - den kan ligge hvor som helst innen støyamplitudens område. Hvis vi sier at signalamplituden er seksten ganger støyamplituden, kunne vi bare overført seksten forskjellige signalnivåer klart, fordi nivåene må være så forskjelli ge at støy ikke kan gjøre et nivå lik et annet. Det er mulig å overføre seksten forskjellige nivåer ved kombinasjoner av fire databits, og slik opprettes forbindelsen mellom de analoge og kvantiserte områder. Valg av samplingsfrekvens (den hastighet som signalspenningen må måles med for å overføre informasjon i et skiftende signal) er viktig i ethvert system. Hvis den er for lav, vil signalet bli for ringet, hvis den er for høy, vil antall sampler som skal lagres stige unødvendig, og systemkostnadene likeså. Vi skal finne akkurat den samplingsfrekvens som er nødvendig i en gitt situasjon, først teoretisk og deretter ved å ta praktiske begrensninger i betraktning. Ved å gange antall bits som er nødvendige for å uttrykke signalspenning med den hastighet prosessen må oppdateres med, kan vi finne den digitale datastrøms bithastighet som følger av et bestemt analogt signal.
2.3. Sampling og frekvensspeiling I figur 2.4a ser vi at en høy samplingsfrekvens er i stand til å overføre kurveformen, mens det i figur 2.4b tydelig er et problem. Utgangskurveformen er nå en ny frekvens. For å forklare dette fenomenet må vi se på spekteret til et samplet signal. Figur 2.5a viser spekteret til umodulerte samplmgspulser. Den første frekvensen i spekteret er samplingsfrekvensen, men siden samplingspulsen er av svært kort varighet blir spekteret uendelig, og består av harmoniske overtoner av samplingsfrekvensen. Vi har sett at inngangssignalet amplitudemodulerer samplingspulsene.
19
Som ventet skaper dette øvre og nedre sidebånd, men disse opptrer rundt alle de harmoniske og danner derved spekteret på figur 2.5b. Vi ser også hvilken respons rekonstruksjonsfilteret må ha for å stoppe sidebåndene og kun la signalet fra basebåndet passere.
Figur 2.4. I a er samplingen tilstrekkelig for å rekonstruere det opprinnelige signal. I b er samplingsfrekvensen utilstrekkelig, og rekonstruksjonen gir gal kurveform (stiplet). Frekvensspeiling har funnet sted.
0 Basebånd
(b)
0
Fb
F
2F.
3ÆS
F.
2F,
3ÆS
’ Filter respons
► etc.
- etc.
Område med frekvensspeiling
X
(F5 -FbY
Fb
Fs
*
2FS
3FS
- etc.
i (fs + Fb) Nyquist grense m
(d)
- etc.
~—a -—-
F,
(a = b)
Minste mulige sampling frekvens
Fb
Fs = 4 x minimum
Basebånd
Figur 2.5. a.Spekter av samplepulser. b.Spekter av sampler. c. Frekvensspeiling som resultat av sidebåndsoverlapping. d. Frekvenser speiles ved Nyquist-frekvensen. e.4 ganger oversampling.
I figur 2.5c er samplingsfrekvensen for lav, og det blir et overlappingsområde mellom basebån det og sidebåndene (skravert). Rekonstruksjonsfilteret kan ikke skille dem lenger, og resultatet blir frekvensspeiling. Figur 2.5d viser at dersom en for høy frekvens blir tilført et samplingssystem, oppstår det på utgangen en differensefrekvens mellom inngangsfrekvensen og samplings frekvensen. Med et perfekt filter må samplingsfrekvensen bare overstige to ganger basebåndbredden. og det vil ikke oppstå noen frekvensspeiling. Dette refereres som regel til som Nyquist-teoremet, selv om det også ble beskrevet av Shannon. I Sovjet er teorien tillagt Kotelnikov, som opererte samtidig som Shannon. Et slående eksempel på frekvensspeiling er hjuleiker som på TV eller film ser ut som om de dreier feil vei. Filmkameraet er et samplingssystem, og eikefrekvensen på et hjul som dreier fort rundt kan være større enn Nyquist-frekvensen. Imidler tid er ikke frekvensspeiling alltid av det onde, tvert imot er det nyttig når man studerer roterende maskineri ved hjelp av et stroboskop. I figur 2.5e er samplingsfrekvensen mye høyere enn hva som er nødvendig for å tilfredsstille Nyquists teorem. Dette defineres som oversampling. Forhol det mellom aktuell samplingsfrekvens og Nyquist-frekvensen er kjent som oversamplingsfaktoren.
20
I figur 2.6 ser vi rekonstruksjonsprosessen. Lavpassfilteret må ha en grensefrekvens som er halvparten av samplingsfrekvensen i et Nyquist-system, men kan være en mindre del av samplingsfrekvensen i et oversamplingssystem. Impulsresponsen på et slikt filter er en sin(x)/xkurve, men med den særegenhet at impulsspenningen er null ved alle andre samplingsposisjoner. Det er klart at det ikke er noen forstyrrelse mellom sampler i samplingsøyeblikket, og slik følger filterets utgangskurveform med til toppen av alle impulsene. Figuren viser hvordan de forskjellige impulsene legges sammen i filteret for å produsere alle mellomspenninger mellom samplene.
PAM inn
Kutt ved Fs/2 Rekonstruert signal
Figur 2.6. Puls responsen hos et lavpassfilter som kutter ved Fs/2 har nullverdier ved 1/Fs avstand som tilsvarer tilstøtende samplers posisjon, som vist i b. Resultatet blir et signal som har verdien av hver sampling i samplingsøyeblikket, men med myke overganger fra sampling til sampling.
Denne rekonstruksjonsprosessen finner bare sted som beskrevet dersom inngangssignalet til filteret er en serie pulser uten varighet. Dette oppnår man aldri i praksis. Figur 2.7 og 2.8 viser at vi kan se på en puls med en viss varighet som et stort antall uendelig korte pulser side om side. De sin(x)/x-kurvene som blir dannet blander seg nå med tilstøtende samplepulser. Resultatet blir demping av høye frekvenser. Dette fenomenet kalles åpningstid, og har nøyaktig samme resultat som det tap du får av bredden på hodespalten i magnetisk innspilling, og de samme matematiske ligninger gjelder. Dersom pulsene har samme varighet som sampleperioden, faller frekvensresponsen til null ved samplingsfrekvensen som en sin(x)/x-kurve. Filteret vil imidlertid kutte sig nalet over halve samplingsfrekvensen, hvor signalet på utgangen vil bli 0,64 av det maksimale eller ca. 4 dB ned. Mange DAC er lager en slik «zero-order hold»-kurveform som ligner på en trapp. Resampling kan benyttes for å omdanne et trappetrinnsignal til et signal med kortere pul ser, se figur 2.9. Bryterens arbeidssyklus kaller vi åpningsforholdet. Figur 2.7 viser også frekvensresponser forårsaket av forskjellige åpnmgsforhold. I digital lyd er linearitet i frekvensrespons viktig, og man kan benytte et åpningsforhold helt ned til Vs, noe som minsker behovet for korreksjon. Man bør ikke overdrive resampling, - frekvensresponsen blir mer lineær
21
ved bruk av pulser med minimal varighet, men signalet blir borte i støyen fra rekonstruksjonsfilteret. Uttrykket resampling blir også brukt om konvertering av samplingsfrekvens, men man for står gjerne forskjellen ut fra sammenhengen.
Figur 2.7. Åpningstid som forårsaker høyfrekvenstap når pulsen haren viss lengde. a.Maksimalfrekvensens sinuskurve i sampler av null varighet. h.Zero-order hold-versjon av ovennevnte (100 % åpning). c.En rektangulær puls anses som en uendelig rekke av deltafunksjoner d. Resultat av lavpassfiltrering av noen av de ovennevnte pulser. A kansellererer helt B. C kansellererer delvis D.
22
Figur 2.8. Frekvensrespons med 100 % åpning får nullverdier ved multipler av samplingsfrekvens. Det interessante området er opp til halve samplingsfrekvensen.
Figur 2.9. a.Resamplingskretsen eliminerer transienter og reduserer åpningsforhold. b. Respons ved forskjellige åpningsforhold.
2.4. Kvantisering I figur 2.10 ser vi at kvantiseringsprosessen deler spenningsområdet opp i kvantiseringsintervaller. Q. I enkelte bruksområder, f.eks. telefoni, kan disse variere i størrelse, men det blir da vanske lig å behandle samplingsverdier aritmetisk. Derfor er alle kvantiseringsintervallene som regel like i digitalt lydutstyr, og man bruker uttrykket «uniform» eller «lineær» kvantisering. Uansett spenning på inngangssignalet vil konverteren uttrykke den som tallet på det intervallet den faller i. Når tallet konverteres tilbake til analog, skapes en spenning tilsvarende sentrum i in tervallet. Slik oppstår feil opp til ± Q. Hvis man resampler DACens utgang for å unngå effek-
23
Spenning
-1001
-4-1000
Kvantisenngsi ntervaller
0111------
Q
Maks feil
Nominell spenning for kvantiseringsintervallene
0110
0101-
Figur 2.10. Kvantisering. Alle spenninger innenfor et bestemt kvantiseringsintervall blir tildelt samme tall, som tilsvarer spenningen i sentrum av intervallet. Den maksimale kvantiseringsfeil kan ikke overstige ± /2 Q
Figur 2.11. 1 a representerer man et vilkårlig signal til endelig nøyaktighet ved hjelp av PAM nåler med toppunkt i sentrum av kvantisenngsintervallene. De feil som da oppstår kan sammenlignes med et uønsket signal b som er lagt , e. oriSlnale. I c vil amphtudetoppen på en kvantiseringsfeil rekke fra - ‘/2 Q til + '/2 Q med samme sann svnlighet I kraftige sammensatte signaler har autokorrelasjonsfunksjonen R(t) en spiss, d, som gir et ensartet spekter. ' Imidlertid er det verdt å merke seg at hvit støy i analoge kretser vanligvis får en amplitude med Gauss-fordeling som V7 V/ 1 P J
24
ten av åpningstiden, kan man sammenligne pulsene fra DAC’en med pulsene fra samplingstrinnet på inngangen. Forskjellen mellom de to er en pulsrekke (figur 2.11) - et uønsket signal som i kvantiseringsprosessen er lagt til det opprinnelige signalet. Dette feilsignalet må vi se nærmere på, da det har noen uventede kjennetegn. Når inngangssignalet befinner seg innenfor konverterens område og har en sammensatt kurveform (som f.eks. den fra lyden av et orkester), vil kvantiseringsfeilens størrelse ligge hvor som helst mellom -V2 Q og + V2 Q, som vist i figur 2.11c. Denne sannsynlighetsfunksjonen kan sam menlignes med termisk støy fra elektroniske komponenter, som har form som en Gauss-kurve. Siden det uønskede signalet i dette tilfelle ikke har noe med informasjonen å gjøre, kan vi kalle det støy. Imidlertid er ikke støy så interessant når signalet er kraftig, siden signalets nærvær ma skerer støyen. Ikke desto mindre knytter man ofte den enkle forbindelse mellom antall bits i or det, n, og signal/støyforholdet, nemlig 6,02 n + 1,76 dB. Denne enkle fremstillingen har to svakheter. For det første har den beregnede støyeffekten et uendelig spekter, og det er ikke tatt hensyn til rekonstruksjonsfilterets virkning på dette. For det andre holder det matematiske bare dersom kvantiseringsfeilens sannsynlighetsfunksjon er ensartet. Ved lave nivåer er ikke kvantiseringsfeilen lenger tilfeldig, den blir en funksjon av inngangssignalet - dette gjelder spesielt for re ntoner eller andre enkle signaler. Når et uønsket signal blir en bestemt funksjon av det ønskede signalet må det kalles forvrengning istedet for støy. Når det analoge inngangsnivået reduseres blir kvantiseringsfeilen mindre tilfeldig, og det oppstår modulasjon av støyen. Er det er mer enn en frekvens på inngangen oppstår intermodulasjonsprodukter. Denne særegne kornete effekten kal les granulering. De harmoniske komponenter som blir forårsaket av disse ulineære prosessene kan speiles mot samplingsfrekvensen og produsere uharmoniske frekvenser i det hørbare spekteret, ofte kalt fug lekvitter («birdies»). Vi får harmonisk forvrengning der hvor samplingsfrekvensen er et multi plum av signalfrekvensen. Det er enkelt å fremstille dette fenomenet grafisk (figur 2.12). Kvantiseringsfeilen er bestemt av signalet. Det er et klart mønster i kvantiseringsfeilene, og de harmoniske svingningene som oppstår er lett synlige. Dette skjer selv med en perfekt konverter, og virkningen kan lett demonstreres ved midlertidig å sette noen av lavordens-bitene i et system ut av funksjon. I praksis er det vanskelig å oppnå en perfekt bestemt kvantiseringsfeil på grunn av støy i inngangssignalet. Dette fører til at kvantiseringsfeilene blir mer tilfeldige, og forvreng ningen reduseres tilsvarende. Figur 2.13 viser at virkningen av dither er å «smøre ut» kvantiseringens overføringsfunksjon horisontalt. Der hvor effektivverdien av støyspenningen er 16 av et kvantiseringsintervall, blir kvantiseringsfeilen like tilfeldig som støyen, og kvantiseringsproses-
Figur 2.12. Matematisk utledet kurveform for kvantiseringsfeil for sinuskurve samplet ved en multippel av seg selv. De mange forbindelser mellom kvantiseringsfeilene viser harmoniske svingninger, og feilen er ikke tilfeldig, men deterministisk.
25
Sinuskurve ved = % Q toppverdi pluss dither
Kurveformen beholdes med dither støy
Figur 2.13. Bruken av bredbånds-dither på ‘A Q effektivverdi gjør overføringsfunksjonen lineær og lager støv istedet for forvrengning. Dette kan bevises ved midling over tid. Støy reduseres ved utjevning, forvrengning gjør det ikke.
sen blir helt lineær. Man kan også si at inngangsspenningen mellom kvantiseringsintervaller blir overført i den binære svitsjingens arbeidssyklus. Denne teknikken kaller vi dither. I tillegg til å gjøre systemet lineært definerer den også signal/støyforholdet. Hvis det ikke allerede er overlagret tilstrekkelig støy på inngangssignalet. kan en støykilde bygges inn i konverteren. En diode kan brukes for å fremkalle Gauss-støy. Ditherens sannsynlighetsfunksjon er viktig. Hvis man lager støy med rektangulær sannsynlighet ved å for binde en digital pseudotilfeldig sekvensgenerator til en DAC, vil sannsynligheten av den resulte rende kvantiseringsfeilen være den samlede sannsynlighet av dither og kvantiseringsfeilen uten dither. Siden signalet fra den pseudotilfeldige sekvensgenerator ikke har noen sammenheng med kvantiseringsfeilen uten dither, resulterer kombinasjonen av de to i en trekantet sannsynlighets funksjon. Resultatet blir en viss støymodulasjon: Støyamplituden endres med signalamplitude, men lineariteten opprettholdes. Hvis du bruker nok Gauss-dither til å produsere et lineært sy stem, nemlig 'A Q effektivverdi, kan signal/støyforholdet lett vise seg å være 6,02n dB. 6 dB pr. bit er en egnet beregning av signal/støy i de fleste praktiske tilfeller, men bare dersom man bruker passende mengde dither. Som en videreutvikling har Blesser foreslått at digitalgenerert dither omdannes til analogt og føyes til inngangssignalet før kvantisering finner sted. Den samme digitale dither trekkes deretter fra den digitale konverterutgang. Konverterens overføringsfunksjon blir da diagonal (figur 2.14). Dette betyr at ditherens amplitude ikke er kritisk. Støyamplituden blir den samme uansett hvor 26
Digital dither
Figur 2.14. 1 dette systemet gjør den dither som blir lagt til i det analoge området, at overføringsfunksjonen forskyves horisontalt, men den samme dither blir trukket fra i det digitale området, og overføringsfunksjonen forskyves vertikalt. Resultatet blir at kvantiseringstrappen utjevnes diagonalt som vi ser øverst til venstre. Det er altså ingen grense for dither-amplitude, og bruk av store mengder dither kan forbedre konverterens differensielle linearitet.
mye dither man bruker. Hvis man benytter dither på størrelse med flere kvantiseringsintervaller, virker alle intervallene i en ikke-ideell konverter like store. Viktigheten av å tilføre en konverter riktig mengde dither kan ikke understrekes nok, hvis ikke blir det konverterte signalet forvrengt, og denne forvrengningen kan man ikke fjerne. I prinsippet kan et sample kvantiseres til et hvilket som helst tallområde, men det er hensikts messig å benytte binære kretser for å behandle og lagre tallene. Følgelig blir kvantiseringsområdet alltid to opphøyd i et eller annet. Det er vanskelig å bestemme et passende område, siden resultatene vil bli subjektivt bedømt. Det er fristende å dele signal/støyforholdet i et tilsvarende analogt system med seks for å finne nødvendig antall bits. Dette var imidlertid ikke vellykket når det gjaldt lyd. De første maskinene hadde 14 bits, senere steg dette til 16, og idag går man ennå lenger. Man kan utlede de differensielle konverternes dynamikkområde fra diskusjonen ovenfor, men enhver beregning gjelder bare et bestemt forhold mellom signalfrekvensområde og samplings frekvens.
2.5. Konstruksjon av filtre Så langt har vi forutsatt bruk av perfekte anti-speilfrekvens- og rekonstruksjonsfiltre. Slike fins selvsagt ikke, og fordi konstruktørene må bruke utstyr med endelig steilhet og demping, kan fre kvensspeiling forekomme. Den kan imidlertid reduseres ved å heve samplingsfrekvensen en del. Det er ikke lett å spesifisere slike filtre, spesielt ikke den nødvendige mengde stoppebånddemping. Den frekvensspeiling man får avhenger bl.a. av inngangssignalets energimengde utenfor passbåndet. Man vet svært lite om energi i typisk kildemateriell utenfor det hørbare området. En annen komplikasjon er at et signal utenfor passbåndet svekkes av anti-speilfrekvensfilterets re spons ved den frekvensen. Restsignalet vil imidlertid bli frekvensspeilet, og rekonstruksjonsfilte-
27
ret vil dempe det i henhold til sin dempning ved den nye frekvensen det er blitt speilet til. Hvis man på den annen side benytter en mikrofon uten respons utover det hørbare området, vil man ikke trenge noe anti-speilfrekvensfilter. Man kan hevde at rekonstruksjonsfilteret er unødvendig, siden alle sidebåndene ligger utenfor det hørbare området, men den minste ulinearitet i etterfølgende trinn vil resultere i kraftig intermodulasjonsforvrengning. Muligheten for å skade diskanthøytaleren og for interferens med formagnetiseringsfrekvensen i analoge båndopptakere må også tas i betraktning. Imidlertid er det mulig å gå utenom et av filterne ved kopiering fra en digital maskin ti 1 en annen via analog konver tering, selv om digital overføring selvsagt er å foretrekke. Filternes egenskaper betyr mye for det enkelte systems kvalitet. Hele bøker er skrevet om ana loge filtre, og vi vil bare se kort på dem her. Figur 2.15 og 2.16 viser den terminologi som brukes for å beskrive det vanlige elliptiske lavpassfilteret. Dette er populært fordi det kan lages av færre komponenter enn andre filtre med til svarende respons. Karakteristisk er at det har rippel i passbåndet og stoppbåndet. Lagadec og Stockham fant ut at filtre med passbåndrippel gir dispersjon: Utgangssignalet dras ut i tid, og man kan oppdage for-ekkoer ved tonepulser. I noe utstyr har anti-speilfrekvens- og rekonstruksjons filteret samme spesifikasjon, slik at passbåndrippelen blir fordoblet med tilsvarende økning i di spersjon. Man kan benytte filtre som er litt forskjellige for å redusere denne virkningen.
Figur 2.15. Viktige trekk og terminologi vedrørende lavpassfiltre for anti-refleksspeiling og rekonstruksjon.
Det er vanskelig å lage et analogt filter med lav forvrengning. Passive filtre med spoler blir ulineære ved høye nivåer på grunn av kjernematerialets B/H-kurve. Det er synd å gå så langt som til å bruke digital teknikk for å fjerne det analoge magnetbåndets ulinearitet bare for å la signalet passere gjennom magnetiske spoler i filteret. Aktive filtre kan simulere lineære spoler ved å bru ke op-amp-teknikker. De har imidlertid også en tendens til å bli ulineære ved høye frekvenser, der fallende råforsterkning reduserer effekten av tilbakekobling. Aktive filtre kan også gi støy, men dette er nødvendigvis ikke negativt i kontrollerte mengder, fordi støyen kan fungere som en dither-kilde. Det er lærerikt å undersøke filternes faserespons. Man oppnår vanligvis en skarp avskjæring ved å seriekoble mange filterseksjoner som skjærer av nær samme frekvens, og disse seksjonenes faserespons adderer seg opp. Fasen kan begynne å avvike lineariteten ved bare noen få kilohertz, og kan ha fullført flere runder når den nærmer seg knekkfrekvensen . Meyer antyder at disse fasefeilene er hørbare og at det er nødvendig med korreksjon. En fordel ved faselineære filtre er at ringingen blir minimal, og det er mindre fare for klipping av transienter. Det er fullt mulig å konstruere et rippelfritt faselineært filter med den nødvendige stoppebånddemping. Imidlertid stilles det store krav til konstruksjon og komponenter, og kvaliteten kan ten kes å bli dårligere etterhvert som komponentene eldes. Det er bedre å bruke penger på å unngå
28
(e)
Figur 2.16. a.Typisk nipolet elliptisk passiv filterkrets medfrekvensrespons i b forstørret rundt knekkfrekvensen c. Merk at faseresponsen i d begynner å endre seg allerede ved 1 kHz, og gruppeforsinkelse i e, som krever kompensasjon ved kvalitetsbruk. Når signaler er til stede utenfor båndet, kan frekvensspeiling bare dempes 60 dB. Et trettenpolet filter greier mer enn 80 dB, men da blir faseresponsen enda dårligere.
behovet for et slikt filter. Mye kan spares ved å benytte oversampling. Figur 2.17 viser at en høy samplingsfrekvens gir et stort spektralgap mellom basisbåndet og det første nedre sidebåndet. Anti-speilfrekvens- og rekonstruksjonsfilterne trenger bare en moderat steilhet, som gir minima le forstyrrelser i basisbåndets faselinearitet, f.eks. kan Butterworth-konfigurasjonen som ikke har rippel eller dispersjon. brukes. Det negative ved oversampling er en mye høyere datahastig-
Frekvens, kHz
Figur 2.17. I dette 4 X oversamplingssystemet gjør den store avstanden mellom basisbånd og sidebånd at man kan benytte el rekonstruksjonsfilter med moderat steilhet.
29
het. Denne må reduseres ved hjelp av et digitalt lavpassfilter. I kapittel 4 ser vi at visse digitale filtre er naturlig faselineære, og kan være billige å produsere ved bruk av LSI-teknologi. Oversamplingskonverternes overlegenhet innebærer at de vil bli mer og mer brukt i fremtiden. Derfor er dette temaet grundigere behandlet her enn konstruksjon av filtre.
2.6. Valg av samplingsfrekvens Nyquist-kriteriet er bare begynnelsen på den prosess man må gjennom for å finne en egnet sam plingsfrekvens. Steilheten i de filtre som fins idag tvinger konstruktørene til å heve samplingsfre kvensen over Nyquist-frekvensen. Jo lavere samplingsfrekvens, jo bedre for forbrukeren mediets kostnader er nemlig direkte proporsjonale med samplingsfrekvensen, og samplingsfrekvenser nær to ganger 20 kHz er derfor fornuftig. I profesjonell bruk må man kunne operere med forskjellige avspillingshastigheter for å kunne korrigere tonehøyden. Når man reduserer hastig heten på en digital opptaker faller samplingsfrekvensen fra båndet, og figur 2.18 viser at med en minimal samplingsfrekvens kan den første speilfrekvensen bli lav nok til å passere rekonstruksjonsfilteret. Hvis man hever samplingsfrekvensen uten å forandre filterresponsen, kan hastighe ten reduseres uten at dette problemet oppstår. Derfor må opptakere med variabel hastighet, vanligvis med faste hoder, benytte en høyere samplingsfrekvens. Respons til rekonstruksionsfilter
Normal samplingfrekvens F Respons til rekonstruksjonsfilter
Hørbar speiling
Lavhastighets samplingfrekvens
Respons til
Høyhastighets
Figur 2.18. Ved normal hastighet forhindrer rekonstruksjonsfilteret speilfrekvenser i basisbåndet, som i a. Når hastig heten blir redusert faller samplingsfrekvensen, og et fast filter vil la en del av det nedre sidebåndet av samplingsfre kvensen passere. Dersom maskinens samplingsfrekvensen heves uten at filteret endres, unngår man problemet.
Tidlig i den digitale lydforskning var det vanskelig å lagre den nødvendige datarate på ca. en megabit pr. sekund pr. lydkanal. Magnetplater (harddisker) hadde den nødvendige båndbredden, men ikke kapasitet til lang innspillingingstid, og oppmerksomheten ble rettet mot videoopptake ren. I kapittel 8 får vi se at denne ble tilpasset lagring av lyddata ved å omforme dem til et pseudovideosignal - dette kunne overføre binært som svart og hvitt. Samplingsfrekvensen i et slikt system må forholde seg til delbildefrekvensen og delbildestrukturen i den TV-standarden som blir 30
brukt, slik at et antall sampler (heltall) kan lagres på hver brukbar TV-linje i delbildet. Uheldigvis fins det to standarder, 525 linjer ved 59,94 Hz og 625 linjer ved 50 Hz, og det er umulig å finne en frekvens som er en fellesnevner av de to og som er lav nok til å bruke som samplingsfrekvens. Man finner tillatt samplingsfrekvens i et pseudovideosystem ved å multiplisere delbildefrekvensen med antall aktive linjer i et delbilde (blanke linjer kan ikke benyttes) og igjen multiplisere med antall sampler i en linje. Ved omhyggelig valg av parametre er det mulig å benytte 525/59,94eller 625/50-video med bare en liten differanse i samplingsfrekvens. I 59,94 Hz-video er det 35 blanke linjer, det blir igjen 490 linjer pr. bilde eller 245 linjer pr. delbilde for sampler. Hvis man lagrer tre sampler pr. linje, blir samplingsfrekvensen: 59,94 x 245 x 3 = 44,0559 kHz
I 50 Hz-video er det 37 blanke linjer, altså 588 aktive linjer pr. bilde, eller 294 pr. delbilde, slik at samplingsfrekvensen blir:
50,00 x 294 x 3 = 44,1 kHz Forskjellen mellom disse er 0,1 %. Dette betyr at man for enkelte formål kan spille inn ved den ene frekvensen og spille av ved den andre. Disse to frekvensene blir brukt i forbruker PCM-omformere tilsvarende EIAJ-formatet, som foretar seks sampler pr. linje for stereolyd, og tillater bruk av en videospiller for salgslandets videoformat, ettersom man regnet med at forbrukeren ville ha behov for å benytte samme videospil ler til vanlig videoinnspilling som til PCM-lyd. Compact Disc’ens samplingsfrekvens ble 44,1 kHz. Selv om CD ikke har noen videokrets, er utstyret som brukes for å lage CD-masterbånd basert på video, og bestemmer således samplings frekvensen. Merkelig nok går de videospillere som brukes i CD-produksjon på 525/60,00 og ikke 59,94 Hz, så samplingsfrekvensen blir:
60 x 245 x 3 = 44,1 kHz
Den pussige situasjon oppstår at det er mulig å synkronisere en 60 Hz-basert videospiller for CDoriginalopptak til PAL eller SECAM-systemet ved 50 Hz via samplingsfrekvensen, men ikke til 59,94 Hz NTSC. Ettersom man på et så tidlig tidspunkt hadde opprettet disse samplingsfrekvensene, var det na turlig å foreslå høyere frekvenser til profesjonelt bruk som hadde et enkelt omregningsforhold til dem. Argumentet var at digital konvertering av samplingsfrekvens dermed blir enklere. De profe sjonelle frekvenser på 50,34965... kHz og 50,4 kHz får man ved å multiplisere de pseudovideofrekvenser som tidligere ble utledet med 8/7. For linjer til FM stereo kringkastingssendere med 15 kHz frekvensbåndbredde er en sam plingsfrekvens på 32 kHz mer enn tilstrekkelig, og er nå en EBU-standard. Den profesjonelle samplingsfrekvens på 48 kHz ble foreslått fordi den hadde et enkelt forhold til 32 kHz. Den var langt nok over 40 kHz for variabel avspillingshastighet, og hadde et enkelt forhold til PAL klokkefrekvens som gjorde det mulig for digitale videoopptakere å lagre et hensiktsmessige antall på 960 lydsampler pr. videodelbilde. Det arbeid som ble lagt ned i variable samplingsfrekvenskonvertere (se kapittel 4), viste at det ikke lenger var nødvendig med enkle forhold mellom samplingsfrekvenser. Slik ble 48 kHz godkjent som samplingsfrekvens i profesjonell lydbehandling. Fordi man unngår forringelse ved kopiering er digitale piratinnspillinger vanskelige å skille fra originalen. Av den grunn presset plateselskapene på for at digitale opptakere for forbrukeren og Compact Disc’er skal ha forskjellig samplingsfrekvens. RDAT-formatet i forbrukerversjon kan bare spille inn ved 48 kHz, og ved 44,1 kHz bare spille av, slik at programvare for Compact Disc kan utgis på forhåndsinnspilte RDAT-bånd. Den digitale samplingsfrekvenskonverteren er rela tivt kostbar, og selv om en piratorganisasjon skaffet seg en, ville forhåndsinnspilte RDAT-bånd på 48 kHz vekke mistanke. Ideelt sett hadde det vært best med bare en samplingsfrekvens, men av praktiske og økonomi ske grunner opererer digital lyd idag med tre frekvenser: 32 kHz for kringkasting, 44,1 kHz kun 31
for gjenspilling av CD/EIAJ/RDAT og 48 kHz for profesjonell/digital VTR/RDAT- innspilling og -avspilling.
2.7. Grunnleggende digital til analog konvertering Vi vil først diskutere det motsatte av kvantiseringsprosessen, siden ADC’er ofte benytter DACer i feedbacksløyfer. Det er to hovedmåter å oppnå et analogt signal fra PCM-data på. Den ene er å kontrollere binær-veide strømmer og summere dem - den andre er å kontrollere den tidslengde en fast strøm flyter inn i en integrator. De to metodene blir satt opp mot hverandre i figur 2.19. De ser enkle ut, men praktiske begrensninger gjør at de ikke kan benyttes til lydformål i denne form. I figur 2.19c flyter binærkoden nesten over, og alle lavordens strømkilder er på. I figur 2.19d er den binære ver dien øket med en, og bare den sterkeste (mest signifikante) strømkilden er på. Denne strømmen må være lik summen av alle de andre pluss verdien av den svakeste (minst signifikante) strømkil den, og nøyaktigheten må være bedre enn en minst signifikant strøm. I dette enkle fire-bits ek sempelet er den nødvendige nøyaktighet bare en til seksten, men for et seksten bits-system ville den være en til 65 536, eller ca. 0,0015 %. En slik grad av nøyaktighet er nesten umulig å oppnå, og ikke minst opprettholde ved aldring og temperaturendringer. Integratorkonverteren i dette fire bits-eksemplet vises i figur 2.19e. Den trenger en klokke til telleren som kan telle opp til maksimumsverdien på mindre enn en samplingsperiode. Dette vil være mer enn seksten ganger samplingsfrekvensen. I et seksten bits-system ville klokkefrekvensen imidlertid måtte være 65 536 ganger samplingsfrekvensen, eller ca. 3 GHz. Det er tydelig at en forbedring må til for at noen av disse konvertertypene kan anvendes for lyd.
Figur 2.19. Elementær konvertering, a.Veiet strøm DAC. b.Tidsstyrt integrator DAC. c. Strømgjennomgang ved binærverdi 0111. d.Strømgjennomgang ved binærverdi 1000. e. Integrator teller opp over femten klokkesykluser ved binærverdi 1111.
En metode å produsere svært nøyaktige strømmer på er dynamic element matching. I figur 2.20 ser vi at en strømkilde forsyner to motstander som skal være like. På grunn av fremstillingstoleranse og avvik er de to imidlertid ikke helt like, og strømmen blir bare tilnærmelsesvis delt mel lom dem. Et par vendere setter hver motstand i serie med hver utgang. Gjennomsnittsstrømmen i hver utgang vil da bli lik, forutsatt at arbeidssyklusen på bryterne er nøyaktig 50 % . Dette opp nås enkelt i en del-på-to krets. Strømgjennomsnitt oppnås ved hjelp av kondensatorer av normal 32
Figur 2.20. Dynamic element matching. a. Hver motstand tilbringer halve tiden i hver strømvei. b.Den gjennomsnittlige strøm i begge veier vil være like hvis arbeidssyklusen er nøyaktig 50 %. c.Typisk monolittisk løsning. Merk at klokkefrekvensen er vilkårlig.
t/2
7/4
Til neste trinn
Figur 2.21. Når man kobler strømdelerne fra figur 2.20 i kaskade, lages en binærveiet serie av strømmer.
k?d b 3 Plasse5e flere sllke del-på-to trinn etter hverandre oppnås en binærveiet serie av strømkilder, se figur 2.21.1 praksis kan man oppnå en reduksjon i antall trinn ved hjelp av et mer innviklet brytersystem. Dette gir strømmer i forholdet 1:1:2 ved å dele strømmen i fire veier og a mate to av dem til en utgang, som vist i figur 2.22. En fordel ved denne fremgangsmåten er at man ikke trenger noe trimming i fremstillingen, og dette gjør den attraktiv for masseproduksjon bor a unnga gjensidig påvirkning mellom trinnene i strømveide konvertere, må strømmene ko bles ti jord eller virtuell jord med vendebrytere. Seriemotstanden i disse bryterne er en feilkilde spesielt MSB en. som lar mest strøm passere (MSB = Most Significant Bit) (2) En løsning for 33
Figur 2.22. Mer innviklet dynamic element matching-system. Fire styresignaler (1,2. ,3,4) med arbeidssyklus på 25 % lukker bryterne med tilsvarende tall. To signaler (5,6) har 50 % arbeidssyklus, som resulterer i at to strømdeler går til høyre utgang. Altså deling 1:1 2.
Negative supply
Serial input data
Data strobe
Counter clock
Conversion start
Figur 2.23. Forenklet diagram av Sony CX-20017. Vi ser strømkildene av høy og lav orden (lH og /, ) og tilknyttede tidsstyringskretser. Den nødvendige integrator er ekstern.
34
Figur 2.24. I en integratorkonverter er utgangsnivået bare stabilt når opptellingen avsluttes. En analog bryter er nødvendig for å isolere opptellingen fra etterfølgende kretser. Bryteren kan også benyttes for å lage et PAM (pulsamplitudemodulert) signal med flatere frekvensrespons enn et zero-order hold-signal (trappe signal).
monolittiske konvertere er å produsere brytere med areal proporsjonalt med den veide strømmen, slik at spenningsfallet over alle bryterne er likt. Feilen kan da fjernes med en passende offset. I figur 2.23 og 2.24 ser vi den praktiske anvendelse av integratorkonverteren, hvor man benyt ter to strømkilder i forholdet 256 til 1 - den største blir tidsstyrt av samplets høye byte og den min ste av den lave byte. Den nødvendige klokkefrekvens er redusert med en faktor på 256. Enhver unøyaktighet i strømforholdet vil forårsake feil, men det er enklere å få dem til å følge hverandre i monolittisk utstyr. Integratorkondensatoren må ha lav dielektrisk absorbsjon, og operasjonsfor sterkeren må ha høy inngangsimpedans for å forhindre ulinearitet. Integratorens utgangsnivå vil være konstant når strømkildene er slått av, og en analog bryter vil da lukkes slik at et resamplet utgangssignal fremkommer. Når utgangspulsen er ledet til rekon struksjonsfilteret blir kondensatoren utladet med en annen bryter for å foreberede neste konverte ring. Konverteringstellingen må skje på mindre enn en samplingsperiode for å gi rom for resamplings- og utladningsfasene. En klokkefrekvens på ca. 20 MHz passer for en 16 bits 48 kHzenhet, som gir opptellingen 12,8 ps og 8 ps til resampling og nullstilling.
2.8. Grunnleggende analog til digital konvertering Mange av de ADCene som blir beskrevet her trenger en en viss tid for å utføre sin funksjon, mens et sample av inngangssignalet bare varer et øyeblikk. Løsningen er å benytte en track/hold-krets, som vi ser i enkel form i figur 2.25. Når bryteren er lukket, følger utgangen inngangen, og når bryteren åpner holder kondensatoren signalets spenning i det øyeblikket. I praksis har denne kretsløsningen for store mangler til at den kan benyttes til lyd. Spesielt resulterer kondensatorens oppladningstid sammen med bryterens seriemotstand i en lang stabiliseringstid. Virkningen kan gjøres mindre ved å plassere bryteren i en tilbakekoblingssløyfe, som vist i figur 2.25b, siden bry terens seriemotstand da vil bli dividert med bufferens råforsterkning. Det stilles store krav til buf-
35
ferforsterkeren, siden det kreves tilstrekkelig råforsterkning adskillig over lydområdet for å sikre at prosessen alltid blir kontrollert av tilbakekoblingen. Når bryteren åpner, vil den mi nste endring i inngangssignalet forårsake at bufferen går i metning, og den må kunne ta seg inn igjen raskt. Til bakekobling reduserer bryterens seriemotstand, men lekkasjemotstanden må være høy nok til å hindre inngangssignalet i å påvirke den aktuelle spenning. Impedansen som belaster kondensato ren må være høy nok til å forhindre et fall i samplespenningen vesentlig mindre enn ett kvantiseringsnivå.
Figur 2.25. a.Den enkle track/hold-krets vi ser her har dårlig frekvensrespons, da motstanden i FETen danner et LPfilter sammen med kondensatoren. 1 b er FET-motstanden nå i en tilbakekoblingssløyfe og blir uten betydning, forutsatt at den venstre operasjonsforsterkeren aldri slipper opp for forsterkning eller spenningssving.
Figur 2.26. Virkningen av samplingstidspunktets jitter på støy, og beregning av nødvendig nøyaktighet for et seksten bits-system. a. En stigende spenning samplet med jitter har feil proporsjonalt med stigningen, b. Når jitter blir fjernet av senere kretser, dukker det opp feil som støy lagt til samplene. 1 et seksten bits-system er det 216 Q, og maksimal steilhet ved 20 kHz er 20 000 ir x 2'6 Q/sekund. For at jitter skal være uten betydning, må støyen være mindre enn 1/2 Q, altså er tidspunktets nøyaktighet t ’ multiplisert med maksimal steilhet = Pi Q eller 20 000 tr x 2"- Qt' = '/2 Q f =------------------ 1___________ = 121 ps. 2 x 20 000 x
36
æ
x 216
Klokka som styrer bryteren må ha minimal jitter (tidsustabilitet), ellers kan støy bli overlagret på sampleverdiene. Dette illustreres i figur 2.26, hvor et varierende signal blir samplet. Gal tidsstyring på grunn av klokkejitter gjør at feil spenning blir samplet. Virkningen øker med graden av endring i inngangsspenningen, og derfor avhenger støyen av inngangsspekteret - altså en slags modulasjonsstøy. Det er vanskelig å fastsette toleransen for klokkejitter, siden forutsetningene i verste tilfelle krever en nøyaktighet på ca. 100 ps! Opamp
1
Track
ill
iJitter
Hold
Figur 2.27. Karakteristikken til track/hold-kretsen med tilbakekobling i figur 2.25b. Her vises de viktigste feilkilder.
Figur 2.27 viser et track/hold sekvensforløp med de forskjellige kilder til unøyaktighet. Track/hold-trinnet er ytterst vanskelig å konstruere, på grunn av den nøyaktighet som kreves for lydbruk. Spesielt er det vanskelig å imøtekomme spenningsfallspesifikasjonen i et system på mer enn seksten bits’ nøyaktighet. Når slike flaskehalser dukker opp er det fristende å prøve å finne en alternativ metode for å unngå problemene. Dette alternativet finner man i oversampling. En konverters generelle prinsipp er at forskjellig kvantiserte spenninger sammenlignes med det ukjente analoge inngangssignalet inntil man finner den nærmeste kvantiserte spenning. Den til svarende binærkoden blir utgangssignalet. Flashkonverteren er antagelig den enkleste tilgjengelige teknikk for PCM- og DPCMkonvertering. Vi ser prinsippet i figur 2.28. Terskelspenningen for hvert kvantiseringsnivå skaffes
Figur 2.28. Flashkonverteren. la har hvert kvantiseringsnivå sin egen komparator, og dette gir kurveformer som i b. Man trenger en prioritetskoder for å konvertere komparatorutgangene til en binær kode.
37
til veie med en motstandskjede som blir forsynt med en referansespenning. Denne kan varieres for å bestemme inngangens følsomhet. Det er en spenningskomparator forbundet med hver refe ransespenning, og den andre inngangen til alle disse er forbundet med den analoge inngangen. Inngangsspenningen bestemmer hvor mange av komparatorene som vil få en sann utgang.
Figur 2.28 (forts.). I c finner vi en typisk åttebits flashkonverter som først og fremst er ment for videobruk (fra TRW).
Siden du trenger en komparator for hvert kvantiseringsintervall, får du f.eks. 255 binære komparatorutganger i et åtte bits system, og du må bruke en prioritetskoder for å konvertere disse til en binær kode. Selv om det i prinsippet er en enkel konstruksjon inneholder det mange kretser, og i praksis kan den bare utføres som en integrert krets. Et seksten bits system ville trenge 65 535 komparatorer - man kan altså ikke anvende disse konvertererne direkte til lydkonvertering, selv om de blir brukt i DPCM og oversamplingskonvertere. Det analoge signalet må mate mange inn ganger, og en driver med lav impedans er viktig for å hindre at inngangens stigetid blir for lav. Flashkonverterens enorme hastighet er en stor fordel i oversampling. Man trenger ingen track/hold-krets, siden beregning av alle bits skjer samtidig, og man unngår spenningsfall.
38
Figur 2.29. Enkel opptellings ADC sammenligner DAC-utgang med inngang. Tellingen stoppes når DAC-utgangen akkurat overstiger inngangssignalet. Selv om denne metoden er nøyaktig er den alfor langsom for digital lyd.
Du kan redusere antall komponenter ved å kvantisere på serieform. Den mest primitive måte å skape forskjellig kvantiserte spenninger på er å forbinde en teller med en DAC, som vist i figur 2.29. Den trinnvise spenning du da får sammenlignes med inngangssignalet, og blir brukt til å stoppe telleren når DAC-utgangen akkurat har oversteget inngangssignalet. Denne metoden bru kes imidlertid ikke, da den er meget sen, og det fins en mye raskere metode som heller ikke er særlig mer innviklet. Ved bruk av trinnvis tilnærming blir hver bit testet, først MSB. Hvis inn gangssignalet er større enn halve området, blir MSBen holdt igjen og brukt som grunnlag for å teste neste bit som igjen blir holdt igjen hvis inngangssignalet overstiger % av området, o.s.v. An tall avgjørelser er lik antall bits i ordet og ikke antall kvantiseringsintervaller, som i forrige eksem pel . En ulempe ved den suksessive tilnærmingskonverteren er at de minst signifikante bitene blir beregnet sist, når spenningsfallet er på sitt verste. Fig. 2.30 og 2.31 viser at spenningsfall kan føre til at en trinnvis tilnærmingskonverter begår store feil under visse omstendigheter.
Figur 2.30. Suksessiv tilnærming tester hver bit etter tur, først den mest signifikante. DAC-utgangen sammenlignes med inngangssignalet. Hvis utgangen er under inngangen p) blir biten til 1 - hvis den er over inngangen (X) blir den til 0.
A-D-konvertering kan også utføres ved hjelp av en dobbelt strømkilde. DAC, i et tilbakekoblet system. Hovedforskjellen er at de to strømkildene må virke sekvensielt og ikke samtidig. Figur 2.32 viser en seksten bits-anvendelse hvor track/hold-kretsens kondensator også brukes som opptellingsintegrator. Systemet virker på følgende måte: Når track/hold FETen skrus av, holder kondensatoren C samplespenningen. To strømmer med forholdet 128:1 kan tømme kondensato ren. Takket være dette forholdet blir den minste strømmen brukt til å bestemme de syv minst sig-
39
8Q
Bits
Figur 2.31. To fallende track/hold-signaler (heltrukken og stiplet linje) som er forskjellig med ett kvantiseringsintervall Q - dette resulterer i konverteringer som er 4 Qfra hverandre. Spenningsfall kan altså ødelegge en konverters monotonisitet. Signaler på lavt nivå (nær tallsystemets middelområde) er spesielt sårbare.
Neste klokkepuls etter -1280 er passert
Figur 2.32. Dobbelopptellings ADC med track/hold-kondensator som integrator.
40
nifikante bitene, og den største strømmen til å bestemme de ni mest signifikante. Strømmene blir forsynt av strømkilder i forholdet 127:1. Når begge løper sammen blir den produserte strømmen 128 ganger den fra den minste kilden alene. Dette betyr at strømmen kan forandres bare ved å skru av den største kilden istedet for å forsøke en omkobling. Når begge strømkilder er tilkoblet går telleren inntil kondensatorspenningen er falt under refe ransen på -128 Q i komparator 1. Ved neste tidsutløp skrus den største strømkilden av. Det er vik tig å vente på neste tidsutløp, for da kan den største kilden bare løpe i hele klokkeperioder, noe som vil holde integratoren tilbake med hele deler av 128 Q. Integratorspenningen vil overskride referansen på 128 Q, og den gjenværende spenning vil være mindre enn 128 Q og bli målt ved å telle hvor lenge den minste strømkilden løper før integratorspenningen når null. Dette kalles restutvidelse. Knekken i integratorsteilheten forsvarer den alternative tittel girkonverter. Hvis man følger opptelling helt ut i konverteringsprosessen, må track/hold-kretsen stabilisere seg tidsnok til neste konvertering. I dette seksten-bits eksemplet trenger høyordenskonverteringen en maksi mal telling på 512, lavordenskonverteringen 128. Totalt skulle dette bli 640. Hvis man lar track/hold-kretsen operere i 25 % av samplingsperioden, ville en 48 kHz konverter måtte klokkes ved ca. 40 MHz. Dette er betydelig raskere enn det som trengs for en DAC.
2.9. Svakheter ved konvertere En ADC kan ikke bli mer nøyaktig enn den DAC den inneholder. På grunn av høyere operasjonshastighet og track/hold-prosessens svakheter, blir det gjerne større signalforringelse med en ADC enn en DAC. De to har samme overføringsfunksjon, siden de bare skiller seg fra hverandre i operasjonsretning. Derfor kan man bruke den samme terminologi for å beskrive manglene ved begge. Figur 2.33 viser overføringsfunksjoner man får ved de vanligste konverterfeil: a. Offsetfeil. Det virker som om en konstant er lagt til det digitale signalet. Dette har ingen virk ning på lydkvaliteten med mindre offsetvirkningen er svært stor, og det ville vise seg i for tidlig klipping. DAC-offset har liten betydning, mens ADC-offset er uheldig, ettersom det kan forårsa ke et hørbart dunk hvis du redigerer mellom to signaler med forskjellig offset. Offsetfeil kan an nulleres ved å utligne konverterutgangen digitalt og føre den tilbake til den analoge inngangen som en liten kontrollspenning. Alternativt kan man benytte et digitalt høypassfilter. b. Forsterkningsfeil. Overføringsfunksjonens steilhet er ikke korrekt. Siden konvertere refere rer seg til den ene enden av området, forårsaker forsterkningsfeil en offsetfeil. Forsterkningsstabilitet er antagelig den minst viktige faktoren i en digital lydkonverter, siden ører, måleapparater og forsterkningskontroller er logaritmiske. c. Linearitet (også kjent som integrert linearitet.) Overføringsfunksjonens avvik fra en rett linje (når vi overser kvantiseringstrinnene). Det har akkurat samme betydning som linearitet i analoge kretser - dersom den er utilstrekkelig får man harmonisk forvrengning. Undergrupperinger av ulinearitet er differensiell ulinearitet, som er den mengde tilstøtende kvantiseringsintervaller av viker i størrelse, og monotonisitet, som er et spesielt tilfelle av differensiell ulinearitet. Ikkemonotonisitet betyr at utgangssignalet ikke øker med en økning i inngangssignal. Figur 2.34 viser hvordan dette kan skje. Med en konverterinngangskode på 01111111 (127 desimalt), vil konverterens syv lavstatus strømkilder være på. Den neste koden er 10000000 (128 desimalt), hvor bare den åttende strømkilden virker. Hvis strømmen denne gir er for liten, kan det analoge utgangssig nalet for 128 være mindre enn den for 127. Hvis noe utstyr har bedre enn Q linearitet, må det være monotonistisk. d. Absolutt nøyaktighet. Forskjellen mellom faktisk og ideelt utgangsnivå ved et gitt inngangs nivå. For lyd er dette mindre viktig enn linearitet. Hvis f.eks. alle strømkildene i en konverter en drer seg prosentvis like mye som funksjon av temperaturen, vil man fortsatt få linearitet selv om den absolutte nøyaktighet driver.
41
Figur 2.33. De viktigste konverterfeil (heltrukken linje) sammenlignet med perfekt overføringsfunksjon (stiplet linje). Disse grafiske fremstillingene gjelder for ADC er og DACer, og aksene er ombyttelige - hvis den ene er valgt til å være analog, blir den andre digital.
125 126 127 128 129 130
(c)
Figur 2.34. a. Ekvivalent krets for DAC med 127"' inngang. b.DAC med 128"’ inngang. Ved overgang fra 127 til 128’", må en strømkilde være akkurat 1 større enn summen av alle lavordenskildene. Hvis 1281 er for lite, vil man få et resultat som vist i c. Dette er ikke-monotonisitet.
2.10. Oversamplingteori Informasjonen i et analogt signal er todimensjonal. Tidligere så vi at det antall nivåer som kan de fineres utvetydig, representerer en dimensjon, og båndbredden den andre. Figur 2.35 viser at det er et areal som er produktet av båndbredden og signal/støyforholdet uttrykt lineært. Vi ser videre at samme mengde informasjon kan overføres i en kanal med 6 dB mindre signal/støyforhold der som båndbredden blir fordoblet, med 12 dB mindre signal/støyforhold dersom båndbredden blir firedoblet, o.s.v., forutsatt at modulasjonssystemet som blir brukt er perfekt. Denne teorien forut sier at hvis et lydsignal blir spredt over en mye større båndbredde, som f.eks. ved bruk av en FM kringkastingssender, vil signal/støyforholdet på det demodulerte signalet være høyere enn i den kanalen det passerer, og dette er virkelig tilfelle. Videre forutsier teorien at stereo FM vil få mer sus, siden to lydkanaler bruker samme senderbåndbredde, hver med bare halv informasjonskapasitet, slik at den vil miste 6 dB av signal/støyforholdet. I praksis er det ennå litt verre, fordi proses sen ikke er perfekt. Informasjonen i et analogt signal kan overføres ved å bruke et analogt modulasjonssystem i en hver kombinasjon med båndbredde og signal/støyforhold som gir passende kanalkapasitet. I digi tal lyd vil et signal som bare har to tilstander bli brukt - nemlig en binær kanal - og det trenger bare et dårlig signal/støyforhold, men en tilsvarende stor båndbredde. Det er nyttig å undersøke informasjonskapasitet i det digitale området. I figur 2.36 ser vi flere eksempler. Et enkelt binært siffer kan bare ha to tilstander, og kan derfor bare overføre to stykker informasjon, f.eks. «ja» eller «nei». To binære sifre kan tilsammen ha fire tilstander og kan derfor overføre fire stykker informasjon, f.eks. «vår, sommer, høst eller vinter», som er to stykker infor-
42
Figur 2.35. Antall nivåer som kan defineres i et spenningsforhold bestemmer informasjonsmengden til enhver tid. Båndbredden bestemmer takten informasjonen kan overføres med - slik er den totale informasjonskapasitet produktet av lineær signal/støyforhold og båndbredde. Hvis et gitt signal i a blir perfekt modulert, kan det overføres i en kanal med halve signal/støyforholdet (-6 dB) dersom båndbredden blir fordoblet, eller med en fjerdedel av signal/støyforholdet (-12 dB) dersom båndbredden blir firedoblet.
masjon pr. bit. Tre binære sifre i gruppe kan ha åtte kombinasjoner og overføre åtte stykker infor masjon, f.eks. «do re mi fa so la ti eller do», som er nesten tre stykker informasjon pr. siffer. Jo lengre man fører dette prinsippet, jo større er nytten. I et seksten bits system er hver bit verdsatt til 4K stykker informasjon. Når man snakker om informasjonskapasitet er det alltid mer effektivt å bruke kombinasjoner av lange binære ord enn å sende enkle bits for hvert stykke informasjon. Dette er en av grunnene til at PCM er mer populært enn deltamodulasjon, til tross for at sistnevnte er enklere å implementere. PCM gjør ganske enkelt mer effektiv bruk av den binære kanalens ka pasitet. Informasjonsteori er nødvendig for å forstå oversampling. Lagrings- eller overføringssystemet er vanligvis PCM, hvor samplingsfrekvensen er litt mer enn to ganger lydbåndbredden. I konver terne vil samplingsfrekvensen være høyere, på grunn av de fordelene vi tidligere har fastslått i konstruksjonen av analoge filtre. Det er andre fordeler, fordi når samplingsfrekvensen økes, anty-
0 = Nei 1 = Ja
00 01 10 11
= = = =
Vår Sommer Høst Vinter
000 001 010 011 100 101 110 111
do re mi fa so la te do
0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111
0000
0 1 2 3 4 5 6 7 8 9 A B C D E F
1 1 1 1 1
1 1
1 1
1 1 1 1 1
1 31
Antall bit
1
2
Informasjon pr. ord
2
4
3
Digitale lydsample verdier
4
1 FFFF 16
■ W
Informasjon pr. bit
8
16
65536
-n U 2
2
~3
4
4096 —
Figur 2.36. Informasjonsmengden pr. bit øker uproporsjonalt når ordlengden øker. Det er alltid mer effektivt å bruke de lengst mulige ordene ved lavest mulig ordrate. Det er klart at seksten-bits PCM er 2048 ganger så effektivt som deltamodulasjon. Oversamplete data er også ineffektive å lagre.
43
X X x x
(x = 1 eller 0) Frekvens F
।
x x x
x x
x x
x x i x
2F
। x i x
x x
Frekvens
Frekvens 4/-
Figur 2.37. Informasjonsraten kan holdes konstant når frekvensen blir fordoblet ved å fjerne en bit fra fra hvert ord. 1 alle tilfellene her er det 16 F. Merk at bitraten i c er den dobbelte av den i a. Datalagring i oversamplet form er ineffektivt.
der informasjonsteorien at samplenes ordlengde kan reduseres. Figur 2.37 viser det omvendte til felle av figur 2.36. Informasjonshastigheten er holdt konstant, og ettersom samplingsfrekvensen fordobles, kan en bit fjernes fra ordlengden. Ved bruk av oversampling kan ikke bare problemene rundt analoge filtre overvinnes, men konverternes ordlengde blir også redusert, og de blir enklere å konstruere. Legg merke til at teorien bare forutsier det som er mulig, den gir ingen garanti for suksess. Oversampling betyr ganske enkelt å heve samplingsfrekvensen. Ytterligere mekanismer er nødvendige for å dra fordel av ordlengdereduksjonen.
2.11. En oversampling DAC La oss tenke oss et system som oversamplinger med en faktor på 4. Hvis man begynner med en seksten bits PCM, vil 4 x oversampling kunne benytte en fjorten bits-konverter, men bare der som ordlengden blir redusert optimalt. Enkel avkorting av ordlengde gir samme resultat som om den originale lyd til å begynne med var blitt kvantisert til færre nivåer. For hver bit man mister, oppnår man samme mengde forvrengning med et nivå 6,02 dB høyere. Enkel avkorting gir altså ikke de resultater som informasjonsteorien forutsa. Den avrundingsmekanismen som blir brukt i oversampling sprer forvrengningsproduktene fra avkortingsprosessen over hele oversamplingsspekteret - derfor er forvrengingseffekten i basisbåndet bare et utsnitt av det hele. Utsnittet er det omvendte av oversamplingsfaktoren. I vårt 4 X eksempel heves forvrengningen med 12 dB hvis vi fjerner to bits, men den blir spredd over et spekter som er fire ganger så stort, og reduseres derfor igjen med de samme 12 dB. Ordlengden er redusert ved en utvidelse av opprundingsteknikken. Den feil som er forårsaket av den foregåen de avkortingen overføres til neste, slik at gjennomsnittet av de to feilene blir mindre. Siden sam plingsfrekvensen er mye høyere enn normalt, vil utjevningsprosessen ha funnet sted når signalet er kommet tilbake til basisbåndlyden. Figur 2.38 viser at den akkumulerte feilen kontrolleres ved å legge de bitene som ble oversett i avkortingen til neste sampling. I dette eksemplet vil avrun dingsmekanismen produsere et utgangssignal på 01110111, forutsatt stabilt inngangssignal. Hvis dette blir lavpassfiltrert, resulterer tre enere og en null i et nivå på % bit, akkurat det vi ville opp nådd med direkte konvertering av hele den digitale inngangen. Informasjonskapasiteten er altså opprettholdt selv om to bits er blitt fjernet. Denne prosessen kalles gjerne noise shaping. Dette er imidlertid en feilaktig benevnelse, for hvis man ikke klarer å utføre disse skrittene, blir resulta tet harmonisk forvrengning. Uttrykket tidsutjevning brukes også for å beskrive denne type oppløsningsøkning. I det oversamplingssystemet som brukes i Philips Compact Disc-spillere er åpningseffekten i DACen benyttet som en del av rekonstruksjonsfilterresponsen, sammen med et tredje ordens 44
Tre bit inn Feil inn
En-bit ut
011 +00 .. 011 L_1
011 r- +11 ■ 110 [ J
011 r—- +10
011 r— +01
101 1 1
100 ll
I__
L_J
011 r-~ +00 -■1 011 1 1
L_
r—- Etc.
1__
0- - —i— - -1------- —1 — - -0-
Figur 2.38. Ved å legge den feilen man fikk ved avkorting til neste verdi, blir oppløsningen av tapte bits opprettholdt i utgangens arbeidssyklus. Avkorting av 011 av to bits ville her gitt uavbrutte nuller, men systemet gjentar 0111, 0111, som etter filtrering vil gi et nivå på tre firedelers bit.
Bessel-filter. Utjevning av frekvensresponsen skjer av det digitale filteret som produserer de oversamplede data. Bruken av digitale filtre blir beskrevet i kapittel 4, og her fremgår det at deres frekvensrespons er proporsjonal med samplingsfrekvensen. Hvis en digital spiller går på redu sert hastighet, vil det digitale filterets respons automatisk bli redusert og hindre speilfrekvenser i å passere rekonstruksjonsprosessen. Hvis oversampling ble vanlig, ville behovet for 48 kHzsamplingsfrekvensen være overflødig.
2.12. Oversampling ADC’er Bruken av oversampling for å utvide ADC’ens oppløsning har begrensninger ut i fra informasjonsteori, men det er vanskeligere å nærme seg grensen i ADC’er enn i DAC’er. Hvis du bruker en perfekt konverter, vil ikke oversampling i det hele tatt øke systemets oppløs ning, siden en perfekt konverter overser alle endringer i inngangssignalet innen et kvantiseringsintervall, og det er derfor ingen hjelp i å foreta sampling oftere. Tidligere så vi at bruken av dither gjør en konverter lineær, slik at inngangsendringer som er mye mindre enn kvantiseringsintervallet vil reflekteres i utgangssignalet. Man må ta i bruk dither for å gjøre forvrengningen mindre i vanlige konvertere. Oppløsningen kan ikke økes i ADCer uten at man legger et eller annet signal til den analoge inngangen. Figur 2.39 viser en hvitstøy, «dithered», konverter som er oversamplet med en faktor på fire. Siden dither er tatt i bruk riktig, er det grunn til å benevne det uønskede signalet som støy. Støyeffekten utvider seg over hele basisbåndet helt opp mot Nyquist-grensen. Hvis basisbåndbredden reduseres med oversamplingsfaktoren fire tilbake til den originale analoge inngangssignalets båndbredde, blir støybåndbredden også redusert med en faktor på fire, og støyeffekten blir en fjerdedel av det som lages av konverteren. En fjerdedels støyeffekt innebærer halvparten av støy-
4 x utgangs båndbredde
Utgangsbåndbredde
Figur 2.39. i denne enkle oversamplede konverteren benyttes 4 X oversampling. Når konverterutgangen blir lavpassfiltrert, reduseres støyeffekten til en fjerdedel, som uttrykt i spenning er 6 dB. Denne metoden er ikke-optimal, og benyttes ikke.
45
spenningen, slik at signal/støyforhold i dette eksempelet er øket med 6 dB, tilsvarende en ekstra bit i konverteren. Informasjonsteorien sier at en oversamplingsfaktor på fire ville gi en utvidelse på to bits, så man kan slutte at denne metoden ikke er optimal. Å dele støyen på en større faktor er den eneste mulighet som er igjen, siden alle de andre para metrene er fastsatt av den nødvendige signalbåndbredde. Reduksjonen av støyenergi som et resul tat av reduksjon i båndbredde er bare proporsjonal dersom støyen er hvit, det vil si at den har konstant energi pr. båndbreddeenhet, det vil si at den har et lineært effektspektrum. Hvis støyen fra konverteren gjøres ikke-lineær, vil det ikke lenger være oversamplingsfaktoren som støyenergien blir redusert med. Målet er å konsentrere støyeffekt til høye frekvenser, slik at støyenergien blir redusert med mer enn oversamplingsfaktoren etter lavpassfiltrering i det digitale område. Her er det naturlig å benytte sigma-DPCM-konverteren - tidligere har vi sett at dens støyspekter sti ger med 6 dB pr. oktav. Figur 2.40 viser et oversamplingssystem som benytter en sigma-DPCMkonverter og en oversamplingsfaktor på fire. Samplingspekteret viser at støyen er konsentrert ved frekvenser utenfor lyddelen av oversamplingsbasisbåndet. Siden den skalaen som er brukt her be tyr at støyeffekten er representert av området under kurven/diagrammet, er det det området som er under kurven etter filteret som viser reduksjonen i støyeffekt. Ved å bruke de relative områdene på like trekanter ser vi at reduksjonen er skjedd med en faktor på seksten. Den tilsvarende støyspenningsreduksjon ville være en faktor på fire, eller 12 dB i et hvitstøysystem akkurat som ved fire gangers oversampling, men på grunn av stigningen på 6 dB pr. oktav i spektralfordelingen av støyen, vil signal/støyforholdet bli 3 dB verre ved øvre del av audiobåndet. Dette tapet på 3 dB blir det samme uansett oversamplingsfaktor - derfor blir tapet mindre betydningsfullt jo større oversamplingsfaktoren er. Den støy som blir tilført av den vitale dither-prosessen vil være den samme uansett, og det digitale lavpassfilteret vil tilføre noe støy, slik at stigningen på 6 dB pr. ok tav vil jevne seg ut. Utførelsen av et slikt system er derfor ikke så langt unna informasjonsteoriens grense for en «dithered» konverter. Et system som oversampler seksten ganger ved hjelp av denne teknikken gir en oppløsningsutvidelse på 21 dB. Antall nødvendige bits for å uttrykke denne høye re oppløsningen er fire, og systemets effektive kvantiseringsintervaller er gjort en sekstendedel av størrelsen på kvantiseringstrinnene. Mengden av hvitstøy-dither på den analoge inngangen må reduseres tilsvarende. Adams har beskrevet et system som er basert på disse prinsippene ved å bruke en oversamplingsfaktor på 128 for å oppnå en ekte atten-bits konvertering med eksepsjonell faselinearitet. Så langt har utviklingen av lydkonvertere antagelig kommet i skrivende stund.
4 x oversampling
Basebåndstøy = Vie effekt
Figur 2.40. 1 en L-DPCM eller L-S-konverter øker støyamplituden med 6 dB pr. oktav, støyenergien med 12 dB pr. oktav. 1 denne 4 X oversamplingskonverteren reduserer det digitale filteret båndbredden med fire, men støyenergien reduseres med en faktor på seksten. Støyspenningen faller med en faktor på 4, eller 12 dB.
46
2.13. Spektralkoding Studier er gjort i emnet spektral innspilling, men teknikken er i øyeblikket på begynnerstadiet. Grunnprinsippet er at istedet for å forsøke å spille inn trykkbølgeformen, som forandrer seg med frekvenser opp mot 20 kHz, blir lydspekteret spilt inn fordi det forandrer seg sjeldnere. Kodingsprosessen består av periodisk å beregne inngangssignalets spektrum eller Fourier-transformasjon. og lagre det digitalt som en serie senterfrekvenser og nivåer. Ved gjenspilling benyttes spektralinformasjonen til å kontrollere frekvens-synthesizere som gjenskaper lydtrykkbølgen. I praksis blir ørets maskeringsevne utnyttet slik at frekvenskomponenter på lavt nivå som er til ste de i kurveformen, men som øret ikke kan oppfatte, blir utelatt fra innspillingen. Lagringsbehovet blir således sterkt redusert i forhold til konvensjonell digital lydinnspilling. Den datareduksjon man oppnår er lovende, siden den er enorm. Problemet for øyeblikket er imidlertid den beregningsmengde som er nødvendig i en tradisjonell digital datamaskin for å utlede Fouriertransformasjon 18 Spektral innspilling kan ikke utføres i sann tid, siden flere timers CPU-tid trengs for å få noen få minutter med lyd. Hvis man finner nye metoder for å beregne konvertering, f.eks. ved hjelp av optiske teknikker, kan spektral innspilling bli mer betydningsfull.
KAPITTEL 3
Digital lydkoding og behandling
I konverteringsprosessen omdannes det analoge inngangssignalet til en binærkode. I dette kapit let skal vi se at valg av kode er styrt av kravene til digital signalbehandling for å utføre funksjoner som nivåmålere, dempeledd og operasjonsforsterkere. Emnet tidsbasiskorreksjon er uvanlig i analog lyd, men grunnleggende i digital innspilling, og blir grundig behandlet her. Vi tar også med en kort innføring i binær aritmetikk og logikk for de som berører emnet for første gang.
3.1. Innføring i logikk Den binære logikkens styrke er at signalet bare har to tilstander, og atskillige mengder støy og for vrengning godtas før tilstanden blir usikker. Ved hvert logisk element sammenlignes signalet med en terskel, og kan derfor passere et hvilket som helst antall trinn uten å bli forringet. Hvis man måler de to signalstadiene med et oscilloskop, er de simpelthen to spenninger som vanligvis be tegnes som høy og lav. De aktuelle spenningsnivåer avhenger av hvilken type logiske kretser og forsyningsspenning som benyttes. I logikken betyr ikke disse nivåene noe særlig, man trenger ba re å kjenne til dem når forskjellige logiske familier møtes eller når man skal tilkobles omverde nen. Logikkonstruktøren er bare interessert i betydningen av disse spenningene. På samme måte som den elektriske kurveform fra en mikrofon representerer lydtrykk, representerer kurveformen i en logisk krets sannheten av en eller annen fremstilling. Siden det bare fms to tilstander, kan betydningen bare være sann eller usann. Konstruktøren kan bestemme hvilken av de to spenningstilstandene som skal være signalets sanne tilstand. Når en høy spenning representerer en sann logisk betingelse og en lav spenning representerer en usann betingelse, kalles systemet posi tiv logikk eller høy sann logikk. Dette er det vanlige systemet, men noen ganger representerer den lave spenningen den sanne betingelsen og den høye spenningen den usanne. Dette kalles negativ logikk eller lav sann logikk. Bare man vet hvilken logisk konvensjon som er i bruk, virker begge systemene like bra. Negativ logikk finnes ofte i logikkfamilien TTL, fordi det i denne teknologien er lettere å la ■ strømmen gå til jord, enn å få den fra kraftforsyningen. Figur 3.1 viser at dersom det er nødvendig å forbinde flere logiske elementer til en felles databuss, slik at alle kan kommunisere med hveran dre, benytter man et åpent kollektorsystem. Her får man høye nivåer fra pull-up motstander og de logiske elementene forskyver bare felleslinjen. Dersom man benytter positiv logikk, vil pullup motstandene gjøre at felleslinjen får en absurd sann tilstand når ikke noe utstyr er i drift. Be nytter man imidlertid negativ logikk, får felleslinjen en fornuftig usann betingelse når ikke noe utstyr bruker bussen. I logiske systemer kan alt sammensatt utstyr lages av kombinasjoner av noen få grunnleggende porter. Det er ingen vits i å bruke tid på å diskutere hvilke som er de virkelige grunnleggende, si den de fleste kan lages av kombinasjoner av andre. Tabell 3.1 viser de viktige enkle portene og deres avledningen og innfører de logiske uttrykk man bruker for å beskrive dem - disse kan sam menlignes med betegnelsen sannhetstabell. Figuren viser også det viktige faktum at når man be nytter negativ logikk, bytter ELLER-portfunksjonen med OG-portfunksjonen. Noen ganger lager man skjematiske framstillinger for å finne ut hvilken spenningstilstand som representerer den sanne tilstanden. I såkalt forsettlig logikk begynner og slutter et negativt logisk signal alltid med en «inverteringssirkel». Hvis man trenger en OG-funksjon mellom to negative logiske signa ler, blir den vist som et OG-symbol med inverteringssirkler på alle utganger, selv om den kompo nent som brukes blir en positiv logisk ELLER-port. Det er delte meninger om verdien av forsettlig logikk. Hvis det er nødvendig å overføre numeriske verdier langs den to-tilstands signalveien som er 48
Kontroll buss B
Figur 3.1. Når man bruker en åpen kollektordriver, kan flere signalkilder dele en felles databuss. Hvis man benytter negativ logikk, slår bussdriverne av sine utgangstransistorer med en usann inngang, slik at en ny driver kan kontrollere bussen. Dette vil ikke skje med positiv logikk.
beskrevet her, må man benytte det binære tallsystem med bare to symboler, nemlig 0 og 1. Positiv eller negativ logikk kan brukes om et numerisk binært signal på samme måte som om sannheten av et logisk binært signal. Normalt vil et høyt spenningsnivå representere et binært 1 og en lav spenning et binært 0. Desimaltall har flere kolonner som hver representerer forskjellige potenser av ti - i binær form bestemmer kolonneposisjonene potensen av to. Figur 3.2 viser noen binære tall og de tilsvarende i desimaler. Radikspunktet har samme betydning i binær form: Symboler til høyre for det representerer en halv, en kvart, o.s.v. Binærformen er hensiktsmessig i elektroni ske kretser, fordi de ikke blir slitne, men tall uttrykt binært blir veldig lange - det er kjedelig å skrive dem ned, og man kan lett skrive feil. Oktal og heksaksdesimal notasjon nyttes for å repre sentere binær form, fordi konvertering er så enkelt. Et binært tall blir delt inn i grupper på tre eller fire siffer - man begynner i den minst signifikante enden, og gruppene blir enkeltvis konvertert til oktale eller heksadesimale tall. Siden man trenger seksten forskjellige symboler i et heksadesimalt system, brukes bokstavene A-F for tallene over ni. Man trenger et antall binære siffer eller bits for å uttrykke et binært tall. Disse bitene kan over føres samtidig av flere signaler for å danne et parallelt system, som er mest hensiktsmessig inne i utstyr, eller de kan overføres en av gangen langs en enkel signalvei. Dette er langsommere, men hensiktsmessig for kabler mellom deler av utstyr fordi kontaktene trenger færre pinner. Når man benytter et binært system for å overføre tall på denne måten, kalles det et digitalt system.
49
Tabell 3.1 Sammenligning av de grunnleggende logiske porter.
Navn (positiv logikk)
Boolsk uttrykk
Symbol (positiv logikk)
Sannhetstabell
Utgangen er det motsatte av inngangen
I nve rte r
AMD
v
'
a Ai (OG)
Q=A • B
Q
B
NANU (Not AND) (NOG)
Q=A'B
------
0 P—
__
A +B
GR (ELLER) O =
A +B
NOR (Not OR) (NELLER)
Q = A®B
A
B
0 0 1 1
0 1 0 1
A
B
Q
0 0
0 1
1
0
G—T—q ____ 1 3)--------
1
Q
utgangen er sann -------0 kun når begge 0 innganger er sanne
1
1
1
1 1 1 0
A
B
Q
0 0 1 1
0 1 0 1
0
A
B
O
0 0 1 1
0 1 0 1
1 0 0 0
A
B
Q
0 0 1 1
0 1 0 1
0 1 1 0
------ ----- ---------' D
B
Exclusive OR (XOR) gate
Virkemåte
1 1
Utgangen er usann kun når begge innganger er sanne
Utgangen ei sann hvis en eller begge innganger er sanne
Utgangen er usann hvis en eller begge innganger er sanne
Utgangen er sann kun når inngangene er forskjellige
3.2. Binære koder Hovedhensikten med binære tall i lydbruk er å uttrykke sampleverdiene som representerer den opprinnelige analoge trykkbølgeform. Samplet vil inneholde et fast antall bits som bestemmer tallområdet. F.eks er det 65 536 forskjellige tall i et seksten bits-system. Hvert tall representerer en bestemt analog signalspenning, og man må passe på at signalet ikke går utenfor konverteringsområdet i løpet av konverteringen, for da blir det klippet. I figur 3.3 ser vi at tallområdet går fra 0000 heks i et enkelt system, som representerer den største negative spenningen, gjennom 7FFF heks, som representerer den minste negative spenningen, gjennom 8000 heks, som representerer den minste positive spenningen, til FFFF heks, som representerer den største positive spennin gen. Konverterens tallområde er i virkeligheten blitt byttet om slik at positive og negative spen ninger i et virkelig lydsignal kan uttrykkes i bare positive binære tall. Dette kalles offset binær, og er fullt ut akseptabelt der hvor signalet er blitt digitalisert kun for innspilling eller overføring fra ett sted til et annet, og deretter konvertert tilbake til analogt. Da behøver ikke kvantiseringsintervallene være lineære, hvis bare ADC’en og DAC’en har samme standard. I praksis er det kravene til digital signalbehandling som gjør både ikke-lineær kvantisering og offset binær uhen siktsmessig. 50
Binær 000000 000001 000010 000011 000100 000101 000110 000111 001000 001001 etc.
-JL922L 2
5
X
X
Oktal 00 01 02 03 04 05 06 07 _ 10 11 etc. 011 -011
3 x 1
64 8
Overflyt
•
3 x 1 S
Binær Oktal
= 17U
Det er ingen 8 eller 9 i oktal
Figur 3.2. a. Binær og desimal, b. I oktalsystemet, utgjør grupper på tre bits et symbol 0-7. c. 1 det heksadesimale system utgjør grupper på fire bits et sxmbol 0-F. Legg merke til hvor mye kortere tallet er i et heksadesimalt system.
51
f-if^ur 3.3. Ojfset-bmær koding er enkelt, men skaper problemer i digital lydbehandling. Det brukes derfor sjelden. Max +
Spenningsområde i analogt system
Max —
Figur 3.4. Demping av et lydsignal foretas rundt midtområdet.
Figur 3.4 viser at en lydsignalspenning refererer seg til midtområdet. Signalnivået måles etter hvor langt kurveformen avviker fra midtområdet og demping, forsterkning og miksing finner sted i midtområdet. Miksing krever at man summerer sampleverdier fra to eller flere forskjellige kil der - summasjonskretser forutsetter at alle bitene stammer fra samme kvantiseringsintervall, slik at summen av to sampleverdier representerer summen av de to opprinnelige analoge spenninge ne. Dette er ikke tilfelle i ikke-lineær kvantisering, og slike signaler kan ikke uten videre behand les. Figur 3.5 viser at dersom man legger to offset-binære samplestrømmer til hverandre for å utføre en digital miksing, blir resultatet en offset som kan føre til overflyt. På samme måte ser vi i figur 3.6 at man får ytterligere offset dersom man forsøker en demping på f.eks. 6 dB ved å dele alle sampleverdiene med to. Problemet er at offset binær refererer til den ene enden av området. Det man trenger er et tallsyster. som opererer symmetrisk rundt områdets sentrum. Toerkomplementsystemet har denne egenskapen, og den øvre halvdelen av det rene binære tall området er definert for negative tall. Hvis en ren binærteller øker konstant og tillates å flyte over, vil den gi alle tallene i området som tillates av antall tilgjengelige bits, og disse er tegnet rundt sir kelen i figur 3.7 for et fire-bits eksempel. I toerkomplement begynner imidlertid ikke tallområdet som dette representerer med null, men på motsatt side av sirkelen. Null er midtområdet, og alle tall med den mest signifikante biten satt anses negative. Vi kan altså si at toerkomplement nota52
Figur 3.5. Man vil få offset eller overflyt dersom man summerer to rene binære datastrømmer for å simulere miksing.
Figur 3.6. Resultatet av et forsøk på demping i ren binær kode er offset. Ren binær kode kan ikke benyttes i digital lydbehandling.
Figur 3.7. I dette eksemplet på en fire-bits toerkomplementkode, er tallområdet fra -8 til + 7. Legg merke til at den mest signifikante biten bestemmer polariteten.
53
sjon er en offset binær kode med den mest signifikante biten invertert. Man kan summere to sam pleverdier, hvor resultatet refererer seg til systemets midtområde - dette tilsvarer summering av analoge signaler med en operasjonsforsterker. Videre i toerkomplement notasjon kan man utføre binær subtraksjon ved bare å benytte logisk summering. Toerkomplementet blir summert for å utføre subtraksjon. Dette betyr at maskinvarens kompleksitet kan reduseres betydelig, siden man bare trenger et logisk minne. Av disse grunner er toerkomplement notasjon nesten utelukkende brukt i digital lydbehandling. a. Konvertering til toerkomplement fra binær Positive tall: summer ledende nuller for å bestemme fortegnsbit Eksempel: 101; = 5,„ = 0101!C Negative tall: legg ledende nuller til sisteia| ordlengde, inverter alle bitene, legg til en. Eksempel 1: 11; = 3,0— 0011 —1100 — 11012C = -3 legg til | f
ledende inverter 's93 1,1 nuller I 1, Eksempel 2: 100; = 41S-- 0100—1011 — 11002C = -4 b. Konvertering til binær fra toerkomplement Hvis MSB = 1 (negativt tall), inverter alle bits, legg til 1
I 1 Eksempel 1: 1001 — 0110— 0111 = -7.. | » !_____ } inverter 'e99 I 1 f । । Eksempel 2 : 1110 — 0001 — 0010 = -2.„ l_____ _J
(c)
4 4 0100 -6 = + (-6) = + 1010 -2 -2 1110 -8 1000 +3 = 0011 -5 1011 -3 1101 +6SQ11Q
3
0011 vv cc
Figur 3.8. a. Konvertering fra binær til toerkomplement. b.Toerkomplement til binær, c.Noen eksempler. d.Vedbruk av toerkomplement aritmetikk, summeres enkle verdier fra to kurveformer med hensyn til midtområde for å gi riktig miksefunksjon. e.Multiplisering med to, eller f. deling fire ved bitskifting fører til henholdsvis 6 og 12 dB fo rs terkningsendring.
54
Konvertering til toerkomplement er heldigvis en enkel prosess. Det fortegnsbestemte binære tallet som skal uttrykkes som et negativt tall skrives ned med nuller på begynnelsen hvis det er nødvendig for å fylle ut systemets ordlengde. Alle bitene blir så invertert for å danne enerkomplement, og en blir lagt til. For å komme tilbake til fortegnsbestemt binær trenger man ikke gjøre noe dersom den mest signifikante biten i toerkomplementtallet er usann. Hvis den mest signifi kante biten er satt, er fortegnet negativt, alle bitene blir invertert og en lagt til. Figur 3.8 viser noen eksempler på konvertering til og fra toerkomplement, og illustrerer hvordan man simulerer mikseprosessen ved å summere toerkomplementverdier. Her ser vi også dempeprosessen med 6 dB, der man deler sampleverdier i toerkomplement med to ved å flytte en plass til høyre. Dette er en kelt med positive tall - med negative tall må man ved det nødvendige høyreskift sette inn en ener til venstre for tallet, ikke en null. Hvis det i toerkomplement finnes et radiks-punkt, blir tall til høyre for det lagt til. F.eks. er ikke 1100,1 lik -4,5, det er -4 -I- 0,5 = -3,5.
3.3. Binær summering I figur 3.9 ser vi kretsen som er skal til for summering av binære tall. Man må ta to bits av gangen , fra samme posisjon i hvert ord - man begynner med den minst signifikante biten. Hvis begge er enere blir resultatet null, og det skjer en carry-out. En slik krets kalles en halvadderer (figur 3.9a), og den er hensiktsmessig for den minst signifikante biten i beregningen. Alle høyere trinn trenger en krets som kan godta en carry input og to datainnganger. Dette kalles en fulladderer (figur 3.9b). Flerbits fulladderere finnes i brikkeform, og har carry-in og carry-out tilkoblinger som gjør at de kan parallellkobles for å behandle lange ordlengder. Slike kretser passer også til å lage toerkomplement av et fortegnsbestemt binært tall, sammen med et sett inverterere. Addisjonsbrikken har et sett jordete innganger, og carry-in en er sann hele tiden, slik at den legger en ener til enerkomplementtallet fra invertoren.
(c)
Fif>ur 3.9. a. Halvadderer-, b.fulladdererkrets og sannhetstabell, c. sammenligning av fortegnsbits hindrer rundhopp på
addere rove rflyt ved å erstatte klippenivå.
55
Når man mikser ved å summere sampleverdier må man passe på at dersom summen av de to sampleverdiene er større enn tallområdet, blir resultatet klipping istedet for rundhopp. Hva man må gjøre ved toerkomplement avhenger av de to signalenes polariteter. Hvis et positivt og et nega tivt tall legges sammen, kan resultatet iallfall ikke være større enn tallområdet. Hvis to positive tall blir lagt sammen, er symptomet på positiv overflyt at den mest signifikante biten settes, og dette gir et feilaktig negativt resultat - en negativ overflyt resulterer imidlertid i at den mest signi fikante biten nullstilles. Overflytskontrollkretsen konstrueres for å oppdage disse to tilstandene, og erstatter det adderte utgangssignalet. Hvis begge signalenes MSB er null, blir begge tallene po sitive, hvis altså summen har MSB satt, blir resultatet erstattet med den maksimale positive kode (0111...). Hvis MSB for begge innganger er satt, blir begge tallene negative, og hvis summen ikke har noen MSB satt, blir resultatet erstattet med den maksimale negative kode (1000...). Disse til standene kan også forbindes til varselindikatorer. Figur 3.9c viser dette systemet i maskinvare. Den klippingen man får på overbelastningen er brå, og noen ganger er en PROM inkludert - den oversetter verdier rundt og utover maksimum til verdier under eller lik maksimum som er klippet på en mykere måte.
3.4. Nivåindikering Analogt utstyr har nivåindikering, og det vil i det digitale området også være nødvéndig å vise nivået på et signal. I analog lyd har man to hovedmetoder, «volume unit» (VU) og «peak program meter» (PPM) - de to skiller seg først og fremst fra hverandre i avlesningens integrasjonstid. For å gi en sann fremstilling av nivået på et lydsignal, må man benytte helbølgelikeretting for å fange opp positive og negative topper før enhver stigetid og tilbakeløpstid. Det er mulig å helbølgelikerette en strøm av sampler i toerkomplement. Dette ser vi i figur 3.10, hvor den mest signifikante biten i samplet blir undersøkt, siden den er fortegnsbiten. Hvis fortegnsbiten er usann, passerer de gjenværende bitene uten å bli forandret, men dersom den er satt blir tallet negativt, og alle de andre bitene blir invertert av de eksklusive ELLER-portene, for så å gå tilbake til fortegnsbestemt binært. Egentlig skulle man legge et ett-tall til resultatet, men den feilen man får ved ikke å gjøre det er så liten at man vanligvis overser den. Den produserte helbølgelikerettede strøm av sampler er en serie tall som angir hvor langt signalspenningen er fra null. Til lydbruk trenger man en logaritmisk forbindelse mellom nivå og indikasjon slik at nivåindikatoren kan kalibreres i dB relativt til et standardnivå. I analoge indikatorer bruker man ofte en diodes logaritmiske strøm/spenningsforhold, eller man kan gjøre markeringene på skalaen ulineære. Heldigvis er dette unødvendig med en digital likerettet samplestrøm. Hvis et tall fordobles i binær form trenger man akkurat en bit til for å overføre det. Siden en forsterkningsøkning på 6 dB (eller 6,02 dB for å være pinlig nøy aktig) fordobler sampleverdiene, vil det ta i bruk en ekstra bit i ordet. Alt man trenger å gjøre er å bestemme posisjonen på den mest signifikante biten i det demodulerte ordet, og man oppnår di rekte et digitalt logaritmisk nivå på 6 dB trinn. Det nivået man oppnår på denne måten vises gjerne på optoelektroniske kretser, slik som en LED-søyle eller en fluoriserende indikator. Det er femten bits i det likerettede ordet fra et seksten-bits system, og en femten-segments viser er derfor passende for å vise nivået. Imidlertid er det vanlig å dekode likerettede verdier som er veldig nær det digitale taket på alle enerne for å lyse opp en sekstende indikator. Denne er vanligvis rød og varsler at signalet er i ferd med å nå taket, eller allerede har nådd det, og muligens blir klippet. Stigetiden for et analogt instrument er et kompromiss mellom en ønsket verdi på 0 dB og den praktiske begrensning for en bevegelig spole som aksellereres. Optoelektroniske visere har ikke en slik treghet: Dermed kan stigetiden kortes ned til et minimum, nemlig en samplingsperiode. Det er normalt å forbinde de enkelte LED i en søyle slik at den mest signifikante LED gjør at alle under den også lyser opp. Dette re sulterer i en lyssøyle hvor lengden varierer med nivå. Et slikt enkelt system har en falltid på et sample, og lengre falltid må simuleres elektronisk. I figur 3.11 ser vi hvordan dette kan gjøres. Et skiftregister lastes med den mest signifikante bi ten i det likerettede ordet, og flyttes sakte nedover, slik at indikasjonen reduseres med ett 6 dB ni vå pr. trinn etter en enkelt toppsampling. Indikatorens tilstand blir sammenlignet ved hvert nytt sample med den mest signifikante biten fra det samplet. Hvis det nye samplet har lavere nivå enn 56
MSB (fortegn)
Toers komplement
_ ~ Til display
Figur 3.11. De likerettede sampleverdiene driver en serie ELLER-porter slik at inngangssignalet produserer en søyle av opplyste segmenter. Hvis det kommer en høyere verdi vil komparatoren gjøre at skiftregisteret laster og gir rask reaksjonstid. Hvis det ikke er noe inngangssignal, skifter registeret nedover for å gi en fallende nivåindikering.
det reduserte nivået fra den foregående toppen, skjer det ingenting. Hvis det nye samplet har et høyere nivå, blir den lastet inn i skiftregisteret. Skiftregisterets klokkefrekvens bestemmer falltidskonstanten. Hvis den er lang kan PPM-funksjonen simuleres - hvis den er kortere kan VUfunksjonen simuleres. I praksis er det mulig å få med det beste fra begge. I en kombinert VU/PPM digital nivåmåler, er PPM-avlesningen et enkelt opplyst segment som sakte flytter seg nedover med den lange PPM-tidskonstanten. På det samme displayet vises VU-nivået som en søyle av seg menter som blir belyst fra bunnen og oppover. I klanger og rolige partier er displayet som en van lig LED-søyle, men etter en kort transient vil søylens lengde trekke seg fort sammen og la det ene segmentet bli igjen lenger oppe på skalaen, og holde toppnivået. Virkningen er spesielt merkbar hvis man benytter forbetoning før sampling, siden dette vil gjøre at samplene synes å inneholde flere topper for med en digital indikator, og det er viktig å merke seg dette hvis man vil unngå klip ping. Indikatorer av dette slaget er ikke begrenset til bare digitale signaler, siden det er mulig å bruke dem på analoge signaler ved å benytte passende A-D-konvertere. Siden man trenger sam-
57
plene bare for å drive indikatoren, er konverterens musikalitet av liten betydning, og en instrumenteringstype vil være tilstrekkelig. Det har hersket noe uenighet om merkingen av digitale nivåmålere, men så snart man verdsetter de digitale systemene blir valget ganske innlysende. Dynamikkområdet til en digitalt overført lyd kan ikke overstige den øvre grense som er satt av den høyeste digitale kode som systemet gir, for utover den vil den klippe, og den nedre grense, hvor signalet vil bli borte i konverterens ditherstøy. En seksten-segments LED-indikator omfatter som beskrevet området på 6 dB-trinn, og man kan hevde at merking er unødvendig fordi lysene taler for seg selv. Det beste signal/støyforholdet får man når så mange segmenter som mulig er på bortsett fra det øverste. Det utstyret som bygges ved Decca Records og som brukes til klassisk innspilling og Compact Disc-produksjon, har ingen markeringer på sine nivåindikatorer i det hele tatt. Hvis man trenger markeringer på en digital nivåindikator, er det best å ha 0 dB på toppen, slik at alle nivåer er under det. Dette systemet benyttes på de digitale indikatorene på Studer og JVCopptakere. Begrunnelsen er som følger: En analog båndopptaker har et støynivå akkurat som et «dithered» digitalt system, men på toppnivåer blir signalet mer og mer forvrengt etter som man nærmer seg båndets metningspunkt. Nivåindikatorene på en analog opptaker viser ofte 0 dB på nivået rett under der denne forvrengningen oppstår, og nivåområdet mellom dette og metnings punktet kalles «headroom». Et digitalt system trenger ingen headroom, fordi det er helt lineært inntil klipping begynner. I teorien vil den beste innspillingen gjøres når det høyeste samplet akku rat når enden av kvantiseringsområdet, selv om den klippede toppen som forekommer nå og da, ikke er hørbar. Hvis man ikke trenger noen headroom, kan 0 dB like gjerne være på toppen av skalaen. Dette argumentet gjelder også for kringkasting, hvor nivået på de signaler som mates til senderne, må kontrolleres for å hindre klipping i AM og overmodulasjon i FM, fordi begge øker kanalbåndbredden utover de tillatte grenser. Siden utgangsnivået i et digitalt system ikke kan over stige de grenser som er satt av den høyeste sampleverdi som tillates av ordlengden, er det enkelt å ordne senderinngangens følsomhet for å oppnå full utstyring med et slikt signal, og overstyring kan ikke forekomme. Det er ikke nødvendig med noen headroom, og igjen skulle det ikke være noe i veien for at det maksimale nivå ikke skulle merkes med 0 dB.
3.5. Forsterkningskontroll Ved å bruke en digital nivåmåler kan man tilpasse en analog inngangsforsterkning for å gjøre en innspilling med maksimalt signal/støyforhold. Senere kan innspillingen spilles av og mikses med andre innspillinger - ønsket effekt kan bare oppnås dersom forsterkningen på hver innspilling kan stilles uavhengig. I digitale lyd kontrollerer man forsterkning ved å multiplisere hver sampleverdi med en fast koeffisient. Hvis denne koeffisienten er mindre enn 1, vil resultatet bli demping, hvis den er større enn 1, kan man oppnå forsterkning. Det er vanskelig å multiplisere med binære kretser. Man kan gjøre det ved gjentatte summeringcr, men dette er for langsomt til å være til noen nytte. I rask multiplisering, blir en av inngangene samtidig multiplisert med en, to, fire etc. ved hjelp av fast bitskifte. Figur 3.12 viser at de andre inngangsbitene avgjør hvilke av disse potensene som skal summeres for å gi sluttsummen, og hvil ke som skal overses. Multipliserer man med fem er det det samme som å multiplisere med fire, multiplisere med en og så summere de to produktene. Dette oppnår man ved å summere inngan gen til seg selv flyttet to plasser. Siden ordlengden da økes, blir det en eksponensiell økning i kompleksitet, så dette er et naturlig bruksområde for en integrert krets. Digital lyd ville antagelig ikke vært mulig uten slike brikker. I en digital mikser vil forsterkningskoeffisientene skrive seg fra manuelle fadere. Faderbevegelsene kan gjøres i sann tid, eller koeffisientene kan lagres på en diskett på et automatisert bord, eller på ett spor på en flersporsopptaker. Det er mulig å oppnå koeffisienter fra en analog fader ved å tilføre den en stabil DC-spenning og å digitalisere spenningen på sleperen, men det fins også direkte digitale fadere. Her blir et gitter flyttet med hensyn til flere lysstråler, en for hver bit i koef fisienten. Det stråleavbruddet som forårsakes av gitteret, blir overvåket av fotoceller. Det er ikke mulig å kode et slikt gitter rent binært, siden figur 3.13a viser at dette skaper transiente falske ko der på grunn av mekaniske toleranser. Løsningen er å bruke en ikke sekvensiell binærkode, hvor bare en bit endrer seg av gangen mellom tilstøtende tilstander. Slik unngår man transienter. En
58
A
Eksempel 101 x 011 1 x 01 1 +0 x 0110 +1 X01100
A x B
Figur 3.12. Oppbygning av rask multiplikator: Inngang A multipliseres med 1. 2, 4, 8 etc. ved hjelp av bitskifteteknikken fra figur 3.8e. Sifrene i B-inngangen bestemmer så hvilke multipler av A som skal summeres ved å tilkoble OG-porter mellom skifterne og addereren. Antall nødvendige porter blir enormt ved lange ord. 2
5
4
3
6
7
4 Falsk kode
6 Falsk kode (a)
1
0
1
0 t 1
1
7
1
1
6
1
1
1 t 0
0 t 1
5
1
0
4
1 t 0
1
0
3
0
1
2
0
1
0 1 1
1
0
0
0
1 t 0
9
1
8
1 t 0 0 t 1
1
1 1 0
1
0
(b)
Figur 3.13. a. Binær kan ikke brukes til posisjonskoder fordi mekaniske toleranser forårsaker falske koder, b. / Graykoden forandrer bare en bit seg mellom posisjonene (merket med pil), slik at man ikke får falske koder.
59
+v
fader
Gray kode fader posisjon
Binær fader posisjon
Figur 3.14. En enkel tokanalsmikser trenger koeffisienter til forsterkning av hver kanal. Disse kan skaffes ved; a. et konvensjonelt potensiometer tilknyttet ADC, b, digital fader og Gray-kode til binær konvertering, c. forsterkningsreguleringer lagret i et automatisk miksesystem.
slik kode er Gray-koden, som vi ser i figur 3.13b, og denne har en utstrakt til maskinkontroll. Den kan konverteres tilbake til binær form i en passende PROM, tilgjengelig som en standardbrikke. Til lydbruk trenger man en logaritmisk fader, og dette kan man få på to måter: PROM en kan pro grammeres til å konvertere direkte fra Gray-kode til logaritmisk binært, eller faderens gitter kan gjøres ikke-lineært. I figur 3.14 ser vi en enkel digital mikser, konstruert av de komponenter som er beskrevet i dette kapitlet. De to inngangssignalene multipliseres med koeffisienter for å kontrollere sine respekti ve nivåer, og summeres for å oppnå miksing. De to inngangenes samplingsfrekvenser må være helt like, og i samme fase - ellers vil ikke kretsen kunne summere på sample-til-sampiebasis. Hvis de to inngangssignalene skriver seg fra forskjellige kilder må de synkroniseres av samme hovedklokke. En innlysende vanskelighet er avspilling av en digital opptaker på feil hastighet for å justere tonehøyden. Når man skal endre hastighet forandres samplingsfrekvensen, og for å opp nå en standardfrekvens å mate en digital mikser på, trenger man en samplingsfrekvenskonverter for å unngå å gå tilbake til det an^egc. Det er ikke så vanskelig å synkronisere flere forskjellige digitale lydkilder for å oppnå samme samplingsfrekvens, men der hvor synkronisering også er nødvendig med video, blir det vanskelig på grunn av de mange videostandardene. Man må også tenke på systemets ordlengde. Hvis et sample blir dempet, utvikler den bits som er under radikspunktet. Hvis f.eks. en seksten bits sampleverdi blir dempet med 24 dB, vil sampleverdien bli flyttet fire plasser ned. Man må ha ekstra bits tilgjengelige i mikseren for å gi dette skiftet. Vanligvis opererer miksere med en intern ordlengde på ca. 24 bits. Når flere dempede kil der summeres for å gi den endelige miksing, blir resultatet en 24-bits samplestrøm. Siden utgangssignalet vanligvis må være av samme format som inngangssignalet, må ordlengden forkortes. Dette må gjøres meget omhyggelig. 60
3.6. Digital dither De ekstra lavordensbitene man får når en sampleverdi dempes bevarer signalets oppløsning og dither i den minst signifikante biten som gjør systemet lineært. Hvis flere slike samplestrømmer legges sammen, blir tilfeldighetselementet i lavordensbitene litt mindre enn den minst signifikan te biten i det forkortede ordet. Hvis ordet bare blir avkortet ved å overse lavordensbitene under den ønskede ordlengden, vil resultatet bli kvantiseringsforvrengning, fordi dither-komponenten er fjernet. Samplingsordlengden må forkortes for å erstatte det tapte dither, noe man kaller digital dithering. Man trenger en pseudotilfeldig sekvensgenerator, som sammenlignes med den siste bi ten som blir holdt tilbake og de som er under den. Som vi ser av figur 3.15, runder sammenlignin gen opp eller ned for å avgi den minst signifikante biten i det forkortede ordet, som har en lineariserende tilfeldig komponent. Den pseudotilfeldige sekvensens sannsynlige tetthet er vik tig. Vanderkooy og Lipshitz fant ut at ensartet sannsynlig tetthet gir støymodulasjon hvor den til feldige komponentens amplitude varierer som en funksjon av samplingsamplitudene. Den trekantede sannsynlige tetthetsfunksjon som oppstår når man legger sammen to pseudotilfeldige sekvenser, eliminerer støymodulasjonen for å avgi en signaluavhengig hvitstøykomponent i den minst signifikante biten. Det er viktig at man går frem på denne måten når samplingsordlengden skal reduseres.
Figur 3.15. For å forkorte et samples ordlengde på riktig måte må den minst signifikante biten inneholde et tilfeldig element for å hindre kvantiseringsforvrengning. Ved å sammenligne den trekantede sannsynlige pseudotilfeldige sekvensen med lavordensbitene, inneholder den resulterende minst signifikante biten opplysninger fra disse bitene i form av en arbeidssyklusmodulasjon.
3.7. Miksing og kryssfading I noen bruksområder er det nødvendig med kryssfading i det digitale formatet, slik som f.eks. ved skjøting av tape for opptakere med stasjonære hoder. Figur 3.16a viser at dette kan gjøres med to multiplikatorer, den ene matet med et sett synkende koeffisienter og den andre med stigende koef fisienter. I praksis er dette bortkastet, fordi en enkel ommøblering av uttrykket for kryssfading danner en ny ligning med bare ett produkt. Dette ommøblerte uttrykket kan implementeres med bare en multiplikator, se figur 3.16b. I praksis har ikke en digital mikser en multiplikator for hver inngang. Multiplikatorbrikker er kostbare, men kan virke mye raskere enn de relativt lave frekvenser som blir brukt i lydsampling. Figur 3.17 viser at det blir mer økonomisk med et tidsdelings bussystem med bare en multiplikator etterfulgt av en akkumulator. I en samplingsperiode blir samplene etter tur tilført den laveste inn gangen i multiplikatoren, samtidig som den tilsvarende koeffisienten tilføres den øvre inngangen.
61
K koeffisient
Kanal B
(b)
Figur 3.16. Kryssfading i a krever to multiplikatoren Omstrukturering i b krever bare en multiplikator.
Produktene fra multiplikatoren samles opp i løpet av samplingsperioden, slik at akkumulatoren til slutt har summen av alle produktene, nemlig det digitalt miksede samplet. Prosessen gjentar seg så for neste samplingsperiode. For å forenkle det at mange signaler deler felles kretser, kan man bruke såkalt tretilstands logiske kretser. Disse kretsene har mulighet for lav og høy utgangsstatus, men det kan også få en høy impedansstatus på utgangene under kontroll av et eksternt sig nal. Utgangene fra slike kretser kan parallellkobles, og tilstanden på parallellforbindelsen vil være tilstanden til den kretsen hvor utgangen er aktiv. Bare en utgang kan være aktiv av gangen, og dette sikres av en sekvenskrets som er tilknyttet alle kretsene.
3.8. Kompandering Et viktig trekk ved digital lyd er at kanalens signal/støyforhold kan fastsettes ved å velge passende ordlengde. Derfor trenger ikke profesjonelle digitale opptakere å benytte kompandering, og man unngår enhver diskusjon om subjektive virkninger som f.eks. støymodulasjon. Imidlertid er bi traten direkte proporsjonal med samplingsordlengden. og man må muligens benytte kompande ring der hvor det er restriksjoner i kanalbåndbredde eller lagringskapasitet. Når det gjelder redigering på digitale lydopptakere med roterende hode basert på videospillere, må man finne det eksakte redigeringspunkt ved hjelp av et minne, fordi videospillere ikke uten videre kan spille i variabel hastighet eller baklengs. For å kunne lagre en brukbar tidsperiode i et minne som ikke er altfor kostbart, benytter man ofte kompandering, spesielt i eldre maskiner, da minne var mer kostbart. I Video-8 systemet må PCM-lyden dele båndet med et analogt videosignal, og siden det er et forbrukerprodukt, er forbruket av bånd viktig. Kompandering benyttes i dette systemet. Kringkasting over lange distanser er begrenset av den datarate som er tilgjengelig i det digitale telefonnettverk. Ved hjelp av kompandering kan BBC sende seks høykvalitetslydkanaler langs te62
Input A
Input B
Input C
E1
Input D
Akkumulator ut
E2
E3
GA x A + GA x A + GA x A GB x B + GB x B GC x C
E4 GA x + GB x + GC x + GD x
A
B Ut
C
D
Inngangsbuss -——
Figur 3.17. En muliplikator/akkumulator kan tidsfordeles mellom flere signaler ved å la den operere på et multippel av samplingsfrekvensen. I dette eksemplet utføres fire multiplikasjoner i løpet av et samplingsintervall.
lefonkanalene med 2048 kbits/s. Kompanderte sampler benyttes også i lyden til TV-sendinger man plasserer to PCM-sampler i linjesynkroniseringspulsene, slik at samplingsfrekvensen blir det dobbelte av TV-linjefrekvensen. På samme måte som sampling og kvantisering er rettvinklede prosesser, fins det kompanderingsprosesser i både tid og spenning. Samplene kan komprimeres individuelt eller man kan gruppere samplene ved siden av hverandre og komprimerer dem som en blokk. Komprimering av et sample kan gjøres på to beslektede måter. I omregningstabellkompandering bestemmer det verdiområdet et sample befinner seg i den faktor den skal multipliseres med. F.eks. kan en sampleverdi med den mest signifikante biten nullstilt multipliseres med to for å flytte bitene opp en plass. Hvis de to mest signifikante bitene blir nullstilt kan verdien multipliseres med fire, o.s.v. Man legger så til konstanter slik at den kom primerte sampleverdiens område kan bestemme den nødvendige utvidelse. I flyttallnotasjon (figur 3.18), er et binært tall representert som en mantisse, som alltid er en bi nær del med en ener til høyre for radikspunktet, og en eksponent, som er den av de to potenser mantissen må multipliseres med for å få fastpunkttallet. Det er klart at signal/støyforholdet er de finert av antall bits i mantissen. I figur 3.19 ser vi at dette vil variere som en sagtannfunksjon av signalnivået, siden den beste verdien som man får når mantissen nesten flyter over, blir erstattet med den dårligste verdien når mantissen flyter over og eksponenten økes. Flyttallnotasjon er mest nyttig når flere tilstøtende sampler samles i en blokk slik at den høyeste verdien bestemmer en felles eksponent for hele blokken. Denne teknikken kaller vi flyttallblokkoding (figur 3.20). En slektning av denne prosessen er den «nesten øyeblikkelige kompandering» i BBC’s NICAMsystem. der den høyeste sampleverdien i en tusendedels sekunds blokk benyttes for å bestemme
63
M
(a)
o
0 • 1
M
(1)10 0 ' 10 1
0
1
0
10
E i I
7 (b)
6
0
5
0
4
0
3
0
I •
2
0
1
I I
1
0
1
(1)0 11 > 0 11
1
M
Figur 3.18. I dette eksemplet på flyttallnotasjon, kan radikspunktet ha åtte posisjoner som er bestemt av eksponenten E. Punktet er plassert til venstre for den første «1», og de neste fire bitene til venstre for mantissen M. Siden mantissens mest signifikante bit alltid er 7, trenger den ikke alltid å lagres.
Inngangsnivå (dB under maks nivå) Konverteringseksponent
-42 -36 -30 -24-18-12-6
-— 0
1
2
3
4
5
6
0
7
Figur 3.19. I dette eksemplet på en åtte bits mantisse, tre bits eksponentsystem, er det maksimale signal/støyforhold 6 dB x 8 = 48 dB ved maksimalt inngangsnivå på 0 dB. Når inngangsnivået faller med 6 dB blir konverterstøyen likevel den samme, og signal/støyforholdet faller til 42 dB. Ytterligere reduksjon i signalnivå gjør at konverteren skifter område (punkt A i diagrammet) ved å øke den analoge inngangens forsterkning med 6 dB. Signal/støyforholdet gjenopprettes, og eksponenten endrer seg fra 7 til 6 for å gi samme forsterkningsendring i mottakeren. I dette enkle systemet vil støymodulasjonen være hørbar. Ipraksis trenger man et lengre mantisseord.
Felles eksponent
Figur 3.20. Flyttall blokkoding. En felles eksponent av fire bits E0-E3 er lagret i fire bytes som gir rom for 4x7 bitmantisser. For å komme tilbake til fastpunkt vil alle fire bli multiplisert med den samme eksponenten.
komprimeringsgrad. Slike teknikker gir en økning i programmodulert støy, men dette kan være uhørbart på grunn av ørets maskeringseffekt.
3.9. Tidsbasiskorreksjon I kapittel 1 så vi at en sterk side ved digital teknologi er at det er enkelt å oppnå forsinkelse. Nøyak tig kontroll av forsinkelse er det vesentlige ved tidsbasiskorreksjon - det er nødvendig hver gang den momentane ankomsttid eller frekvens fra en datakilde ikke passer mottakerstedet. I magne tisk innspilling vil mottakerstedet nesten alltid ha perfekt regelmessig tidsstyring, nemlig genera toren for avspilling av samplingsfrekvens, og tidsbasiskorreksjonen består i å rette opp signaler utenfor båndet med jitter med den stabile referansen. I Compact Discen forårsaker spindelutløp 64
variasjoner i dataraten fra pickupen. Opptakere med roterende hode får impulsiv jitter fordi hode ne treffer båndet. Alle digitale lydopptakere, inkludert diskettstasjoner samler data i blokker for å forenkle redigering og feilkorreksjon, og også for å få hodene til å bytte mellom blokker i maski ner med roterende hode. På grunn av mellomrommene mellom blokkene kommer dataene i bruddstykker når de blir spilt av, men må føres til utgangskonverterne i en ubrutt strøm med sam plingsfrekvensen. På denne måten blir wow og flutter ikke målbar. I datamaskiners harddisker, som blir benyttet i digitale lydredigeringssystemer, kommer datae ne fra blokkene i relativt konstant rate, men godtas ikke nødvendigvis i stabil rate av logikken på grunn av konflikt med bruken av busser og minne mellom de forskjellige deler av systemet. Da trenger man ennå en tidsbasisretter, og den kaller vi vanligvis en silo. Selv om det er enkelt å gjennomføre forsinkelse, er det ikke mulig å fremskynde en datastrøm. De fleste maskiner er ustabile når det gjelder korrekt tidsstyring - utgangssignalet blir enten for tidlig eller for sen. Siden informasjonen ikke kan fremskyndes i retteren, bare forsinkes, er løs ningen å kjøre maskinen forut for sanntid. I dette tilfelle vil korrekt tidsstyrte utgangssignaler trenge en nominell forsinkelse for å komme på linje med referansetidsstyringen. Tidlige utgangs signaler vil få mer forsinkelse, sene signaler mindre.
3.10. RAM tidsbasiskorreksjon Det er tre hovedmåter å oppnå forsinkelse på i det digitale området: Skiftregistre, lagre og «firstin-first-out»-kretser (FIFO). Det grunnleggende lagerelementet i logiske kretser er latchen (latch = midlertidig lager for en bit eller et ord), som er konstruert av to porter og kan settes eller nullstilles. En mer nyttig variant er en latch av D-typen som husker inngangens tilstand når en separat klokke enten forandrer til stand (for en flanketrigget type) eller etter at den resettes (for en nivåtrigget type). D-latchen fåes vanligvis med fire eller åtte enheter i en brikke. Man kan lage et skiftregister ved å forbinde dem til hverandre, en etter en, slik at data forsinkes av antall trinn i registeret. Når man skal lagre et stort antall bits, er krysskoblede latcher mindre egnet, fordi de er vanske ligere å implemetere i integrerte kretser enn dynamisk halvlederminne. I en type store halvlederminner (RAM = Random Access Memory) blir databitene lagret som nærvær eller fravær av en ladning i en liten kondensator. Ladningen blir utsatt for lekkasje, og verdien vil være uviss etter noen få tusendels sekunder. Der hvor den nødvendige forsinkelse er mindre enn dette, betyr ikke denne lekkasjen noe, fordi dataene vil leses ut før de får anledning til å reduseres. Der hvor lengre forsinkelser trengs må slike lagre fornyes med jevne mellomrom - man leser av bitverdien og skriver den tilbake til samme plass. De fleste moderne RAM-brikker har oppdateringskretsløp innebygget. Store RAM’er lagrer tusenvis av bits, og det er klart uprak tisk å ha en forbindelse til hver av dem. Istedet må den ønskede biten adresseres før den kan leses eller skrives. Størrelsen på brikkepakken begrenser antall tilgjengelige pinner, slik at store lagre derfor bruker de samme adressepinnene mer enn en gang. Bitene blir ordnet internt i rader og ko lonner, og rad- og kolonneadressen spesifiseres sekvensielt på de samme pinnene. Figur 3.21 vi ser noen eksempler på forskjellig lagringsbrikker. Skiftregister og halvlederminner gir en ganske lik måte å behandle forsinkelse på, siden man kan tenke seg et skiftregister som et lager hvor adressene øker automatisk når de blir klokket. Da taraten og den maksimale forsinkelse bestemmer kapasiteten på det lageret som trengs. Figur 3.22 viser at lageradresseringen skjer ved hjelp av en teller som flyter over uten stans fra slutten av la geret og tilbake til begynnelsen, slik at lageret blir som en slags ring. Skriveadressen bestemmes av de innkommende dataene, og leseadressen av de utgående dataene. Lageret må derfor kunne lese og skrive på samme tid. Skiftet mellom lesing og skriving krever ikke bare en datamultiplekser, men også en adressemultiplekser. Vanligvis vil skiftet mellom lesing og skriving skje ved hjelp av signaler fra den stabile siden av tidsbasiskorreksjonenen (figur 3.23), som i avspilling fra en digitalopptaker vil være lesesiden. Den stabile siden av lageret vil lese et sample når det er nød vendig, og skrivingen er sperret i den perioden. På mange bruksområder kan inngangsdataene imidlertid ikke avbrytes, så en liten buffer blir installert foran lageret, og dette fylles opp når skri vingen sperres, og tømmes igjen når skriving er tillatt. Alternativt kan lageret deles opp i blokker, slik at når en blokk leses, skrives en annen. På den måten unngår man problemet.
65
(b)
Reset
Figur 3.21. Digitale halvleder lagertyper. / a kan en databit lagres i en enkel sette-resette latch, som er lite brukt fordi D-latchen i b kan lagre tilstanden på den enkle datainngangen når klokken inntreffer. Disse kretsene kan lages med bipolare transistorer av FET, og kalles statiske lagre fordi de kan lagre ubegrenset. De har et stort effektforbruk. 1 c blir en bit lagret som en ladning i en potensialbrønn i substratet i en brikke. Den adresseres ved å forbinde bitlinjen med feltvirkningen fra ordlinjen. Den enkle brønnen hvor de to linjene krysser hverandre, kan så skrives eller leses. Disse kalles dynamiske RAM 'er fordi ladningen reduseres, og de må leses og skrives på nytt med jevne mellomrom.
Figur 3.22. TBC-lager blir adressert med en teller som flyter over med jevne mellomrom for å danne en ring. Lageret gjør at lesesiden er ikke-synkron med skrivesiden.
66
Referanseklokke
Figur 3.23. I et RAM-basert TBC, er RAM referansesynkront, og en skifter bestemmer når det skal leses og når det skal skrives. Under lesing samles asynkrone inngangsdata i inngangssiloen, og gir en skrivekommando til skifteren. Den vil så forårsake en skrivesyklus mellom lesesykluser.
3.11. FIFO tidsbasiskorreksjon Figur 3.24 viser hvordan en FIFO-brikke virker, i dagligtale kjent som en silo, fordi dataene blir tømt inn på toppen og tatt ut på bunnen når det trengs. Hvert trinn i brikken har et dataregister og litt logikk, inkludert en datagyldig eller V-bit. Hvis inngangsregisteret ikke inneholder data, vil den første V-biten tilbakestilles, og brikken vil gi signalet «inngang klar». Hvis det er data ved inngangen og de klokkes inn i første trinn, vil V-biten bli satt og «inngang klar»-signalet blir falskt. Imidlertid vil den logikken som er forbundet med neste trinn se at V-biten er satt på toppen, og hvis dens egen V-bit er nullstilt vil den klokke dataene inn i sitt eget register, sette sin egen V-bit og nullstille inngangs V-biten - man får «inngang klar» på nytt, og et nytt ord kan mates inn. Den ne prosessen fortsetter etter hvert som ordet flytter nedover i siloen til det kommer til det siste re gisteret i brikken. V-biten i siste trinn blir «utgang klar»-signalet, som forteller etterfølgende kretsløp at det er data som skal leses. Hvis ordet ikke blir lest vil neste ord som blir lagt inn kom me ned til trinnet ovenfor. Slik blir ord stablet opp på bunnen av siloen. Når et ord leses ut, må man ha et ytre signal som resetter V-biten i bunnen. «Utgang klar»-signalet blir nå falskt, og den logikken som er forbundet med det siste trinnet ser gyldige data ovenfor, og laster ordet ned når det blir klart igjen. Det nest siste registeret vil ikke ha noen V-bit satt, det vil se data ovenfor seg selv og bringe dem ned. Slik forplanter en tilbakestilt V-bit seg oppover brikken mens dataene glir nedover, nesten som et hull i en halvleder som går motsatt vei av elektronene. Silobrikker fås van ligvis i firebits ordlengder, men kan lett parallellkobles for å danne lengre ord. Silobrikker er asynkrone, og parallellkoblede brikker virker nødvendigvis ikke alle med samme hastighet. Det te problemet unngår man lett ved å «OG’e» sammen alle signalene som er inngangs- og utgangsklare og å parallellforbinde avtastingspulsene. Figur 3.25 viser en slik operasjon. En silo i et harddisksystem slipper data til og fra disken, som dreier i konstant hastighet (figur 3.26). Når disken leses begynner siloen å tømmes, oghvisdeterbusskonflikt, vil siloen begynne å fylles. Der hvor bussen er ledig, vil diskkontrollenheten forsøke å tømme siloen inn i lageret. Systemet kan dra fordel av blokkmellomrommene på disken, som inneholder etiketter, blokkstartere og redundans, for i disse områdene er det ingen data å overføre, og det blir et pusterom som gjør det mulig å tømme siloen før neste blokk. I praksis behøver ikke siloen være tom på begyn nelsen av hver blokk, forutsatt at den aldri blir full før overføringen er slutt. Hvis dette skjer, mis ter man noe data og funksjonen må avbrytes. Den blokken som inneholder silooverflyten vil vanligvis bli lest på nytt i neste runde. I avanserte systemer har siloen en slags peilestav, og kan
67
out
ready
Figur 3.24. Oppbygning av en F1F0 eller silobrikke. Rippel logikk kontrollerer datastrømmen nedover i siloen.
Figur 3.25. I dette eksemplet er en tyvebits ordlengde silo laget av fem paralelle FIFO-brikker. Den asynkrone rippelaksjon på FIFO en betyr at det er nødvendig å «OG ’e» sammen de «klare» signalene.
68
Asynkrone data fra minne
Figur 3.26. For å garantere at disken kan overføre data i sanntid i regelmessige intervaller (fastsatt av diskhastighet og tetthet), har siloen buffermulighet for den asynkrone operasjonen til lagringsprosessen. I a er siloen konstruert for en disklesing. Den samme siloen brukes i b til diskskriving.
avbryte CPU’en dersom dataene går for dypt. CPUen kan så innstille noe bussaktivitet for å gi diskkontrollenheten mer tid til å tømme siloen. Når disken skal skrives til må man sørge for å ha en uavbrutt datastrøm i hver blokk, fordi di sken ikke kan stoppe. Siloen blir fylt før disken forsøker å skrive, og diskkontrollenheten forsøker å holde den full. Alt går greit dersom ikke siloen blir tom før overføringen er ferdig. Figur 3.27 viser siloen på en typisk diskkontrollenhet med de multipleksere som er nødvendige for å plassere den i datastrømmen for lesing eller skriving.
overflyt (lese eller skrive)
Figur 3.27. Siloinnholdet under lesefunksjonene a synes annerledes enn innholdet under skrivefunksjonene b. I a forsøker den logiske kontrollenheten å holde siloen så tom som mulig, i b fyller den siloen på forhånd og forsøker å holde den full til lagerordtellingen flyter over.
69
KAPITTEL 4
Videregående digital lydbehandling
I kapittel 3 så vi på de viktige begrepene multiplisering, summering og forsinkelse, for disse er grunnleggende for all digital filtrering. I dette kapitlet vil vi forklare bruken av digitale filtre ved oversampling, konvertering av samplingsfrekvens og equalising. Vi vil også se på noen måter å realisere digitale miksebord og spesielle effekter på.
4.1. Faselinearitet En styrke ved digital signalbehandling er at filtrering kan utføres ved hjelp av stabil binærlogikk istedet for de spoler og kondensatorer man trenger i analoge filtre. I analog filtrering er frekvensresponsen den vanligste parameter, etterfulgt av faserespons og pulsrespons. De to sistnevnte er de vanskeligste å få riktig i et analogt filter. Figur 4.1 viser at testing av pulsrespons forteller mye om et filter. I et perfekt filter bør alle fre kvenser ha samme tidsforsinkelse - dette er gruppeforsinkel.se. Hvis ikke dette er tilfelle har man en gruppeforsinkelsesfeil. Siden en puls har et ubegrenset spekter, vil et filter som er matet med en puls skille de forskjellige frekvenser i tid dersom det har en gruppeforsinkelsesfeil.
Innsignal, høye og lave frekvenser i fase Gruppeforsinkelsesfeil
Figur 4.1. Gruppeforsinkelsessignaler som en funksjon av frekvens.
Ren forsinkelse vil forårsake en faseforskyvnmg proporsjonalt med frekvensen, og vi sier at et filter med denne egenskapen er faselineært. Pulsresponsen hos et faselineært filter er sym metrisk. Hvis et filter har gruppeforsinkelsesfeil, kan det ikke være faselineært. Det er nærmest umulig å lage et faselineært analogt filter, og mange filtre har et korreksjonstrinn for gruppeforsinkelse etter seg som ofte er like sammensatt som filteret selv. Det er ganske enkelt å lage et fase lineært filter i det digitale området, og fasekorreksjon blir unødvendig. Fordi signalet er samplet, opptrer alle digitale kanaler som lavpassfiltre som kutter av ved Nyquist-grensen, eller halve samplingsfrekvensen, samme hva responsen er ved lave frekvenser.
4.2. Sammenligning av FIR og IIR-filtre I figur 4.2 ser vi at filtre kan deles i to hovedklasser, i henhold til pulsresponsens egenskaper. «Finite-impulse response-» (FIR-) filtre er alltid stabile, og som navnet antyder reagerer de på en puls en gang, fordi de bare har en foroverrettet signalvei, og den tid filteret reagerer på en puls er begrenset, fast og allerede etablert. Lavpassfiltre og interpolatorer kommer inn under denne kategorien. «Infinite-impulse response-» (IIR-) filtre reagerer i prinsippet ubegrenset på en puls og er ikke ubetinget stabile, siden de har tilbakekobling fra utgangen til inngangen. Av denne 70
ut
(a) Finite impulse response (FIR)
(b) Infinite impulse response (IIR)
Figur 4.2. Et FIR-filter a reagerer bare en gang på en inngangspuls, mens utgangssignalet på et IIR-filter b fortsetter ubegrenset, som et døende ekko.
grunn blir de også kalt rekursive filtre. Digitale romklangsenheter og equalisere bruker som regel rekursive filtre.
4.3. FIR-filtre Et FIR-filter virker ved å konstruere pulsresponsen for hvert inngangssample grafisk. Først må man etablere korrekt pulsrespons. I figur 4.3a ser vi et eksempel på et lavpassfilter som kutter ved '4 av samplingsfrekvensen. Et perfekt lavpassfilters pulsrespons er en sin(x)/x-kurve, hvor tiden mellom de to sentrale nullkryssingene er den resiproke verdi av grensefrekvensen. Ifølge mate matikken har kurveformen alltid eksistert, og fortsetter til evig tid. Utgangens spissverdi er lik inngangspulsen. Dette betyr at filteret ikke er kausalt, fordi utgangen har endret seg før inngan gen blir kjent. I praktisk bruk er det derfor nødvendig å kutte de ytterste endene av pulsresponsen, hvilket gir apertureffekt. Videre må man introdusere en tidsforsinkelse i filteret som er lik halv parten av den avkortede pulsens varighet for å gjøre filteret kausalt. Siden en inngangspuls flyttes gjennom registerrekken i figur 4.3b, etableres pulsresponsen, fordi den ved hvert punkt blir mul tiplisert med en koeffisient som vist i figur 4.3c. Disse koeffisientene får man ganske enkelt ved å sample og kvantisere den ønskede pulsrespons. Det er klart at den samplingsfrekvens som bru kes for å sample pulsen må være lik den filteret blir konstruert for. I praksis beregnes koeffisiente ne - man sampler ikke en aktuell pulsrespons, selv om dette ville vært mulig hvis et spesielt analogt filter skulle kopieres i det digitale området. Koeffisientens ordlengde blir et kompromiss mellom kostnad og ytelse. Fordi inngangssamplet flytter seg tvers over systemet for å skape pulsresponsens form, kalles det også et transversalt (tverrgående) filter. Med virkelige samplestrømmer vil det være flere fortløpende sampleverdier i filterregistrene til enhver tid for å la inngangssignalet formes av pulsresponsen. Hvis man bare kutter av pulsresponsen gir dette en brå overgang fra de inngangssamplene som betyr noe og de som ikke gjør det. Denne apertureffekten gjør at responsen har en tendens til å nå toppen rett før grensefrekvensen. Denne toppen kalles Gibbs fenomen, og den gir rippel i både
Figur 4.3a. Et lavpassfilters pulsrespons er en sin(x)/x-kurve som strekker seg fra -uendelig til +uendelig i tid. Responsens ender må overses, og en forsinkelse må introduseres for å gjøre filteret kausalt.
71
Samplingsfrekvensklokke
Utgang
Figur 4.3b. Oppbygning av et F/R LPF. Inngangssamplene flytter seg bortover registeret, og blir ved hvert punkt multiplisert med forskjellige koeffisienter.
Figur 4.3c. Når et spesifikt sample flytter bortover kretsen i figur 4.3b, blir pulsresponsen etablert ved utgangen, fordi pulsen blir multiplisert med hver koeffisient etter tur.
Figur 4.4. Pulsavkorting i et FIR-filter ved bruk av et begrenset antall punkter (N) resulterer i rippel i responsen. Her vises tre forskjellige antall punkter for samme pulsrespons. Filteret er et LPF som ruller av ved 0,4 av det fundamentale intervallet (Philips Technical Review).
passbånd og stoppebånd. Derfor vil lengden på den aktuelle pulsen ikke bare avhenge av frekvensrespons, men også av den mengde rippel som kan godtas. Hvis den relevante pulsperiode måles i samplingsperioder, blir resultatet det antall punkter som trengs i filteret. I figur 4.4 sammenlignes filterytelser med forskjellig antall punkter. Et typisk digitalt FIRfilter for lydformål kan ha mer enn 96 punkter. Det er bedre å lage en myk overgang fra samplene som ikke teller til de som gjør det. enn bare å kutte av pulsresponsen i tid. Dette kan gjøres ved å multiplisere koeffisientene i filteret med en vmdusfunksjon som har sitt toppunkt i pulsens sentrum. I figur 4.5 ser vi noen forskjellige vindusfunksjoner med deres responser. Det rektangulære vinduet er det samme som avkorting, og responsen vises i I. En lineær reduksjon i vekt fra sentrum av vinduet til kantene kjennetegner 72
Bartlett-vinduet (II), som bytter rippel mot en økning i bredden på overgangsområdet (området mellopm passbånd og stoppbånd). IIII ser vi Hanning-vinduet, som egentlig er en hevet cosinusform. Det lignende Hamming-vinduet blir ikke vist her, men det gir et litt annet samspill mellom rippel og bredden på hovedloben. Blackman-vinduet introduserer et ekstra cosinusledd til Hamming-vinduet ved halve perioden av hovedcosinusperioden, og dette reduserer Gibbs feno men og rippelnivå, men øker bredden på overgangsområdet. Kaiser-vinduet tilhører en vindusfamilie som er basert på Bessel-funksjonen, idet det tillater forskjellige samspill mellom rippelforhold og bredde på hovedloben. To av disse er vist i IV og V. Ulempen ved Kaiservinduene er at de er vanskelige å implementere.
- -------------- Fundamentalt intervall -------------—-
-100
Bartlett-vindu 0
0 dB
III -50 -100
Hanning-vindu
Figur 4.5. Virkningen av vindusfunksjoner. Øverst ser vi forskjellige vindusfunksjoner i sammenhengende form. Når antall sampler i vinduet er bestemt, blir de sammenhengende funksjonene vi ser her samplet ved de aktuelle intervaller for å finne vinduskoeffisienter. Disse blir multiplisert med pulsresponskoeffisientene for å gi de koeffisientene som filteret skal bruke. Amplituderesponsen (I-V) tilsvarer de viste vindusfunksjoner (Philips Technical Review).
Til lydbruk foretrekkes filtre med jevn rippelamplitude, og koeffisientene kan optimaliseres ved hjelp av datasimulering. En av de mest kjente teknikker er Remez' utvekslingsalgoritme, som finner den optimale koeffisienten etter en rekke iterasjoner. Eksemplet i figur 4.6 viser lavpassfilteret fra figur 4.3 med et Bartlett-vindu. Den akseptable
73
mengde rippel bestemmer antall samplingsperioder som må omfattes av pulsresponsen. Dette av gjør i sin tur antall punkter i filteret og filterforsinkelsen. For å illustrere det er antall punkter mye mindre enn hva som normalt ville være nødvendig for lydbruk. Siden pulsen er symmetrisk, blir forsinkelsen halvparten av pulsperioden. Pulsresponsen er en sin(x)/x-funksjon, og dette er blitt beregnet i figuren. Sin(x)/x-responsen blir deretter multiplisert med vindusfunksjonen for å gi den viste pulsrespons. Hvis koeffisientene ikke kvantiseres nøyaktig nok, blir filterets ytelse dår ligere enn ønsket. I figur 4.7 ser vi et eksempel på kvantisering av koeffisienter. Kostnadene øker hvis koeffisientenes ordlengde økes.
Figur 4.6. En avkortet sin(x)/x-puls (øverst) blir multiplisert med en Bart lett vindusfunksjon (i midten) for å frembringe de koeffisentene som blir benyttet (nederst). Frekvens
Nyquist grense
0 0 dB ------------------
-50 -
-100 -
Respons når koeffisientene har 12 bits nøyaktighet Respons ved et begrenset vindu (49 punkter)
Figur 4.7. Frekvensresponspå et 49-punkts transversalt filter med ubegrenset presisjon (heltrukken linje) gir rippel på grunn av begrenset vindusstørrelse. Når man kvantiserer koeffisienter til 12 bits reduseres dempingen i stoppebåndet (Philips Technical Review).
FIR-arkitekturen er naturlig faselineær, fordi måten samplene blir flyttet gjennom filteret på gir streng tidskontroll. De enkelte samplene i et digitalt system vet ikke hver for seg hvilken fre kvens de representerer, og de kan bare passere gjennom filteret i den rate som bestemmes av en klokke. På grunn av denne naturlige faselineariteten kan man konstruere et FIR-filter for en spe siell pulsrespons, og frekvensresponsen blir da gitt. Filterets frekvensrespons kan endres etter ønske ved å endre koeffisientene. Et programmer bart filter trenger bare en serie PROM'er for å gi koeffisientene, den adressen som gis til PROMene bestemmer responsen. Et digitalt filters frekvensrespons vil også forandre seg der74
som klokkefrekvensen endrer seg, så det er ofte mindre tvetydig å spesifisere en aktuell frekvens i et digitalt filter uttrykt som en fraksjon av det fundamentale intervallet, snarere enn uttrykt i ab solutte termer. Konfigurasjonen i figur 4.3c illustrerer prinsippet. Der hvor antall punkter i filteret er stort, som i digital lyd, vil kostnader og antall multiplikatorer som trengs for en slik konfigurasjon, være et hinder. En mer kostnadseffektiv løsning vil være å bruke en multiplikator til å multiplekse samplene og koeffisientene i tid, slik at multiplikatoren går mye raskere enn samplingsfrekven sen. Siden dataprosessorer kan multiplisere og akkumulere, og forsinkelse kan oppnås ved å la data bli igjen i registre eller minne, er det også mulig å skrive programvare som får en datamaskin til å oppføre seg som et digitalt filter. En ny beregning trengs for hvert utgangssample, og for å sikre synkronisering i sanntidssystemer, vil programvaren være i en delrutine som kalles opp i takt med samplingsfrekvensen. Datamaskinen må kunne utføre delrutinen før neste avbrytelse. Der hvor pulsresponsen er symmetrisk, er det ofte mulig å redusere antall multipliseringer, fordi samme produkt kan brukes to ganger, med like avstander før og etter vinduets sentrum. Dette kal les å folde filteret. Implementering av et programmerbart filter er nå bare et spørsmål om å velge en annen fil med koeffisienter. Kostnaden for FIR-filtre med kompliserte pulsformer kan være et hinder, spesielt dersom man trenger en prototype før LSI’er er tilgjengelige. I så tilfelle er det fortsatt mulig å dra nytte av FIRfi 1 tres faselinearitet ved å begrense tilgjengelige responser til dem som krever lite maskinvare. En slik innretning er det såkalte «moving average»-filteret (figur 4.8), som har en rektangulær pulsre spons hvor alle koeffisientene er like, slik at man ikke trenger noen multiplikator. Dette filteret har samme virkning som den endelige apertur i DAC’er, og gir respons tilsvarende amplituden til en sin(x)/x-kurve. Figuren viser også opprinnelsen til den rippel man får som følge av at puls responsen blir avkortet. Det kan virke som om man trenger en adderer for hvert punkt for å imple mentere et «moving average»-filter, men alt som trengs for å konvertere en utgangsverdi til neste er å trekke fra det gamle inngangssamplet som nettopp har passert vinduet, og å legge til det nye som akkurat er kommet inn. Kompleksiteten blir da stort sett avhengig av vinduslengden. Slike filtre kan kobles i kaskade for å gi en effektiv lavpassrespons.
Figur 4.8. Ia har pulsresponsen i et «moving average»-filter alle koeffisienter lik en, så man trenger ingen multiplikatorer. b. Frekvensrespon.se n i et «moving ave rage»-filter er den kjente sin(x)/x-kurven til en aperturfunksjon.
I et oversamplingssystem med en sigma-delta-modulator kan inngangen til filteret bestå av enbits sampler i svært høy rate. Disse samplene må lavpassfiltreres dersom samplingsfrekvensen skal reduseres. I det spesielle tilfelle med enbits-sampler kan en rekke sampler danne en ROMadresse som er programmert med den veide summen av adressebitene. Dette forenkler imple menteringen betraktelig. Slike filtre er alltid faselineære og har symmetrisk pulsrespons, og kan benytte folding. I maskinvare krever folding at rekkefølgen på samplene reverseres etter vinduets sentrum, og et «last-in-first-out»- (LIFO-) register plasseres ved foldingen.
4.4. Behovet for konvertering av samplingsfrekvens Emnet konvertering av samplingsfrekvens vil bli stadig viktigere etterhvert som digitalt lydutstyr blir mer vanlig og man etablerer store sammenkoblede systemer. Her vil vi legge frem noen av de omstendigheter som gjør endring av samplingsfrekvens nødvendig: 1. Når et digitalt opptak blir spilt av på en annen hastighet enn opprinnelig for å oppnå en spe siell virkning eller for å korrigere tonehøyden, endrer samplingsfrekvensen på det reproduserte 75
signalet seg proporsjonalt. Hvis signalene skal mates til et digital miksebord som opererer ved en standard frekvens, vil en frekvenskonvertering være nødvendig. 2. Før i tiden benyttet man mange forskjellige samplingsfrekvenser på opptakere som nå er for eldet. Ved hjelp av samplingsfrekvenskonvertering kan innspillinger som er gjort på slike maski ner spilles av og overføres til mer moderne formater med standard samplingsfrekvenser. 3. Man opererer i dag med forskjellige samplingsfrekvenser til forskjellige formål. Frekvens konvertering gjør at materiale fritt kan overføres mellom frekvenser. Som et eksempel kan originalopptak som er gjort ved 48 kHz på flersporopptakere digitalt, mikses ned til to spor med samme frekvens og så konverteres til 44,1 kHz til Compact Disc eller RDAT-original, eller til 32 kHz til kringkastingsbruk. 4. Når digital lyd brukes i forbindelse med film eller video oppstår det vanskeligheter fordi det ikke alltid er mulig å synkronisere samplingsfrekvensen med bildefrekvensen. Et eksempel på dette er der hvor den digitale lydopptaker benytter sin internt genererte samplingsfrekvens, men også spiller inn studioets tidskode. Ved avspilling kan tidskoden gjøres lik som på andre enheter, eller samplingsfrekvensen kan låses, men ikke begge deler. Konvertering av samplingsfrekvens gjør det mulig å spille av en asynkron innspilling låst til tidskode. 5. Når programmer utveksles over lange avstander er det ingen garanti for at kilde og mottaker sted bruker samme tidsreferanse. I dette tilfelle vil samplingsfrekvensene i begge ender av for bindelsen være nominelt like, men avvik i referanseoscillatorer vil gjøre at den relative samplingsfase blir vilkårlig. 6. For å dra nytte av oversamplingskonvertere, er en økning i samplingsfrekvens nødvendig for DAC’er og en reduksjon i samplingsfrekvens nødvendig for ADC’er. I oversampling er faktorene som frekvensene endres med mye høyere enn i andre anvendelser.
I punktene 4 og 5 er forskjellen mellom inngangs- og utgangsfrekvens liten, og prosessen kalles da synkronisering. Dette kan være enklere enn frekvenskonvertering, og blir behandlet i kapit tel 5. Konvertering av samplingsfrekvens kan utføres ved å gå tilbake til det analoge området. En DAC er tilknyttet en ADC. For å tilfredsstille kravene til samplingsteori må det være et lavpassfilter mellom de to med en respons på halvparten av den laveste samplingsfrekvensen. I virkelighe ten gjøres dette sjelden, fordi alle maskiner i praksis har anti-speilfrekvensfiltre ved de analoge inngangene og utgangene. Når man knytter en maskin til en annen ved hjelp av de analoge kontak tene, inkluderer man derfor et unødvendig filter i kjeden. Siden analoge filtre sjelden er optimale, er den forringelse som følger av frekvenskonvertering gjennom det analoge området ganske stor, spesielt med hensyn til faserespons. I tillegg har analoge filtre vanligvis en fast respons, og det er ikke nødvendigvis den korrekte hvis både inngangs- og utgangsfrekvensene skal variere bety delig. Den støyøkning som følger av ytterligere et kvantiseringstrinn og klokkejitter er ikke gun stig. Man må bruke konvertering av samplingsfrekvens i det digitale området, og disse metodene vil bli beskrevet her.
4.5. Typer frekvenskonverteringer Det fins tre beslektede grunntyper av frekvenskonvertering, og disse ser vi i figur 4.9. Den enkle ste (a) endrer frekvensen med et heltallsforhold, opp eller ned. Dette er enkelt å implementere fordi alle samplene (inngang og utgang) inntreffer ved klokkepulser. Et slikt system brukes van ligvis i oversamplingskonvertere. Den eksakte samplingsfrekvens som er nærmest det analoge området er ikke kritisk, og vil bli valgt for å gjøre filtrene enklere å implementere. Den neste i vanskelighetsgrad er den type som vises i b, hvor frekvensen endres med et brøkforhold. Inngangssamplene faller periodisk sammen med utgangssamplene. Mange av de tidlige for slag til profesjonelle samplingsfrekvenser var basert på enkle brøkforhold til 44,1 kHz, slik som 8/7, slik at denne teknikken kunne benyttes. Denne teknikken er ikke egnet for avspilling med va riabel hastighet eller for asynkron operasjon. Den mest innviklede form for frekvenskonvertering er der hvor det ikke er noen enkel forbin delse mellom inngangs- og utgangssamplingsfrekvenser, og hvor de tillates å variere. Den situa sjon vi ser i c er kjent som variabel forholdskonvertering. Tidsforholdet mellom inngangs- og 76
Figur 4.9. Kategorier av frekvenskonvertering. a.Heltallsforholdskonvertering, hvor lavfrekvens samplene alltid faller sammen med den høyeste frekvensen. Man trenger et lite antall faser. b.Brøkforholdskonvertering, hvor samplingssammentreff er periodisk. Man trenger et større antall faser. Et eksempel her er konvertering fra 50,4 kHz til 44,1 kHz (8/7). c.Variabel forholdskonvertering hvor det ikke er noen fast forbindelse, og man trenger et stort antall faser.
utgangssamplene er vilkårlig, og det er nødvendig med uavhengige klokker. Da man konstaterte at slik konvertering var mulig ble valget av profesjonell samplingsfrekvens mye enklere, fordi man kunne gå bort fra de enkle brøkforbindelsene. Konverteringsbrøken mellom 48 kHz og 44,1 kHz er 160:147, og den er slett ikke enkel.
4.6. Oppbygning av digitale miksebord Ettersom vi har gjennomgått en god del digital behandlingteori er det nå på tide å se litt på oppbyg ging av digitale lydmiksebord. I analoge lydmiksere må betjeningen av betjeningsgrunner være plassert nær kretsløpet - en betjeningsknapp trengs derfor for hver variabel, og betjeningspanelet er fysisk stort. Fjernkontroll er vanskelig med en slik konstruksjon. Den rekkefølge signalet passerer gjennom de forskjellige trinn i mikseren bestemmes ved konstruksjonen og enhver endring er vanskelig. I en digital mikser blir alle filtrene regulert bare ved å bytte koeffisientene, og fjernkontroll er enkelt. Siden styringen skjer ved hjelp av digitale parametre er det mulig å bruke «assignable» operasjon (det vil si at sentrale betjeningsenheter kan tilordnes forskjellige kanaler og funksjo ner), slik at det bare trengs et sett filter- og equaliserkontroller. Innstillingen kan overføres til den kanal som operatøren velger. Bruken av digital behandling gjør at man kan ha en videoskjerm som viser innstillingene. Dette gjøres sjelden i analoge bord, fordi det magnetiske feltet fra avbøyningsspolen i skjermen har en tendens til å indusere støy i lydkretsløpet. Siden lydbehandlingen i en digital mikser styres av dataprogram, kan bordets konfigurasjon en dres etter ønske ved å kjøre programmene for de forskjellige funksjonene i forskjellig rekkefølge. Operatøren kan tilpasse bordet til sine behov ved for eksempel å legge inn symboler på et blokk diagram på videoskjermen. Konfigurasjonen og innstillingen på alle betjeningsorganene kan lagres i minne, eller for en lengre periode, på diskett, og raskt hentes frem. Et slikt bord kan
77
Figur 4.10. Digital mikserinstallasjon. Den fordel at digital overføring skjer uten forringelse gjør at kontrollpanelet kan være fysisk fjernt fra prosessoren.
være i nesten konstant bruk, fordi det lett kan stilles tilbake til en kjent tilstand etter at noen andre har brukt det. En ytterligere fordel ved å arbeide i det digitale området er at forsinkelse kan kontrolleres indi viduelt i lydkanalene. Dette gjør at bølgefrontenes ankomsttid til forskjellige mikrofoner kan kompenseres i henhold til sin fysiske posisjon. I figur 4.10 ser vi en typisk digital mikserinstallasjon. De analoge mikrofoninngangene består av fjernenheter som inneholder ADCer slik at man kan benytte korte analoge kabler. Inngangsenhetene kommuniserer med signalprosessoren ved hjelp av digitale fiberoptiske forbindelser. Et typisk digitalt lydsignals samplingsfrekvens er lav sammenlignet med den hastighet typiske logiske porter kan operere med. Det er fornuftig å gjøre den nødvendige mengde maskinvare så liten som mulig ved å la hver enkelt enhet utføre mange funksjoner i en samplingsperiode. Selv om generelle datamaskiner kan programmeres til å behandle digital lyd, er de egentlig ikke hen siktsmessige, fordi: 1. Antall aritmetiske operasjoner i lydbehandling, og spesielt multipliseringer, er langt høyere enn i databehandling. 2. Lydbehandling gjøres i sanntid, dataprosessorer arbeider vanligvis ikke i sanntid. 3. Det program som trengs for en lydfunksjon forblir vanligvis konstant i et tidsrom, eller det forandrer seg langsomt, mens en dataprosessor raskt hopper mellom mange programmer. 4. Dataprosessorer kan stanse et program når det kommer en avbrytelse, lydprosessorer må ar beide kontinuerlig i lange perioder. 5. Dataprosessorer har en tendens til å være I/O-begrenset, i og med at deres operasjonshastighet er begrenset av problemene med å flytte store mengder data og instruksjoner inn i CPUen. I motsetning har lydprosessorer en relativt liten inngangs- og utgangsrate, men beregner in tensivt.
Dette nødvendiggjør utvikling av spesialiserte digitale lydsignalprosessorer. Disse enhetene ut styres med flere interne registre enn dataprosessorer for å forenkle flerpunkts filteralgoritmer. Den aritmetiske enheten konstrueres for å gi høyhastighetsmultiplisering ved hjelp av teknikker som f.eks. «pipelining», som gjør at operasjoner kan overlappe hverandre. Funksjonene til registersettet og den aritmetiske enheten betjenes av en mikrosekvenser. Ekstern betjening av en DSP vil vanligvis utføres av en mindre prosessor, ofte i operatørens konsoll, som slipper koeffisienter til DSPen etter hvert som operatøren flytter betjeningsorgane78
ne. I store systemer er det mulig for flere forskjellige konsoller å betjene forskjellige deler av DSPen.
4.7. Effekter I tillegg til equalising og miksing krever moderne lydproduksjon omfattende effekter, og disse kan utføres i det digitale området bare ved å etterligne den tilsvarende analoge. En av de eldste effekter er å bruke en båndsløyfe for å lage ekko, og dette kan utføres med min ne, eller for lengre forsinkelser, med en diskettstasjon (se kapittel 10). I figur 4.11 ser vi den grunnleggende konfigurasjon som trengs for ekko. Hvis forsinkelsesperioden blir dynamisk en dret fra null til omtrent 10 ms, blir resultatet flanging («jet-lyd»), hvor frekvensutslukninger beve ger seg gjennom lydspekteret. Opprinnelig ble dette gjort ved å la to identiske analoge bånd kjøres, og å redusere kapstanhastigheten ved hjelp av håndtrykk! En slektning av ekko er etter klang, som brukes for å simulere atmosfære på en akustisk tørr innspilling. I figur 4.12 ser vi at etterklang faktisk består av en serie klare tidlige refleksjoner, etterfulgt av diffus etterklang, som skyldes mangfoldige refleksjoner. De tidlige refleksjonene kommer simpelthen av korte forsin kelser, men etterklang er vanskeligere. En gjentagende struktur er et naturlig valg for en fallende respons, men enkel gjentagelse høres kunstig ut. Problemet er at stående bølger og interferenseffekter i et virkelig rom forårsaker store endringer i frekvensresponsen ved hver refleksjon. Vir kningen kan simuleres i en digital romklangsenhet ved å legge til forskjellige kamfilterseksjoner som har den ønskede virkning på responsen. Inngang
Figur 4.11. En enkel konfigurasjon for å oppnå digitalt ekko. Forsinkelsen ville normalt være flere titalls millisekunder. Hvis forsinkelsen blir gjort til ca. 10 ms eller kortere, virker konfigurasjonen som et kamfilter, og hvis forsinkelsen endres dynamisk, vil frekvensutslukninger bevege seg gjennom lydspekteret og resultere i flanging.
79
KAPITTEL 5
Digitale grensesnitt for lyd
Selv om digitale opptakere kan forbindes til en analog verden ved hjelp av konvertere, mister man mange av fordelene ved digital lyd, dersom overføring av lyd mellom digitale maskiner må skje via analog. Man ble tidlig klar over betydningen av direkte digital kobling, og en rekke uforenlige metoder ble utviklet av forskjellige fabrikanter inntil man nådde en standardisering i form av det digitale lydgrensesnittet AES/EBU. I dette kapitlet vil vi forsøke å hjelpe til med å forbinde ulike digitale maskiner - derfor gir vi detaljer vedrørende alminnelige fabrikanters grensesnitt, og også en beskrivelse av AES/EBU-standarden. Kapitlet fortsetter med en beskrivelse av metoder når det gjelder flerspors digitale grensesnitt, og problemene omkring synkronisering i store digitale systemer vil også bli tatt opp.
5.1. PCM-Fl-grensesnitt Selv om det var ment som et avansert forbrukerprodukt, ble Sony PCM-F1 og dens etterkommere ofte valgt av lydindustrien, ikke minst på grunn av sine lave kostnader (se kapittel 8). Digitale inn ganger og utganger var ikke standard, men mange selskaper har modifisert utstyret for å gi tilgang til interne digitale signaler. De opplysninger som blir gitt her er den standard som benyttes av So ny til digitale signaler inn i og ut av konverteringsbrikker. IPCM-F1, som er en stereomaskin, be nyttes en enkelt konverter med to ganger samplingsfrekvensen til å konvertere kanalene vekselvis. Signalstrukturen gjenspeiler den filosofien. I figur 5.1 ser vi at det er tre signaler, og det ene er ordklokkefrekvensen. Når ordklokkesignalet er høyt overføres signalet samplet i den venstre ka nalen - når det er lavt overføres den høyre kanalen. Datasignalet er enkel bit-serie NRZ, den mest signifikante biten blir sendt først. Ettersom to kanaler med sekstenbits sampler må overføres, er bitraten 32 ganger ordklokken, og et signal med denne frekvensen er også tilgjengelig. Figuren viser forholdet mellom signalene. Bitklokken faller i sentrum av hver bitcelle, og brukes av mot takerutstyret til å klokke inn databitene. Ordklokken brukes av mottakeren for å bestemme hvor samplegrensene er i bitstrømmen og for å skille mellom venstre og høyre kanal. PCM-F1 kan og så virke i fjortenbits modus etter EIAJ-formatet, og i dette tilfellet er de to siste bitene i hver sam pling null. Utgangsnivået blir det samme, men oppløsningen synker. Word clock
Bit clock
Left channel sample value
Right channel sample value
Figur 5.1. De tilgjengelige digitale signaler i en PCM-F1. En ordklokke bestemmer ordgrensene. og skiller venstre og høyre kanal. En bitklokke brukes til å klokke NRZ-dataene på fallende flanke (vist med *).
5.2. PCM-1610-grensesnitt PCM-1610 er blitt mye brukt til Compact Disc originalopptak (se kapittel 8) og har et digitalt I/Oformat som muliggjør et grensesnitt til CD-kuttere og klippebord. Figur 5.2 viser at dette forma tet er mer sammensatt, enn det som ble beskrevet i foregående eksempel. Hver kanal i stereo80
signalet har en separat leder med identisk datastruktur. Man får en ordklokke med samplings frekvensen, og en periode av denne beskriver den grunnleggende tidsluke som benyttes. Sam plingsfrekvensen multipliseres med 32 for å oppnå en bitrateklokke, men det er ikke 32 databits i tidsluken, fordi tre bitceller blir brukt av et synkroniseringsmønster. Dermed kan 29 databits overføres i hver tidsluke. Databitene blir overført ved hjelp av serie NRZ, først MSB en, og slik vil spenningen på ledningen bare endre seg ved bitcelle-grenser. Synkroniseringsmønsteret er konstruert for en transisjon midt i en bitcelle, og slik kan den bli entydig gjenkjent. Datasignalet blir matet til en faselåst sløyfe, som oppdaterer fasen hver gang det er en transisjon mellom ulike databits. Når tilstøtende bits er identiske, går sløyfen som et svinghjul for å skille bitene. Når synkroniseringsmønsteret mates inn forårsaker transisjonen ved bitcellens sentrum en massiv fasefeil i sløyfen som nyttes til å nullstille bit-telleren som identifiserer seriedatabitenes signifikans Dette er den korrekte måten å motta data på. Bruken av ordklokke for å klokke inn data anbefales ikke, fordi man ikke er garantert relativ fase mellom ordklokken og begynnelsen på tidsluken. PCM data
Control bits
i information area
■ i inrormariori Block ,
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29__________ । Control bits
1 2 3
1
0 0
(c) PCM data
255 256 257 258
(
f lag bit
Bit \
Block configuration
Syne signal
User's bits
Control bits and block flag bit "1' are attached every 256 words
0 0 1 0
Figur 5.2. Ia ser vi blokkinnholdet i Sony 1610/3324-signalet, b viser synkroniseringsmodellene som brukes til datamottak. I c danner brukerbits en blokk som blir synkronisert hver 256. samplingsperiode. Merk at PCM-1610 bare benytter enkeltendet signal ved 44,1 kHz. PCM-3324 er et differensielt signal og kan også gå ved 48 kHz.
81
Lydsamplene er plassert i de første seksten bitene av tidsluken, selv om standarden tilfredsstil ler en utvidelse til tyvebits sampler. De gjenværende ni bitene kan brukes til kontroll og brukerbits. En blokkstruktur gjentas hver 256. samplingsperiode. I begynnelsen av hver blokk vil den 29. biten være høy for å angi blokksynkronisering. Når dette skjer snus synkroniseringsmønsteret for å garantere en P/2 bits kjørelengde. I løpet av det ordet som inneholder blokkflagget installeres to databits, en for betoningsflagget, og en for «kopiering forbudt»-flagget, som alltid er null i PCM-1610. Når blokkflagget er lavt, er de gjenværende åtte bitene i hvert ord tilgjengelige som brukerbits.
5.3. PCM-3324-grensesnitt PCM-3324 flersporsopptakeren benyttet en identisk signalstruktur, men et forskjellig elektrisk grensesnitt. Dette var en balansert kabel eller et differensielt signal. Hvis man skal ha et grenses nitt mot PCM-1610 må man bare benytte en balanserings- eller ubalanseringsforsterker. Siden PCM-1610 bare nyttes ved 44,0559/44,1 kHz, må 3324 selvsagt også nyttes ved samme frekvens.
5.4. Melco-grensesnitt I flersporopptakere av ProDigi-format benytter man Mitsubishi Electric Co. (Melco)-grensesnittet. Signalstrukturen vises i figur 5.3. En enkelt ordklokke med samplingsfrekvensen er til stede, men dette er snarere et pulssignal enn en firkantkurve, fordi det har en pulslengde på en periode av bitklokken. Samplingsperiodens tidsluke er inndelt i 32-bits perioder, og hver lydkanal blir overført i serie i en separat elektrisk grensesnittkanal. I sekstenbits maskiner benyttes de første seksten bitene av luken, hvor den fal lende flanken på ordklokken angir begynnelsen av den mest signifikante biten, og den fallende kanten av bitklokken bør brukes til å klokke inn hver enkelt bit. De gjenværende sekstenbitperiodene er ubrukte, selv om det er plass til tyvebits sampler, igjen MSBen først, og det blir igjen tolv ubrukte bits.
I Melco-grensesnittet får man tilleggsinformasjon om status i to ekstra kanaler som i form er iden tiske med lyd samplingskommunikasjon, men de to sekstenbits ordene som blir overført gjenspei ler maskinens innspillingsstatus for hver lydkanal. Hvis en av maskinens kanaler spiller inn vil den tilsvarende biten i statusordet være lav. Kanalene 1-16 er i Rec. A-signalet, kanalene 17-32 i Rec. B. Som i PCM-3324 er alle signalene i Melco-grensesnittet balanserte. Faktisk er det ganske en kelt å lage et grensesnitt mellom DASH-maskinen og PD-maskinen.
Data channel (1-32) | MSB | 2B [ 3B [ 4B [ 5B [ 68 [ 7B | 8B [ 9B | 10B [11B [ 12B | 13B | 14B | 15B | 16B |
[ MSB [ 2B
Rec. A (low true)
|CH1 | 2
[cHl| 2
Rec. B (low true)
[CH17| 18 [ 19 | 20 | 21 [ 22 | 23 | 24 | 25 [ 26 | 27 | 28 | 29 | 30 | 31 | 32 |
[3
| 4
[5
[ 6
| 7
| 8
| 9
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
[cH17j 18 [
FiRur 5.3. 1 Mitsubishi-formatet av flersporsmaskiner, har den grunnleggende blokken en frekvens som er lik samplingsfrekvensen, med en bitrate på 32 ganger denne. Man benytter bare de første seksten eller tyve bitene i blokken. Den fallende flanken på ordklokken betegner begynnelsen på et sample. Rec A og Rec B fastsetter hvilke av maskinens kanaler som spiller inn.
82
5.5. AES/EBU-grensesnittet Alle de grensesnitt som er beskrevet ovenfor er takket være felles formål like nok til å få til et gren sesnitt ved hjelp av noe ekstra maskinvare, men forskjellen er allikevel stor nok til å være irri terende. Det digitale lydgrensesnittet AES/EBU ble foreslått for å omfatte alle eksisterende formaters funksjoner i en standard, som ville sikre forbindelse uavhengig av utstyrsfabrikat. Til forbrukeranvendelse er man kommet frem til en tilsvarende standard som gir forskjellige muligheter, og som samtidig er kompatibel med det profesjonelle grensesnittet, slik at maskiner til vanlig og pro fesjonelt bruk kan knyttes sammen for mange formål. Mange av de eldre grensesnitt for profesjonelt bruk har separate linjer for bitklokker og samplingsfrekvensklokker, noe som er akseptabelt for de korte avstander som kreves ved enkel ettersynkronisering, men som forårsaker problemer i kringkastingsomgivelser, der man kan ha behov for lange ledninger i et studiokompleks. I slike installasjoner ønsket man å benytte de eksisterende analoge lydkablene, nemlig 600 ohms skjermet balansert kabel. Hvis man skal bruke en enkelt kanal, må grensesnittet være selvklokkende og selvsynkroniserende, det vil si at det enkle signalet må ha nok informasjon slik at grensene mellom individuelle bits, ord og blokker blir pålitelig gjenskapt. For å oppfylle disse kravene benytter både AES/EBU-grensesnittet og den tilsvarende forbrukerutgaven FM kanalkode (se kapittel 6), som er likespenningsfri og helt selvklokkende. Man oppnår synkronisering ved å bryte de vanlige reglene for koding. Bruk av FM betyr at kanalfrekvensen er den samme som bitfrekvensen når man sender dataenere. Undersøkelser viste at typiske analoge lydkabelinstallasjoner hadde tilstrekkelig bånd bredde til å overføre to digitale lydkanaler i ett tvistet par. Vanlige sende- og mottakerbrikker for RS-422A datakommunikasjon (eller den tilsvarende CCITT-V.ll) benyttes til profesjonelt bruk, men arbeid som BBC har utført antyder at frekvenskorreksjon og transformatorkobling er å fore trekke ved lange kabler, spesielt dersom flere tvistede par deler en felles skjerm. Man har opp nådd gode resultater på opptil 350 m med disse teknikkene. Bruk av transformator er påkrevet i den tilsvarende EBU-spesifikasjonen. Figur 5.4a viser en typisk konfigurasjon. Driverens ut-
7n = half of bit cell period = minimum transition 7”m.n = O.57~n (b)
Figur 5.4. AES/EBU-grensesnittets konfigurasjon som foreslås for lange kabler. XLR-pinneforbindelser er de samme som for balanserte Ivdkabler. I b ser vi det minste øyemønster som en mottaker må kunne gjenskape, og en foreslått korreksjons respons.
83
gangsimpedans er ca. 110 ohm, og impedansen på den kabelen som er brukt bør være i samme størrelsesorden ved de aktuelle frekvenser. Driveren skal produsere mellom 3 og 10 Vp-p i en slik impedans. Mottakerens impedans er ca. 250 ohm, noe som gjør at man kan drive opp til fire mottakere fra en kilde. Antall tilkoblinger må muligens reduseres dersom man benytter lange kabler. I figur 5.4b ser vi mottakerens spesifikasjon uttrykt i minste øyemønster (se kapittel 6) som kan gjenska pes uten feil (OBS: På dette punkt er standarden p.t. under revisjon). Formålet med standarden er å tillate bruk av eksisterende analoge kabler, og siden XLR allere de er i utstrakt bruk, har man valgt IEC 268 Del 12 til digital lydbruk. Eksisterende analoge lydkabler med XLR-kontakter kan fint brukes uten endring for digitale grensesnitt. Standarden krever imidlertid tilbørlig merking, slik at det tydelig fremgår at tilkoblingene på en bestemt en het er digitale. Behovet for å drive lange kabler oppstår vanligvis ikke i de hjemlige omgivelser, derfor er ikke et balansert signal med lav impedans nødvendig. Forbrukerformatets elektriske grensesnitt be nytter et 0,5 V topp ubalansert signal, som kan overføres med en konvensjonell «audio-grade» ko aksial kabel med phonoplugger. I figur 5.5 ser vi den grunnleggende oppbygning av de profesjonelle og vanlige formater. En subramme består av 32 bitceller, og fire av dem vil bli brukt av et synkroniseringsmønster. Man kan benytte inntil 24-bits sampleordlengde, noe som burde tilfredsstille fremtidig utvikling. Normalt benyttes imidlertid tyvebits sampler med fire reserve databits, og disse kan brukes til taleformål i profesjonell anvendelse. I en forbrukermaskin av typen RDAT kan en subkode over føres i bitene 4-11, og sekstenbits lyd i bitene 12-27. 0
3 4
7 8
27 28
31
Validity f lag ------ 1 User data -----------
Channel status --------------Parity bit -------------------
Fif>i R eserved
6 7 ----------
8
f
Alphanumeric channel origin data = 4-7 bits ASCII + odd parity
9
11 Alphanumeric channel destination data = ------- > 4x7 bits ASCII + odd parity 12
13
Local sample address code: 15 ------- > 32 bits binary address of 16 first sample in this block 17
20
Timecode = 32 bits binary timecode of first sample in block
21 ____ . 22
Data reliability flags (see Figure 5.11)
23
CRC x8 + x* + x3 + 1 on bytes 0-23
19 ---------
>
Figur 5.7. Innholdet i 24 bytessekvensen med kanalstatusdata i A ES/EB U-formatet. Channel status byte 0
Figur 5.8. Den første byte i kanal statusinformasjonen i AES/EBU-standarden behandler først og fremst betoning og kontroll av samplingsfrekvens.
86
Channel status byte 1
5
0000
Mode not indicated. Receiver defaults to twochannel mode. Manual select enabled
0000
0001
Twochannel mode. Manual select disabled
1111
0010
Single-channel (mono) mode. Manual select disabled
0011
Primary/secondary mode (CH1 is primary). Manual select disabled
0100
Stereo mode (CH1 = left channel). Manual select disabled
Encoded user bits management.
To be defined
0101
«■ Reserved 1110 1111
a Vector to byte 3 (future application)
Figur 5.9. Den sekundære byte i kanal statusinformasjonen behandler i dag bruken av lydkanal, men vil i fremtiden bli utvidet til å håndtere brukerinformasjon. Channel status byte 2
Figur 5.10. Bvte 2 i kanalstatus bestemmer om alle 24 bitene i ordluken skal brukes til lydsampler, eller bare inntil tvve.
Det er to luker med fire bytes hver som benyttes til alfanumerisk kilde og adressekoder. Disse kan brukes til ruting. Bytene 14-17 overfører en 32 bits sampleadresse som øker hver kanalstatusramme. Den num mererer samplene effektivt på en relativ måte. Bytene 18-21 overfører et likt antall, men dette er en dagtelling som begynner på null ved midnatt. Med en samplingsfrekvens på 48 kHz represen terer binærtellingen antall firemillisekunders intervaller fra midnatt, og kan lett konverteres til f.eks. EBU-tidskode ved å dividere med ti for å oppnå en telling på 40 ms videobilder. Ved andre samplingsfrekvenser må delingsforholdet modifiseres tilsvarende. Den nest siste byte inneholder fire flagg som angir at visse deler av kanalstatus informasjonen er upålitelige (se figur 5.11). Dette tillater overføring av en ufullstendig kanalstatusblokk hvor hele strukturen er unødvendig eller hvor informasjonen ikke er tilgjengelig. Å sette bit 5 til en logisk ener ville f.eks. bety at mottakeren ikke ville tolke noen opprinnelses- eller adressedata, og de trengte således ikke sendes.
87
Channel status byte 22
Reserved
Time of day (18-21); unreliable = 1 Local sample address (14-17); unreliable = 1
Source and destination data (6-13); unreliable = 1
Bytes 0-5; unreliable = 1
Figur 5.11. Byte 22 i kanalstatus angir om noe av informasjonen i blokken er upålitelig.
Den siste byte i meldingen er en CRCC som konverterer hele kanalstatusblokken til et kodeord (se kapittel 7). Til vanlig forbruker benyttes en annen versjon av kanalstatusspesifikasjonen. Figur 5.12 viser at seriedatabitene er samlet i tolv ord med seksten bits hver. I det vanlige formatet danner de første seks bitene av det første ordet en kontrollkode, og de to neste bitene tillater et modusvalg for frem tidig utvidelse. I øyeblikket er det bare modus null som er standardisert, og de tre gjenværende kodene er reservert.
Control word
0
1
2
3
4
Mode
5
6 0 0 1 1
0 = consumer 1 = professional
0 = 2CH 1 = 4CH
0 = normal 1 = digital data
Reserved
0 = copy prohibit 1 = copy permit
0 = no pre-emphasis 1 = pre-emphasis
7 0 = mode 0 1 0 Reserved 1
Bit 15 0 = consumer or = professional mode 1 = program transfer mode if bit 0 = 0
Figur 5.12. Det vanlige formatet i forbrukerversjonens kanalstatus. Bit 0 har samme betydning som i det profesjonelle formatet av kompatibilitetshensyn. Bitene 6-7fastsetter forbrukerformatmodus, og pr. i dag er bare modus 0 definert (se figur 5.13).
Figur 5.13 viser bitfordelingen for modus null. I tillegg til kontrollbitene er det en gruppekode. en forenklet versjon av AES/EBU-kildefeltet, et felt som spesifiserer lydkanalnummeret for flerkanalsfunksjon, et felt for samplingsfrekvens og et toleransefelt for samplingsfrekvens. Opprinnelig var forbrukerformatet ikke kompatibelt med det profesjonelle formatet, fordi kanalstatusens bitnull ville bli satt til en ener av en firekanals forbrukermaskin. Dette ville forvirre en profesjonell mottaker, fordi bitnull angir et profesjonelt format. EBU foreslo for IEC at firekanalsbiten skulle flyttes til bit 5 i forbrukerformatet, slik at bitnull alltid ville bli null. Dette er for utsatt i bitdefinisjonene i figur 5.12 og 5.13. Gruppekoden angir hvilken type utstyr som sender og dets egenskaper. For tiden er det fire grupper: Vanlig formål, tokanals CD-spiller, tokanals PCM-omformer og tokanals digital bån dopptaker (RDAT eller SDAT). Tabell 5.1 illustrerer subrammenes format i gruppen for vanlig formål. 88
15
0
Control bits = as Figure 5.12
Mode bits = 00
Category code: 00000000 = general format (see Table 5.1) 10000000 = 2-channel CD player (see Table 5,2 Figures 5.14 and 5.15) 01000000 = 2-channel PCM adaptor 11000000 = 2-channel DAT
Source no: 0000 = don't care 0001 =source 1 0010 = source 2 1111= source 15
Channel no: 0000 = don't care 1000 = A (left channel for stereo) 0100 = B (right channel for stereo) 1100 = C
Sampling rate: 0000 = 44.1 kHz 0100 = 48 kHz 1100 = 32 kHz 10XX 00XX Reserved 01XX 11XX Clock accuracy: 00 = normal accuracy 10 = high accuracy 01 = variable speed
1111=0
Figur 5.13. I forbrukermodus 0 ser vi her de to første sekstenbits kanalstatusordenes signifikans. Gruppekodene blir utvidet i tabellene 5.1 og 5.2.
Tabell 5.1. Den vanlige gruppekode gjør at overføringens subrammestruktur tolkes som nedenfor (se figur 5.5) og de påviste kanalstatusbitene er gyldige.
Category code 00000000 = two-channel general format subframe structure
Two’s complement MSB in position 27. max 20 bits/sample User bit channel = not used V bit optional Channel status left = Channel status right, unless channel number is non-zero Control bits in channel status Emphasis = bit 3 Copy permit = bit 2 Sampling-rate bits in channel status Bits 28-29 = according to source accuracy
89
Tabell 5.2. I CD-gruppen er betydningen nedenfor plassert på overføringen. Hovedforskjellen fra den vanlige gruppen er at man benytter brukerbits til subkode som spesifisert i figur 5.14.
Category code 1000000 = two-channel CD player
subframe structure Two’s complement MSB in position 27, 16 bits / sample User bit channel = CD subcode control bits Sampling-rate in channel status Bits 24-27 = 0000 = 44,1 kHz
Clock-accuracy bits in channel status Bits 28-29 according to source accuracy and use of variable speed
Med CD-spillere er det tabell 5.2 som gjelder. Her kan en CD-innspillings omfattende subkodedata overføres langs grensesnittet (se kapittel 11). I hver CD-synkroniseringsblokk er det tolv lydsampler, og åtte bits subkode, fra P-W. P-flagget blir ikke overført, fordi det bare inneholder informasjon for spilleren - sl ik blir bare Q-W sendt. Siden grensesnittet kan overføre en brukerbit for hver sampling, blir det en overskuddskapasitet i brukerbit-kanalen for subkode. En CDsubkodeblokk bygges opp omkring 98 synkroniseringsblokker, og har en repetisjonsfrekvens på 75 Hz. Begynnelsen på subkodedataene i brukerbitstrømmen ses i figur 5.14 for å bli benevnet med minst seksten nuller, etterfulgt av en startbit som alltid er en ener. Rett etter startbiten venter mottakeren syv subkodebits, Q-W. Etter disse kan en ny startbit og nye syv bits følge, eller man kan få et mellomrom på inntil åtte nuller før neste startbit. Denne sekvensen gjentar seg 98 gan ger, og da ventes et nytt synkroniseringsmønster. Muligheten til å la nuller bli igjen mellom subkodesymbolene forenkler behandlingen av ulikheten mellom brukerbitkapasitet og subkodebitrate. Figur 5.15 viser et representativt eksempel på overføring fra en CD-spiller. I en PCM-omformer er det ingen subkode, og den eneste tilhørende informasjon som er tilgjen gelig fra innspillingen består av kopieringsbeskyttelse og betoningsbits. På andre områder er for matet det samme som for vanlige formål. Bit 1
Subcode syne
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
01
R1
S1
TI
U1
V1
W1
0
0
0
0
1
02
R2
S2
T2
U2
V2
W2
0
0
0
0
1
03
R3
S3
T3
U3
V3
W3
0
0
0
0
1 04 —
R4
S4^>
0
0
0
0
1
095
R95
S95
T95
U95 V95
W95
0
0
0
0
1
Q96
R 96
S96
T99
U96 V96 W96
0
0
0
0
Start bits
1 subcode block, 1176 audio samples, 1 /75 second
Bit 1176
Figur 5.14. I CD er en subkodeblokk bygget opp omkring 98 synkroniseringsblokker. 1 denne perioden vil det være 1176 lydsampler, og altså 1176 brukerbits tilgjengelige for å bære subkoden. Det fins ikke tilstrekkelig subkodeinformasjon til å fylle denne kapasiteten, og man benytter nullpakking.
90
- Subframe Preamble SYNC
Subframe no.
Channel status —■ 1 2 block syne 3 4
A = left —- 5 6 channel sample 7 8 9 B = riqht —- 10 channel sample 11 12
CS 8 A B A B A B A B A B
L S B
Aux
M S V B
Audio samples
u
c
P
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
COL C0R C1L C1R C2L C2R C3L C3R C4L C4R C5L C5R C6L C6R C7L C7R C8L C8R C9L C9R C10L C10R Cl 1 L C11R
P P P P P P P P P P P P P P P P P P P P P P P P
ooøn
13 14 15 16 17 18 19 20 21 22 23 24
A B A B A B A B A B A B
bits = subeode r 26 27 start bit 28 U = Subeode k 29 30 31 132 r 33 34 Subeode 35 space 36
B A B A B A B A B A B
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
0 0 0 0 0 0 0 0 0 0 0 0
1 Q1 RI S1 TI Ul VI W1 0 0 0 0
C12L C12R C13L C13R C14L C14R C15L C15R C16L C16R C17L C17R
P P P P P P P P P P P P
37 f 38 39 40 k 41 42 43 44 45 46 47 48
A B A B A B A B A B A B
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
0 0 0 0 0 0 0 0 0 0 0 0
1 Q2 R2 S2 T2 U2 V2 W2 0 0 0 0
C18L C18R C19L C19R C20L C20R C21L C21R C22L C22R C23L C23R
P P P P P P P P P P P P
16 zeros in user bits = subeode syne word
Start bit
U = Subeode
Figur 5.15. Compact Disc-subkode overført i brukerbits med seriegrensesnitt.
Når en RDAT-spiller benyttes med grensesnittet, bærer brukerbitene mange informasjonsele menter. En gang pr. trommelomdreining settes brukerbiten i en subramme når subrammen inne holder det første samplet i den innfelte blokken (se kapittel 8). Dette kan benyttes til å synkronisere flere RDAT-maskiner sammen for redigeringsformål. Rett etter synkroniseringsbiten vil start ID’en overføres når spilleren har funnet koden på båndet. Dette må skje i 300 ± 30 trommelomdreininger, eller ca. ti sekunder. I den tredje bitposisjonen blir hopp-IDen overført når spilleren oppdager en hoppkommando på båndet. Dette angir at spilleren vil gå fort forover inntil den påviser neste start-ID. Hopp-IDen må overføres i 33 ± 3 trommelrotasjoner. Til slutt støtter RDAT’en en «slutt-på-hopp-kommando» som avslutter et hopp når den påvises. Dette tilla ter hoppredigering for å utelate korte deler av innspillingen. RDAT kan også overføre nummeret (TNO) på det sporet som blir spilt langs brukerbitstrømmen.
5.6. Parallelt grensesnitt AES/EBU-grensesnittet og dets forbrukerutgave er ideelle for et lite antall lydkanaler. I endel profesjonelle anvendelser trenger man å overføre et stort antall lydkanaler sammen, f.eks. mel91
lom flersporopptakere og miksebord. Da har bruken av et parallelt grensesnitt noen fordeler, si den de avstander det dreier seg om vanligvis er korte, og det ikke er spørsmål om kabelkostnader. I et forslag fra BBC er 28-databitstrukturen på AES/EBU-subrammen flyttet sidelengs, med en leder tilknyttet hver bit. Siden AES/EBU-grensesnittets maksimale overføringsrate er 64 ganger samplingsfrekvensen, innebærer det at 64 kanaler kan tidsmultiplekses til en samplingsperiode innen samme båndbredde i den parallelle versjonen. De nødvendige signaler er illustrert i figur 5.16. For å kunne skille kanalene ved mottak er det seks adresselinjer som overfører et binært mønster tilsvarende samplets lydkanalnummer i tidsluken. Mottakeren ruter ganske enkelt sam plene i henhold til den tilknyttede adresse. Et slikt punkt-til-punkt-system neglisjerer imidlertid systemets kapasitet til mer sammensatt bruk. Busskabelen kan sløyfes innom flere forskjellige ut styrsenheter, hvor hver av dem er programmert til å overføre samplene i løpet av ulike tidsluker. Siden alle kanaler er tilgjengelige for alle mottakere, må man bare gjenkjenne en gitt adresse for å laste samplene fra en hvilken som helst kanal. Dersom to apparater dekoder samme adresse, vil den samme lydkanalen være tilgjengelig ved to mottakersteder. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29.
Frame Digital 0 V A5 48 kHz A4 96 kHz A3 192 kHz Address bits A2 384 kHz A1 768 kHz A0 1536 kHz_ 3072 kHz bus latch 6.144 MHz 12.288 MHz (or 6.144 MHz)
Spare (block detect.) Spare Spare -18 V
Anaiogue 1 2 screens Anaiogue 2 0 V (± 18 V)
Anaiogue 3 2 screens Anaiogue 4 + 18 V KEYWAY spare track F lag control/audio Spare ■(PARITY/IR/W])' Spare (Channe1 status) Spare (User bit) Spare (validity flag)
Clocks
30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57.
DB23 (MSB) DB22 DB21 DB20 DB19 DB18 DB17 DB16 DB15 DB14 DB13 DB12 DB11 DB10 DB9 DB8 DB7 DB6 DB5 DB4 ( LSB) DB3~ DB2 Auxiliary data DB1 DBOJ + + 0 0
Data bus
5 V 5 V V V
Figur 5.16. Tidsmultiplekset 64 kanals lydbuss som foreslått av BBC.
I et slikt system er ombytting av kanaler enkelt. Hvis lydkanalene blir overført i adresserekkefølge, er det bare nødvendig å endre de adressene som mottakskanalene gjenkjenner, og en gitt inngangskanal vil fremkomme fra en annen utgangskanal. Siden adressegjenkjennelse allerede fins i et TDM-system. har man oppnådd en 64 X 64 kanalers lydvelgermatrise uten noe ekstra maskinvare. Det eneste som er til hinder i bruken av TDM-systemer, er at alle kanalene må ha synkroniserte samplingsfrekvenser. I flersporsopptakere er dette gitt i utgangspunktet fordi alle kanalene er bundet til båndformatet. I asynkrone systemer, eller der hvor flere samplingsfrekvenser finnes samtidig, vil det være nødvendig med en lydvelger, ved bruk av AES/EBU-signaler. I et slikt utstyr kan omkoblingen utføres billig ved hjelp av logiske kretser, og det blir selvfølgelig ingen forringelse i det digitale domenet.
92
5.7. Fiberoptisk grensesnitt Mens en parallell buss er ideell for et distribuert flerkanalsystem er bruken av fiberoptikk ideell for en punkt-til-punkt-forbindelse, især når avstanden øker. En optisk fiber er ganske enkelt en glasstråd som er innkapslet slik at lys tvinges til å vandre langs den. Overføring skjer ved å modu lere en LED eller en liten laser koblet til fiberen. En fototransistor konverterer det mottatte lyset tilbake til et elektrisk signal. Optiske fibre har en rekke fordeler fremfor elektriske kabler. Den tilgjengelige båndbredde er overveldende. Optiske fibre skaper ikke, og er ikke utsatt for elektromagnetisk forstyrrelse, og siden de er isolatorer kan ikke jordsløyfer oppstå. Ulempen ved optiske fibre er at i enden av fiberet, der hvor sendere og mottakere er tilkoblet blir det optiske tap. Dette kan det kompenseres for i punkt-til-punkt-forbindelser, mens det vanskeliggjør bruken av en busstruktur. Fiberoptiske forbindelser brukes allerede i digitale lydmiksebord. Det foreligger forslag om å standardisere en fiberoptisk versjon av AES/EBU-grensesnittet.
5.8. Synkronisering Når digitale lydsignaler skal samles fra mange forskjellige kilder, enten for miksing eller for over føring gjennom et TDM-system, må samplene fra hver kilde synkroniseres til hverandre både i frekvens og fase. Samplekildene kan ofte mates med en referanse samplingsfrekvens fra en eller annen sentralgenerator, og vil gi tilbake samplene med den frekvensen. Dette vil ikke alltid skje i virkeligheten. I en satellittoverføring er det egentlig ikke mulig å faselåse et studiokompleks halvveis rundt jorden til et annet. Utendørs sendinger må av samme grunn kanskje måtte opprette sin egen originaltidsbase. Når man ikke oppnår faselåsing, vil det bli en langsom glidning av samplingfase mellom kilde og mottakersted på grunn av faktorer som f.eks. drift i tidsbasegeneratorer. Denne faseglidningen vil bli korrigert av en synkronisator, som skal arbeide med frekvenser som er nominelt like. Den må ikke forveksles med en samplingsfrekvenskonverter som skal kun ne virke ved vilkårlige frekvenssammenhenger. Selv om en samplingsfrekvenskonverter kan nyt tes som synkronisator, er det en svært kostbar måte å synkronisere på. En synkronisator er en lavkostnadsversjon av en samplingsfrekvenskonverter som er avgrenset i den frekvensforskjell den kan godta. I en type digital lydsynkronisator, benyttes minne som en tidsbasiskorreksjon som illustrert i kapittel 3. Samplene lagres i minnet med kildens frekvens og fase, og når minnet er halvfullt blir samplene lest ut med mottakerstedets frekvens og fase. Elvis det blir en netto frekvensforskjell, vil minnet enten fylles opp eller tømmes over en tidsperiode. For å gjensentrere adresseforbindelsen igjen vil det være nødvendig å gjøre hopp i leseadressen. Dette vil gjøre at sampler utelates eller gjentas, avhengig av forholdet mellom kildefrekvens og mottakerstedsfrekvens, og dette blir hørbart på programmateriale. Løsningen er å påvise pauser eller lave passasjer og å tillatte hop ping bare der. Prosessen illustreres i figur 5.17. Slike synkronisatorer må ha tilstrekkelig minnekapasitet til å absorbere tidsstyringsforskjeller mellom rolige passasjer hvor hopping er mulig, og slik blir den gjennomsnittlige forsinkelsen ganske stor, vanligvis 128 sampler. Imidlertid er de ganske billige. Inngangssampler
Utgangssampler
Hopp
Figur 5.17 I hoppsynkronisering er inngangssamplene gjenstand for varierende forsinkelse for å synkronisere dem med utgangen. Til slutt gjør forholdet mellom samplingfrekvensene det nødvendig å hoppe for å hindre at forsinkelse bygges opp. Som vi ser her resulterer dette i at flere sampler blir gjentatt, og bare kan foretas i programpauser eller ved veldig lave lydnivåer. Hvis inngangsfrekvensen overstiger utgangsfrekvensen, vil noen av samplene gå tapt.
93
Interpolasjonsperiode
Inngangs, sampler
X- X-X x- x x x x x x x x- x x x-x xxxx
Utgangs, sampler
Figur 5.18. En alternativ synkroniseringsprosess er å bruke en kort periode med interpolering for å regulere forsinkelsen i synkronisatoren.
Et alternativ til adressehopping er å foreta konvertering av samplingsfrekvens i en kort periode (figur 5.18) for å justere inngangs/utgangsforholdet med et sample. Den forsinkelse som oppstår kan bli mindre enn den som forårsakes av en tidsbasiskorreksjon, fordi den blir bestemt av vinduslengden på det digitale filteret. Imidlertid er utstyret i dag konstruksjonsmessig ganske likt en samplingsfrekvenskonverter, men dyrere å realisere. Resultatet av interpolering er en liten mo mentan endring i tonehøyden. Vanskelighetene med å synkronisere ikke faselåste kilder blir mindre når frekvensforskjellen er liten. Det er fremmet forslag om en nøyaktighetsstandard for tidsbasegeneratorer til ulike formål.
KAPITTEL 6
Digital innspilling og kanalkoding
Selv om innspillings- og avspillingsprosessen rent fysisk er upåvirket av den betydning som er til lagt signaler, er de teknikker som benyttes i digital innspilling ganske forskjellige fra de man fin ner i analog innspilling. Samme fenomener dukker imidlertid ofte opp i forskjellig drakt. I dette kapitlet behandles det fundamentale ved digital innspilling sammen med de nødvendige kodemetoder. En gang var det dataindustriens behov som dominerte arbeidet med digital innspilling, men se nere fremskritt i digital lyd, video og instrumenteringsinnspilling har endret dette forholdet. Man finner kanalkoding i mange lydanvendelser, i digitale båndopptakere med fast og roterende hode, i tidskodeinnspillinger på analogt bånd, i harddisker som benyttes for lydredigering, i Compact Disc, i diskettstasjoner som benyttes for lagring av miksebordsautomasjon og i elektriske og fibe roptiske forbindelser mellom digitalt utstyr. Heldigvis gjelder de grunnleggende prinsippene for koding som her forklares, på alle de nevnte områder.
6.1. Kanalens signal/støyforhold og båndforbruk I analog innspilling påvirker mediets egenskaper det innspilte signalet direkte, men når et signal uttrykkes i binær numerisk form ved hjelp av sampling og kvantisering blir kvaliteten uavhengig av mediet. Det nødvendige dynamikkområdet bestemmer ikke lenger direkte den sporbredde som trengs. Digitale kretser har stor immunitet mot støy fordi signalet bare kan ha to tilstander, som er langt fra hverandre sammenlignet med støyamplituden. I digital magnetisk innspilling har mediet også bare to tilstander, N-S og S-N, men paradoksalt nok blir støyimmuniteten sterkt re dusert. Siden støy immunitet er en funksjon av sporbredde, gjør reduksjon i aktuelt signal/støy forhold på et digitalt spor at den samme informasjon bæres på et mindre område av mediet, og dette innebærer en økonomisk besparelse i prosessen. Det øker også frekvensen av tilfeldige feil, men siden et feilkorreksjonssystem allerede er nødvendig for å ta seg av drop-out, må dette syste met bare arbeide hardere. Det er interessant å sammenligne båndforbruk mellom analoge og digitale maskiner der dette lar seg gjøre. En typisk studiolydopptaker har 24 spor på to tommers bånd for analog innspilling, mens bare en halv tommes bånd trengs for digital innspilling av 24 eller 48 spor i DASH-formatet, og entommes bånd benyttes i Mitsubishi-formatene for å gi 32 kanaler med tilnærmet lik båndhastighet i hvert tilfelle.
6.2. Hodestøy og hode/båndhastighet I en magnetisk opptaker er det flere viktige kilder til avspillingsstøy, og de vil vi se på senere i dette kapitlet. En av disse er støyen fra hodet. Alle komponenter med elektrisk motstand genere rer støy i henhold til sin temperatur, og avspillingshodet er ikke noe unntak. Hvis en gitt innspil ling eksisterer på et bånd, oppnår man et bedre signal/støyforhold ved å flytte hodet i forhold til båndet i høyere hastighet, fordi hodestøyen er konstant og det signalet som blir indusert er pro porsjonalt med hastigheten. Dette er en grunn til at opptakere med roterende hode har bedre pakkingstetthet enn opptakere med fast hode. Den andre grunnen er mer innlysende. For en maskin med roterende hode er det den lineære båndhastighet som fastsetter mellomrommet mellom spo rene, mens det for faste hoder er vanskelig å produsere små mellomrom mellom sporene. Når man digitaliserer en lydkurveform har det skjedd et skifte i betydningen av signal/støyforhold og båndbredde. En digital kanals båndbredde er alltid større enn båndbredden på det opprinnelige analoge signalet, men man trenger ikke særlig høyt signal/støyforhold. Dette forklarer det para doks at det er nødvendig med større båndbredde, men det blir brukt mindre bånd. På samme måte 95
som i analog innspilling, kan det roterende hodet benyttes til å oppnå stor båndbredde uten over drevent korte bølgelengder på båndet og med moderat lineær båndhastighet. En ytterligere fordel ved maskiner med roterende hode er at man kan oppnå det beste kompromiss mellom båndbredde og signal/støyforhold ved å endre avsøkningsgeometrien. Figur 6.1 viserat man kan foreta to for skjellige innspillinger på samme båndareal. Den første har en lavere hodebåndhastighet fordi sporene er kortere, men bedre signal/støyforhold fordi de er bredere. Den andre har større bånd bredde på grunn av lengre spor, men disse sporene er smalere. Hvis vi ser bort fra hodestøy, vil informasjonskapasiteten i begge formater være den samme. Der hvor hodestøy er en faktor vil det sistnevnte formatet være overlegent. Den nedre grense for sporbredde settes gjerne av evnen til å posisjonere et hode med tilstrekkelig nøyaktighet. Sporfølgende servoer er ofte nødvendige for å oppnå de høyeste tettheter uten å ofre evnen til å kunne utveksle en innspilling mellom maskiner. Sammenligningen av båndforbruk mellom RDAT og Compact Cassette er ennå mer dramatisk på
Figur 6.1. To forskjellige formater med roterende hode - de har samme forbruk av bånd, men forskjellige egenskaper.
Enten maskinen har fast eller roterende hode må de innspilte bølgelengder holdes korte for at båndforbruket skal holdes på et rimelig nivå. Svært korte bølgelengder kan bare spilles av med konsistent, nær kontakt mellom hodet og mediet, så mediets overflate må være av beste kvalitet. Baksiden må ikke være så ru at et lag påvirker et tilstøtende magnetsjikt når båndet blir spolt på en rull. Digitale lydbånd ligner videobånd på mange måter. De har et tynt magnetbelegg, fordi dybdetap hindrer fluks fra et tykt belegg ved korte bølgelengder og fordi et tynt belegg er mindre utsatt for selvavmagnetisering. Det tynne belegget trenger høyenergipartikler for å gi brukbare avspillingsnivåer med redusert magnetisk volum. Basismaterialet (substratet) er relativt tynt for at båndet skal kunne passere uregelmessigheter i hodet uten å miste kontakt. Kopieffekt (magne tisk oversmitting) er ikke et problem ved digital innspilling.
6.3. Grunnleggende digital innspilling Hovedprinsippet for digital innspilling er bemerkelsesverdig enkelt. Siden mediet bare har to til stander vil innspillingskurveformen karakteristisk nok være en strøm hvor retningen reverseres, men størrelsen forblir konstant, som i figur 6.2. For å oppnå best mulig signal/støyforhold på av spillingen er den strøm som trengs litt mindre enn den som trengs for å mette båndet, fordi met ning forårsaker ujevne felt rundt hodet og overhøring på tilstøtende spor. I nyere maskiner kan innspillingsstrømmen lages i en analog forsterker med en respons som korrigerer for tap i innspillingshodet ved høye frekvenser. Båndet møter en fluksstyrke som øker og deretter avtar når den passerer hodet. Innspillingen gjøres faktisk nær hodets bakre pol, som vist i figur 6.3, hvor fluk sen fra hodet faller under den koersivitetskraft som trengs for å endre partiklenes tilstand. Jo steilere fluksendring ved den bakre polen, jo kortere bølgelengde kan spilles inn. Dette oppnår man vanligvis med en relativt bred spalte. Formagnetisering er unødvendig ved digital innspilling, fordi linearitet ikke er nødvendig.
96
(a)
0
Transisjoner
Figur 6.2. Grunnleggende digital innspilling. I a blir skrivestrømmen i hodet reversert fra tid til annen, og det gir et binært magnetiseringsmønster som vist i b. Ved avspilling får man en kurveform som i c, fordi det produseres et utgangssignal bare når fluksen i hodet endrer seg. Endringer omtales som transisjoner.
Hodefluks
Båndretning
Figur 6.3. Innspillingen blir faktisk gjort i nærheten av hodets bakre pol hvor hodefluksen faller under båndets koersitivitet.
Figur 6.4. Spaltet spissverdideteksjon undertrykker støy ved å avvise det differensierte utgangssignalet mellom transisjoner.
97
Figur 6.6. De viktigste mekanismer som definerer magnetisk kanalbåndbredde.
Figur 6.7. En DC-offset kan forårsake feil tidsreferanse.
Når en slik innspilling spilles av, vil hodets utgangssignal være en differensiert versjon av den innspilte kurveformen, fordi hodet bare reagerer på endringer i flukstetthet. Avspillingskretsenes første oppgave er å rekonstruere den innspilte kurveformen. Signalets amplitude har ingen betydning - det som teller er det tidspunkt hvor skrivestrømmen, og følgelig båndfluksen, reverserer. Dette kan bestemmes ved å lokalisere avspillingspulsenes toppunkter. Ved høye datarater gjøres dette enkelt ved å differensiere signalet og å lete etter nullgjennomganger. Figur 6.4 viser at dette resulterer i støy mellom toppunktene. Dette problemet overvinnes ved hjelp av en spaltet spissverdidetektor, hvor bare nullgjennomganger fra en puls som overstiger ter skelen blir tatt med. Ved de relativt lave datarater som forekommer i digital lyd, kan innspillingskurveformen også gjenopprettes ved hjelp av integrasjon, som er det motsatte av differensiering av hodet, som vist i figur 6.5. En rekke detaljer må legges til dette enkle bildet for å kunne vurdere den virkelige situasjon. Figur 6.6 viser at differensiering av avspillingsprosessen gjør at utgangssignalet fra hodet til å be gynne med stiger med 6 dB pr. oktav fra en DC-respons på null. Selv om man kunne foreta en 98
høyfrekvensinnspilling gjennom hele mediets tykkelse, treffer ikke fluksen inne i mediet avspillingshodet ved korte bølgelengder, og et tynt lag nær overflaten må sørge for avspillingsfluksen. Dette kalles dybdetap, selv om det er et slags separasjonstap, og forårsaker et fall på 6 dB pr. ok tav, noe som opphever differensieringseffekten og derved gir et område med konstant frekvensre spons. Hodets konstruksjon resulterer i samme virkning som ved et topunkts transversalt filter, fordi hodets to poler ser båndet med en liten forsinkelse på grunn av spaltebredden. Som ventet blir hoderesponsen et slags kamfilter med de velkjente nullene der hvor flukskansellering finner sted over spalten. Jo smalere spalten er, jo kortere blir den første nullens bølgelengde. Dette er i strid med kravet om at innspillingshodet må ha stor spalte. Av denne grunn er det i analoge kvalitetsopptakere vanlig å ha forskjellige innspillings- og avspillingshoder, og det samme er ofte tilfel le også i digital innspilling. Figur 6.7 viser at en rekke problemer oppstår når en asymmetrisk arbeidssyklus (det vil si at signalet inneholder en DC-komponent) spilles inn. Mangelen på DC-respons forårsaker et nivåforskyvning. Kombinert med spenningsendringens endelige flankesteilhet kan forskyvningen forårsake tidsreferansefeil hvis man ikke omhyggelig deler signalet ved sin egen senterspenning. Den endelige spaltebredden i avspillingshodet gjør at fluksreverseringer med små mellomrom blander seg med hverandre, og dette gir forvrengning på grunn av toppunktsforskyvning (også
(a)
Figur 6.8. a.Toppunktsforskyvningsforvrengning kan reduseres ved hjelp av b.equalising ved avspilling, eller c.forbetoning.
99
kjent som intersymbolinterferens eller impulsopphopning), og kurveformens asymmetri reduse res lett, noe som gir tidsreferansefeil. Den mekanismen som er ansvarlig for toppunktsforskyvning vises i figur 6.8a. Vi ser resultatene av at to uavhengige og motsatte transisjoner passerer hodet, og hvis man summerer disse, får man det resultat som blir dersom man spiller av to nært sammen. Gjensidig påvirkning mellom de to transisjonene reduserer signalamplituden og skyver toppunktene fra hverandre. For å unngå toppunktsforskyvning kreves korreksjon av kanalen, og dette kan gjøres ved hjelp av et nettverk etter avspillingshodet som kalles equaliser eller impulssliper, som i figur 6.8b, eller foran innspillingshodet, hvor det kalles forbetoning, som i figur 6.8c. Begge disse teknikkene benytter transversal filtrering for å motvirke hodets naturlige transversale virkning. Som en kontrast drar delvis responsavspilling nytte av intersymbolinterferens, og er faktisk avhengig av det. I praksis er det vanskelig å få til korrekt equalising til enhver tid. Overflateruhet på båndet og ujevnheter i basismaterialet gir variasjoner i bånd/hodekontakten, og dette endrer responsen ved høye frekvenser mye mer enn ved lave frekvenser. Dette underminerer enhver fastsatt equalising. På harddisker resulterer varierende sporradius i en lineær tetthetsvariasjon på ca. to til en, og tyk kelsen på lufthinnen, som forårsaker dybdetap, forandres også. I Compact Disc betyr spindelkast og plateskjevhet at det fokale plan stadig beveger seg, og punktstørrelsen vil variere på grunn av fokuseringsservoens etterslep. Optimal equalising er vanskelig under dynamiske forhold, selv om man i prinsippet kan lage en adaptiv equaliser som benytter tidsreferansefeilene forårsaket av dårlig equalising til å endre responsen. Man får et klarere bilde av situasjonen ved å studere utsty rets pulsrespons enn ved å se på frekvensresponsen, noe som er naturlig ettersom digitalteknik ken arbeider med pulssignaler. I laserinnspilling reagerer interferensavlesningsprosessen ned til DC, men vanligvis er det fokuserings- og sporingsmekanismene som trenger de lave frekvensene, og DC-frie kanalkoder er fremdeles nødvendige. Høyfrekvensresponsen blir styrt av optikkens modulasjonsoverføringsfunksjon, som normalt begrenses av objektivets numeriske apertur. En laseropptakers frekvensrespons faller til null ved avskjæringsfrekvensen, og i motsetning til magnetisk innspilling stiger den ikke igjen. For en mer omfattende forklaring på dette emnet henvises til kapittel 11, samt behandlingen av laseroptikk i kapittel 10.
6.4. Jittervinduer Figur 6.9 viser flere muligheter for en fullstendig digital innspillingskanal. Den rekonstruerte kurveformen ved utgangen av denne kanalen er nå en kopi av innspillingssignalet med tillegg av tidsusikkerhet ved pulskantene på grunn av støy, jitter og tvilsom equalising. På samme måte som binære kretser avviser støy ved hjelp av to spenningsnivåer som ligger lengre fra hverandre enn usikkerheten som forårsakes av støy, unngår digital innspilling tidsusikkerhet ved hjelp av fluksreverseringer, såkalte transisjoner, ved multipler av en grunnleggende tidsperiode som er større enn den typiske tidsusikkerheten. Figur 6.10 viser hvordan denne mekanismen for jitteravvisning virker. Medium
Figur 6.9. En vanlig innspillingskanal med de forskjellige prosesser som er beskrevet i teksten. Det systemet som vises her muliggjør innspilling av en binær kurveform.
100
Signalet endrer seg kun ved multipler av detent-perioden Detent-periode, Ta
Signal med jitter
Signalet samples ved midten av detent perioden, derved avvises jitter
Figur 6.10. En viss mengde jitter kan avvises ved å endre signalet ved multipler av den grunnleggende «detent»periode Td. Jitter
® = beslutningspunkt
Figur 6.11. Ved beslutningspunktene må dekoderen avgjøre om signalets spenning er over eller under det nivået hvor det skal deles opp. Hvis øynene forblir åpne, vil dette være mulig med støy og jitter til stede.
Siden digitale transisjoner forekommer ved multipler av en grunnleggende periode vil et oscil loskop, som er synkronisert på tilfeldige data, vise et øyemønster dersom det blir koblet til equaliserens utgang. En studie av øyemønsteret forteller hvor godt den kodingen som er benyttet passer til kanalen. Støy lukker øynene i vertikal retning, og jitter lukker øynene i horisontal retning, se figur 6.11. I midten av øynene må dekoderen med jevne mellomrom treffe binære beslutninger vedrørende signalets tilstand, om det er høyt eller lavt. Dette blir mulig dersom øynene forblir merkbart åpne. Det er klart at mer jitter kan tolereres hvis det er mindre støy, og omvendt. Infor masjonsteorien tar vanligvis bare signal/støyforhold og båndbredde i betraktning i vurderingen av kanalkapasitet. I magnetiske og optiske opptakskanaler vil den teoretiske kapasiteten reduse res på grunn av jitter. Det er ikke mulig å spille inn data direkte på mediet, fordi sammenhengende enere og nuller kan forekomme i reelle data og som vist i figur 6.12, er dette effektivt sett en DC-komponent av kildedataene. Vekslende enere og nuller representerer den andre ytterlighet, en frekvens på halv parten av bitraten, kjent som Nyquist-frekvensen. Magnetiske opptakere vil ikke reagere på DC, og det er heller ikke mulig å skille mellom etterfølgende identiske bits i en kanal med tidsustabilitet. To bits
En syklus
111
1
111111111
En syklus?
Figur 6.12. De ytterliggående tilfeller av reelle data. Vekslende enere og nuller gir den høyeste Nyquist-frekvens (= halve bitraten). Sammenhengende enere (eller nuller) gir DC. Reelle data fyller spekteret fra DC til Nyquistfrekvensen.
101
Disse problemene kan begge løses med en passende kanalkode, som vil kombinere en klokke med dataene før innspilling, på en måte som reduserer DC-innholdet, og som gjør at nærliggende symboler blir skilt ved avspilling. Figur 6.13 viser at en kanalkoder er nødvendig før innspill ingstrinnet og at en dekoder, også kalt en dataseparator, er nødvendig etter avspillingstrinnet.
Figur 6.13. Kanalkoding er inngangsdata og klokkepuls kombinert til en enkelt kurveform. Ved avspilling rekonstrueres kanalkoden til den opprinnelige datastrøm ved hjelp av dataseparatoren.
Noen koder eliminerer DC-innholdet fullstendig, noe som er en fordel ved innspilling med ro terende hode. Noen koder kan redusere den nødvendige kanalbåndbredde ved å senke den øvre signalfrekvens. Dette gir rom for høyere lineær tetthet, men vanligvis på bekostning av jitteravvisning. En kode med et smalt spekter har en rekke fordeler. Reduksjonen i asymmetri vil reduse re toppunktsforskyvning, og dataseparatorer kan lettere låse der hvor det er færre mulige frekvenser. Teoretisk sett blir det mindre støy jo smalere spekteret er, men overdreven støyfiltrering kan ødelegge equalisingen slik at det ikke blir noen gevinst. En passende definisjon på en kanalkode (det fins nemlig flere) er: En måte å modulere reelle data på slik at de kan mottas på en pålitelig måte til tross for en virkelig kanals mangler, og som samtidig gjør maksimal økonomisk bruk av kanalkapasiteten. Lagringstettheten i digitale opptakere har økt jevnt takket være forbedringer i medium og transduktorteknologi, men er også et resultat av forbedringer i kanalkoding. Figur 6.14a viser hvordan lineær pakningstetthet har øket på grunn av kanalkoding alene, og innfører en av de fundamentale parametre for en kanalkode, nemlig tetthetsforholdet (eng.: Density Ratio - DR). En definisjon på tetthetsforhold er forholdet mellom antall innspilte databits og antall transisjoner i kanalen. Det kan også beskrives som forholdet mellom datastrømmcns Nyquist-frekvens og kanalens frekvensrespons. Med bedre maskinvare som øker kanalkapasiteten, kan bruken av en kode med høyere tetthetsforhold øke kapasiteten ennå mer. Man bør være klar over at mange av de kodene om blir beskrevet i dette kapitlet er patentbeskyttet, og at ikke-optimale koder ofte benyttes for å unngå å betale patentavgifter. Det innspilte signalets grunnleggende tidsperioder kalles posisjoner eller «detents», hvor den innspilte fluks vil reverseres eller forbli lik. avhengig av tilstanden til den kanalbit som definerer «detenten». Det symbolet som brukes om kanalens tidsenheter er Td. Kanalkoding er kunsten å konvertere reelle data til kanalbits. Det er viktig å være klar over at en ener representerer en fluksendring i kodingskonvensjonen, en null representerer ingen endring.
6.5. Kanalens mangler Hvis man skal utnytte kanalen effektivt, må man forstå dens mangler. Man må legge spesiell vekt på samspillet mellom båndbredde, jitter og støy, for det viser seg at det er nettopp det som er nøk kelen til konstruksjonen av en vellykket kanalkode. Mange kilder kan bidra til støy, fra partikkel-, friksjons- og modulasjonsstøy i magnetisk inn spilling til termisk støy i hodeviklinger og radiomottakere. Overhøring i flersporopptakere kan skrive seg fra gjensidig induksjon mellom nabokanaler. I magnetbåndet skaper kopieffekten yt terligere uønskede signaler. På harddisker er det vanlig med overskriving uten sletting, og dette 102
2.0
; HDM-3
' RNRZ
1.0
) : 2/3 1.5
) ; 3PM, 2.7, HDM-1,2 2-4M
1 ; EFM : 2/3
: MFM, RNRZ
1.0
o 75 ) : HDM-1,2, 3PM., 2.7 2-4M, HDM-3
; EFM : : 4/5,8/10 0.5 ; 1 MFM
4/5,8/10
o.5
;
FM
3
FSK
0 --
(a)
;
FM, FSK
0 -
(b)
Figur 6.14. a.Sammenligning av koder ved hjelp av tetthetsforhold, b. sammenligning av koder ved hjelp av en kvalitetsfaktor, «figure of merit». Merk hvordan 4/5, 2/3, 8/10 + RNRZ beveger seg opp på grunn av god jitterytelse, HDM-3 går ned på grunn av jitterfølsomhet.
resulterer i at tidligere innspilte data kan gi forstyrrelser, hvis hodet ikke følger sporet nøyaktig ved overskrivning. På optiske plater får man overhøring fra tilstøtende spor på grunn av laserpunktets intensitetsfunksjon. Kanalens informasjonskapasitet minker på grunn av alle disse for mene for støy, fordi kurveformens oppløsning begrenses. Dette er definert av Shannon. De fleste kanaler har mangelfull tidsstabilitet, spesielt innspillingssystemer. Alle kjenner wow og flutter i analogt lydutstyr. I digital sammenheng kalles det jitter. Tidsustabilitet mellom kana ler, som vi i analog innspilling kaller fasing, kalles «skew» (forskyvning). Ved båndinnspilling forårsaker mangler i drivverket relativt små hastighetsvariasjoner, men jitter med høyere fre kvens forårsakes av båndets fleksibilitet i samband med uregelmessigheter i kontaktflaten mel lom hode og bånd. Magnetiske og optiske plater har mindre jitter, fordi det ikke er noen kontakt mellom hode og medium, og fordi platen er stiv. Imidlertid kan de ha en syklisk variasjon i sporhastighet på grunn av unøyaktig sentrering. Ved radiomottaking kan reflekterte bølger forårsake fasing (tidsustabilitet). Denne virkningen er også merkbar i fiberoptiske forbindelser med flere ledere. I begge tilfelle kan det oppstå en kamfiltervirkning fordi den samme kurveformen kommer til forskjellige tider. I fibre med enkel leder finner man ikke denne virkningen. Som tidligere nevnt resulterer også ufullkommen equalising i tidsusikkerhet. Alle de mangler som her er nevnt reduserer kanalkapasiteten. Shannon forbandt båndbredde og støy med informasjonskapasitet, men det er nødvendig å ta virkningen av tidsustabilitet i be traktning. Figur 6.15 viser at for et signal med endelig stigetid, forårsaker jitter usikkerhet om kring signalspenningen i forhold til en stabil tidsreferanse. Dette har samme virkning som støy - faktisk kaller noen det for jitterstøy. Siden virkningen er proporsjonal med kurveformens steil het, øker den med frekvensen. Dette innfører en viktig kanalkodeparameter til, nemlig jittermarginen, som også er kjent som vindusmarginen eller fasemarginen (Tw). Den er definert som den tidsperiode hvor en transisjon fortsatt kan dekodes korrekt, dividert med bitcelleperioden (T). Fordi equalising ofte er vanskelig i praksis, vil en kode med større jittermargin noen ganger be nyttes ved korte innspilte bølgelengder, fordi den står imot virkningene av toppunktsforskyvning. En slik kode kan oppnå en bedre pakningstetthet enn en kode som har høyere tetthetsforhold, men dårligere jitterytelse. En mer realistisk sammenligning av kodeutførelse oppnås ved å ta både tetthetsforhold og jit termargin i betraktning. Dette er hensikten med «figure of merit» (FoM), som defineres som DR X Tu. Figur 6.14b viser en sammenligning av koder ved hjelp av FoM.
103
Tidsusikkerhet
Figur 6.15. Jitter kan betraktes som en form for støy.
6.6. Enkle koder Vi vil nå ta for oss noen enkle koder. Det vesentlige ved kanalkoding er å konvertere reelle data til kanalbits. Siden tidskvantiseringen er lineær kan kanalkoder lett sammenlignes ved hjelp av en analyse av autokorrelasjonsfunksjonen. Autokorrelasjon betyr at et signal blir forsinket og multiplisert med seg selv. Når forsinkelsen endres får man en kurve av produktet mot forsinkelsen, og denne kalles autokorrelasjonsfunksjonen. De fleste parametrene ved en kode kan lett leses ut av autokorrelasjonsfunksjonen. Det er vanskeligere å lese dette ut fra kodespekteret, som oftest brukes. Figur 6.16 viser en rekke koders autokorrelasjonsfunksjon. Valg av FM i analoge opptakere tillot innspilling av DC-nivåer for instrumentering og video. Når et binært signal forsyner en frekvensmodulator, blir resultatet «frequency shift keying» (FSK) som vist i figur 6.17a. Dette er naturlig DC-fritt og passer for radiosending og opptakere med roterende hode. Det blir benyttet på originalopptakerne for produksjon av Compact Disc og med enhver videospiller brukt med en PCM-omformer. Kapittel 8 dekker digital lydinnspilling med roterende hode. FSK har et dårlig tetthetsforhold, men dette er ikke så viktig i PCMomformere fordi videospillerens båndbredde er mer enn tilstrekkelig. Grensetilfellet av FSK er binær FM (også kjent som Manchester-koden som vi ser i figur 6.17b). Dette var den første praktiske selvklokkende binærkode. Den er DC-fri og svært enkel å kode og dekode. Den er fortsatt i bruk der hvor innspillingstetthet ikke er av største betydning, f.eks. i enkelttetthetsdisketter, i SMPTE/EBU-tidskode og referansesporet i DASH-formatet. Den benyttes også i AES/EBU-standarden for digitalt lydgrensesnitt som er beskrevet i kapittel 5. I FM er det alltid en transisjon ved bitcellegrensen som opptrer som en klokke. For en data-ener blir det en transisjon til i bitcellens senter. Figur 6.17c viser at hver databit er representert av to kanalbits. For data 0 blir det 10, data 1 gir 11. Siden den første biten alltid er en, overfører den in gen informasjon, hvilket gir et tetthetsforhold på bare 0,5. Ettersom det for hver databit kan være to transisjoner, kan jittermarginen bare være en halv bit, og dette gir en FoM på bare 0,25. FM’s høye klokkeinnhold betyr imidlertid at datarekonstruksjon er mulig over et stort hastighetsområde. derfor brukes den bl.a. for tidskode. I MFM blir det overflødige klokkeinnholdet i FM redusert ved hjelp av en faselåst sløyfe (eng.: Phase Locked Loop - PLL) i dekoderen som fastholder klokkefrekvensen over manglende klokketransisjoner. Denne teknikken blir brukt i alle mer avanserte koder. Transisjonen i midten av en 1-b i teel le ble beholdt, men transisjonen mellom bitcellene trengs nå bare mellom etterfølgen de nuller. Det er fremdeles to kanalbits for hver databit, men tilstøtende 1-kanalbits vil aldri fore komme. Dette fordobler minimumstiden mellom transisjoner og gir en DR på 1. Kodingen av en
104
Figur 6.16. Sammenligning av koder ved hjelp av løpelengdens autokorrelasjonsfunksjon.
databit blir nå bestemt av den foregående biten. Det maksimale antall foregående bits som påvir ker den aktuelle bit kalles «bestemmende lengde» (eng.: Constraint Length - Lc), målt i databit perioder. For MFM er Lc = T. En måte å vurdere den bestemmende lengden på er at databits kan være korrumpert, og hvis Lc er lang, vil alle feil bli gruppefeil (eng.: Burst Error). MFM fordoblet tetthetsforholdet sammenlignet med FM uten å endre j ittery tel sen, derfor for dobles også FoM. Den ble tatt i bruk på harddisker og er fortsatt i bruk på disketter med dobbelt tetthet. Imidlertid er den ikke DC-fri. Figur 6.17d viser hvordan MFM kan ha DC-innhold og at DC-innholdet i Miller2-koden er eliminert ved hjelp av en liten økning i kompleksitet. Der hvor et like antall enere forekommer mellom nuller, blir transisjonen ved den siste eneren utelatt. Det te innfører et nytt trinn i autokorrelasjonsfunksjonen fordi Tmax er øket. Miller-koden ble brukt i noen tidlige digitale lydopptakere med stasjonært hode, og blir fortsatt brukt i instrumenteringsinnspilling med høy bitrate og i digitale videokassetter til profesjonelt bruk. Fordelene med Miller-koden kan også oppnås ved nullmodulasjon, men med en økning i kom pleksitet.
105
Figur 6.17. Utvikling fra FSK til Miller2. Merk at selv om Miller2 er DC-fri er T„a, og L dårligere enn MFM.
6.7. Gruppekoder For å oppnå ytterligere forbedringer i kanalkoding kan man konvertere reelle datamønstre til kanalbitmønstre med flere ønskelige egenskaper ved hjelp av en konverteringstabell. Vi kan kalle den for en binær kodeordbok. Hvis man tar et datasymbol på m bits kan det ha 2m forskjellige kombinasjoner. Ettersom uønskede mønstre skal forkastes for å forbedre koden betyr det at antall kanalbits n må være større enn m. Antall mønstre som kan forkastes blir:
2n _ 2m
Et navn på dette prinsippet er gruppekodeinnspilling (Group Code Recording - GCR) og en vik tig parameter er koderaten, definert slik: Koderate, R = m/n
Det er innlysende at jittermarginen Tw er numerisk lik koderaten, og derfor blir en høy koderate uønsket. Valg av mønstre som benyttes i kodeboken, blir de som gir ønsket balanse mellom klokkeinnhold, båndbredde og DC-innhold. Figur 6.18 viser at den øvre signalfrekvensen kan gjøres til en fraksjon av kanalbitfrekvensen i henhold til den minste avstand mellom enere i kanalbitene. Dette er kjent som Tmin, også be nevnt som «minimum transisjonsparameter M», og blir i begge tilfeller målt i databits T. Den kan oppnås ved å multiplisere antall kanal «detent»-perioder mellom transisjoner med koderaten. Uheldigvis blir kodene målt ved hjelp av antall etterfølgende nuller i kanalbitene, med symbolet d, som alltid er en mindre enn antall «detent»- perioder. Faktisk er Tmin numerisk lik tetthetsfor holdet (DR). ,, (d + 1) X m Tmin = M = DR = ---------- -------n
Det vil være innlysende at tetthetsforholdet økes når man velger en lav koderate, men samtidig svekkes jittermarginen. «Figure of merit» er: 106
FoM = DR x Tw = -- ----- n‘ n2 siden Tu = m/n
Tmn {M)
1ZZ-3.L-TJ 1 syklus
Figur 6.18. Kanalkodens spekter kan kontrolleres ved å sette grenser for T„„„ (M) og Tma. som definerer øvre og nedre signalfrekvens. Forholdet bestemmer kurveformens asymmetri og forutsier kodens DC-innhold og toppunktsforskyvning. Eksemplet som vises er EFM.
d=3 f
x
A
f
k=9 A
>
001000100000000010
0
01
00
Kanalbits Skrivestrøm
1"'max
Figur 6.19. Kanalbit-regelen er at 1 representerer en transisjon. Parametrene d og k er antall nuller mellom enere, d = min. k = max. Det er klart at T,„„„ T„m er større enn d.k med en kanalbitperiode.
Figur 6.19 viser at den nedre signalfrekvens bestemmes av den maksimale avstand mellom tran sisjoner Tmax. Dette finner vi også ved å multiplisere det maksimale antall «detent»-perioder mellom transisjoner med koderaten. Igjen blir kodene målt ved hjelp av det maksimale antall nul ler mellom kanal-enere, k, derfor blir: T 1 max
(k + 1) x m n
og det maksimale/minimale forholdet P blir:
P = Ji±L d + 1 Tidslengden mellom kanaltransisjoner er kjent som løpelengden. Et navn på denne kodetypen er RLL (Run Length Limited), som betyr koder med begrenset løpelengde. Ettersom m databits be traktes som et symbol, vil den bestemmende lengde Lc i RLL-kodene minst økes til m. En kode kan imidlertid ha begrenset løpelengde uten at den er en gruppekode. I praksis kan to tilstøtende kanalsymboler bryte reglene for løpelengde, og det er nødvendig å opprette ytterligere en kodebok med symbolstørrelse 2n som konverterer ugyldige koder til ak septable. Dette kalles skjøting, og følger den gyldne regel at erstatningssymbolet 2n må slutte med et mønster som eliminerer muligheten for et etterfølgende regelbrudd. Disse mønstrene må også være forskjellige fra alle andre symboler. Erstatning kan også benyttes i forskjellig grad i den samme nominelle kode for å gi et valg av maksimal løpelengde. f.eks. 3PM. Det maksimale antall symboler i en erstatning betegnes med r. Det fins mange RLL-koder, og parametrene d, k, m, n og r er en måte å sammenligne dem på. Noen ganger danner koderaten navnet på koden, som f.eks. i 2/3, 8/10 og EFM. andre ganger kan kodene kalles opp etter d.k-parametrene, som f.eks. i 2,7-koden.
107
Vi vil gi flere eksempler som illustrerer prinsippet. 4/5-koden benytter 16 av 32 mulige kanalsymboler for å representere dataene. Kriteriet for 4/5 var høyt klokkeinnhold for å motstå jitter uten å ofre for mye DR. Kodeboken vises i tabell 6.1. Hver ener i koden representerer en fluksreversering, og det er aldri mer enn tre kanalbits (2,4 databits) mellom klokketransisjoner (k = 2). Dette gjør det mulig å benytte et enkelt AGC-system i lesekretsene. Siden man måtte forkaste ko der for å oppnå hovedkriteriet, må de gjenværende kodene aksepteres - slik blir den minimale løpelengdebareenbit, fordi tilstøtende enere er tillatt i kodeboken (d = 0). Koden beskrives derfor som 0, 1, 4, 5, 1. Lc = 4T, og tetthetsforholdet er gitt av:
(d + 1) x m
DR =
----------------------------- — 0,0
n
Tabell 6.1. Kodebok for 4/5-kode. Maksimalt antall nuller (k) er to; derfor er Tma, 4(k + l)/5 = 2,4 bit. Tilgrensende verdier godtas; derfor er DR = 4/5.
Data Desimal
Binær
0 1 2 3
0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 HOI 1110 1111
4 5 6 7 8 9 10 11 12 13 14 15
Kanalbits
11001 11011 10010 10011 11101 10101 10110 10111 11010 01001 01010 01011 11110 01101 01110 01111
Det nødvendige spekter er derfor 1,25 ganger det dataene har, men det kan ikke bli noen regel brudd mellom tilstøtende koder, og man oppnår den usedvanlige gode vindusmargin Tw på 0,8 T, som igjen gir en FoM på 0,64. Denne koden ble benyttet av IBM 6250BPI-båndformat og representerte en forbedringsfaktor på nesten fire sammenlignet med sin forgjenger, det 1600BPI fasekodede (PE) systemet. FoM var bedre enn PE med en faktor på mer enn 2 ¥2, derfor trengte ikke forbedringene av hode og bånd bli så omfattende. Figur 6.20a viser en optimalisert kode som også illustrerer skjøteprosessen. Dette er en 1, 7, 2, 3,2-kode, kjent som 2/3. Den er konstruert for å ha et stort vindu til å motstå toppunktsforskyvning i harddisker, og har også et godt tetthetsforhold. I 2/3-koden danner databitparsymboler på tre etterfølgende kanalbits. For å redusere båndbredden elimineres alle koder med tilstøtende enere. Dette halverer kodespekteret, og tetthetsforholdet forbedres tilsvarende:
DR = (d + D xm n
2x2 --------- = 1,33 3
I figur 6.20b vil virkningen av noen datakombinasjoner bli ugyldige kodemønstre. Derfor blir par av tre kanalbitssymboler erstattet av et nytt sekskanalbits symbol. Lc blir da 4 T, det samme som for en 4/5 kode. Jittervinduet er gitt av:
m 2T Tw = — = —— n 3
108
og FoM er:
2 4 8 — x — =— 3 3 9
Kode
Data
0
0
1
0
1
0
1
1
0
0
1
0
0
0
1
1
1
0
1
0
(a)
Erstatning
Illegal kode
Data 0
0
0
0
10
1
10
1
10
10
0
0
0
0
0
1
10
110
0
1
0
0
0
0
0
10
0
0
0
0
1
10
1
0
0
1
0
0
0
10
0
1
0
0
1
10
0
0
1
0
0
0
0
(b)
Figur 6.20. 2/3-kode. Ia uttrykkes to databits (m) som tre kanalbits (n) uten tilstøtende transisjoner (d = 1). Ugyldige møn stre fjernes ved hjelp av erstatning. 2x2 (d + 1) m DR = ------------= 1,33 ~3 n Tilstøtende datapar kan bryte koderegelen, da blir det laget erstatninger, som vist i b.
Dette er en usedvanlig god verdi for en RLL-kode, og er ca. 10 % bedre enn FoM for 3PM og 2,7-kodene. Figur 6.21 viser en 8,14 kode (EFM) som blir brukt i Compact Disc. Her representeres åttebitssymboler av 14-bits kanalsymboler. Det fins 256 kombinasjoner av åtte databits, mens 14 bits har 16K kombinasjoner. Av disse tilfredsstiller bare 267 kriteriet om at den maksimale løpelengde ik ke skal overstige 11 kanalbits (k = 10) eller være mindre enn tre kanalbits (d = 2). En del av kodeboken vises i figuren. Faktisk benyttes 258 av de 267 mulige kodene, fordi to unike synkroniseringsmønstre benyttes for å betegne begynnelsen på en subkodeblokk (se kapittel 11). Det er ikke mulig å hindre brudd på reglene mellom tilstøtende kanalsymboler ved hjelp av erstat ning, og det er nødvendig med tre ekstra skjøtebits mellom symboler. Disse bitene benyttes i til legg til DC-kontroll, ettersom CD-kanalkoden må være DC-fri. Skjøtebitene velges ved å beregne kanalbitenes digitale sumverdi (DSV). DSV beregnes ved å legge til en for hver kanalbitperiode kodekurveformen er høy, og ved å trekke fra en for hver periode den er lav. Figur 6.22 viser at dersom to etterfølgende kanalsymboler har samme slags DC-innhold kan de annullere hverandre ved å plassere en ekstra transisjon i skjøtebitene. Dette gjør at det andre mønsteret snus, og DC-innholdet reverseres. Den DC-frie koden kan høypassfiltreres ved avspilling, og sig nalene med lavest frekvens benyttes da av fokuserings- og sporservoene uten støy fra modulasjo nens DC-innhold. Det er komplisert å kode EFM, men dette er akseptabelt fordi det lages få CD-graveringsmaskiner. Det er enklere å dekode, og det kan gjøres ved hjelp av en oppslagstabell. Forholdet mellom datamønstrene og kanalbitene ble optimalisert ved hjelp av datamaskiner for å muligjøre en dekoder som var så lite kompleks som mulig.
109
Data J
100 101 102 103 104 105 106 107 108 109 110 111 ...u 112 UlCnSQ sv i«q
kodelisten 115 116 117 118 119 120 121 122 123 124 125 126 127
I________ I
01100100 01100101 01100110 01100111 01101000 01101001 01101010 01101011 01101100 01101101 01101110 01101111 01110000 01110001 01110010 01110011 01110100 01110101 01110110 01110111 01111000 01111001 01111010 01111011 01111100 01111101 01111110 01111111
I
I
242
01000100100010 00000000100010 01000000100100 00100100100010 01001001000010 10000001000010 10010001000010 10001001000010 01000001000010 00000001000010 00010001000010 00100001000010 10000000100010 10000010000010 10010010000010 00100000100010 01000010000010 00000010000010 00010010000010 00100010000010 01001000000010 00001001001000 10010000000010 10001000000010 01000000000010-* 00001000000010 00010000000010 00100000000010
Figur 6.21. EFM-kode: d = 2,k = 10. Åtte databits lager fjorten kanalbits pluss tre skjøtebits. Koderaten er 8/17. DR = (3 x 18) 17 = 1,41.
periode
Figur 6.22. a. Eksempel på digital sumverdi beregnet etter EFM kurveform. b.To etterfølgende 14T symboler uten DCkontroll (øverst) gir en DSVpå -16. Tilleggstransisjon (*) resulterer i en DSVpå +2, idet det ventes et negativt innhold i neste symbol.
110
Fordi skjøtebitene er medregnet blir kodefrekvensen 8/17, og tetthetsforholdet blir: 3x8 ——— = 1,41
og FoM blir:
3 x 82 ——— = 0,66
Koden er altså et 2, 10, 8, 17, r-system, hvor r bare har betydning i forbindelse med DC-kontroll. Konstantene d og k kan fremdeles imøtekommes med r = 1 på grunn av skjøtebitene. «Figure of merit» er mindre brukbar for optiske medier fordi den rettlinjede frekvensresponsen ikke skaper toppunktsforsky vning, og det stive kontaktløse mediet er stort sett uten jitter. De viktigste faktore ne her er tetthetsforholdet og mangelen på DC. En annen måte å behandle skjøting på er bruken av 4/6M-koden, og denne benyttes i flersporopptakere av ProDigi-format. Som vi ser av tabell 6.2 vil gruppen av inngangsdata være enten fire eller åtte bits, avhengig av datamønsteret, og vil kodes til seks eller ni kanalbits. I noen kanalmønstre er den første kanalbiten den motsatte av den siste kanalbiten i foregående gruppe. Siden det aldri er to enere ved siden av hverandre i kanalmønstrene, er Tmin 1,33 Td, og tetthetsforhol det blir også 1,33. Ettersom koderaten er 4/6, blir jittervinduet Tw 0,66. FoM blir 0,89, altså det samme som for 2/3. Det lave båndforbruket i RDAT oppnås ved en kombinasjon av smale spor og høy lineær datatetthet langs sporet (se kapittel 8). Det sistnevnte oppnås ved en kombinasjon av hodekonstruksjon og den kanalkode som benyttes. Den hodespalte som vanligvis benyttes er 0,25 pm. Det vesentlige trekk ved RDAT-kanalkoden er at den må kunne virke bra i et azimutinnspillingssystem. Det fins mange kanalkoder, men få av dem passer til azimutinnspilling på grunn av mye overhøring. Fjerning av overhøring i azimutinnspilling går ikke ved lave frekvenser, slik at en passende kanalkode ikke bare må være DC-fri, men den må også være uten lave frekvenser. Videre skjer sletting ved hjelp av overskriving, og ettersom hodene er optimalisert for korte bøl gelengder, vil den beste sletting skje når forholdet mellom den lengste og korteste bølgelengde i innspillingen er lite. I tabell 6.3 ser vi noen eksempler fra RDAT’s 8/10-gruppekode. En kanalkurveform som er like lenge høy som lav har ikke noe netto DC-innhold, og dette er kriteriet for de ønskede tibitsmønTabell 6.2. 4/6 M-koden i ProDigi flersporopptakere. Fire eller seks databits blir seks eller ni kanalbits. X representerer 1 hvis slutten på foregående gruppe er null og omvendt. Data 0000 000100 000101 000110 000111 001000 001001 001010 001011 001100 001101 001110 001111 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111
Kanal bits 010000 XOOO10001 X00100001 X01000001 X01010001 010000001 010010001 010100001 XOOO 10000 X01010000 010010000 X00100000 010100000 010010 X00100 010100 X0I000 X01001 010001 X00010 X01010 xooooo X00001 X00101 010101
111
Tabell 6.3. Et utdrag fra 8/10 kodeboken for ikke-null DSV-symboler (to varianter) og null DSV-symboler (en variant). 8-bit dataord
10-bit kodeord
DSV
00010000 00010001 00010010 00010011 00010100 00010101 00010110 00010111
1101010010 0100010010 0101010010 0101110010 1101110001 1101110011 1101110110 1101110010
0 2 0 0 2 2 2 0
Alternative kodeord
DSV
1100010010
-2
0101110001 0101110011 0101110110
-2 -2 -2
strene. Siden tilstøtende kanal-enere er tillatt, blir vindusmarginen og DR 0,8, som gir en FoM på 0,64. Dette er det samme som for IBM 4/5-koden, men ved å bruke større symboler får man flere kombinasjoner tilgjengelige for optimalisering. Uheldigvis er det ikke nok DC-frie kombi nasjoner i ti kanalbits til å gi de 256 nødvendige mønstrene for å spille inn åtte databits. Et ytterli gere problem er at det er ønskelig å begrense den maksimale løpelengde for å forbedre evnen til overskriving og å redusere toppunktsforskyvning. I RDATs 8/10-kode tillates ikke flere enn tre kanalnuller mellom kanal-enere, noe som gjør at Tmax bare blir fire ganger Tmin. Det er bare 153 tibits mønstre som ligger innenfor denne maksimale løpelengden og som har en DSV på nuh. De gjenværende 103 datakombinasjonene blir spilt inn ved hjelp av kanalmønstre med DSV ulik null. To kanalmønstre tildeles hver av de 103 datamønstrene. En av disse har en DSV på +2, den andre -2. For å gjøre det enkelt er den eneste forskjellen mellom dem at den første kanalbiten blir snudd. Valget av hvilket kanalbitmønster som skal benyttes er basert på DSV fra foregående kode. Hvis for eksempel flere bytes er blitt spilt inn med noen av de 153 DC-frie mønstrene, vil kodens DSV bli null. Den første databyte uten noe nullulikhetsmønster blir så funnet. Hvis man be nytter -1-2 DSV-mønsteret vil koden på slutten av mønsteret også bli +2 DSV. Når neste mønster av denne type blir funnet vil den koden som har en DSV på -2 automatisk bli valgt for å bringe kanalens DSV tilbake til null. Slik forblir koden DC-fri, men den maksimale avstand mellom transisjoner kan forkortes. For å redusere kodingslogikkens kompleksitet, er det i GCR vanlig å optimalisere forholdet mellom datamønstre og kodemønstre ved hjelp av datamaskiner. Dette er blitt gjort med 8/10 slik at konverteringen kan utføres i en programmerbar logisk krets (Programmable Logic Array PLA). Logikken produserer bare DC-frie mønstre eller mønstre med DSV = +2, ettersom DSV = -2-mønsteret oppnås ved å reversere den første biten. Beregningen av DSV gjøres på en inte ressant måte. Hvis den andre biten i et kanalbitpar er en, må paret være DC-fritt fordi hver «detent» har forskjellig verdi. Hvis man undersøker de fem like kanalbitene i et tibitsmønster med hensyn di paritet og resultatet blir en, kan mønsteret ha en DSV på 0, ± 4 eller ± 8. Hvis resultatet er null, kan DSV være ± 2.± 6eller ± 10. Imidlertid er de koder som benyttes enten null eller +2 DSV, så paritetsbitens tilstand skiller mellom dem. Figur 6.23a viser PLAs sannhetstabell, og figur 6.23b viser kodingskretsen. Det laveste sett XOR-porter beregner pariteten på det siste mønsteret som skal spilles inn, og lagrer DSV-biten i latchen (midlertidig minne). Den neste databyte som skal spilles inn mates til PLA’en som gir et tibitsmønster ut. Hvis dette er en null-ulikhetskode passerer den uendret til utgangen. Hvis det er en kode med DSV på +2, oppdages dette av de øvre XOR-portene. Hvis latchen er satt betyr dette at et tidligere mønster hadde en DSV på T2, og den første biten i kanalmønsteret blir snudd av XOR-porten i den rekken, og latchen resettes fordi kodens DSV er brakt tilbake til null. Dekoding er enklere, fordi det er et direkte forhold mellom tibitskoder og åttebits data.
6.8. Lagvise RLL-koder Det er blitt nevnt at man kan begrense en kodes løpelengde selv om den ikke er en gruppekode. Et eksempel på dette er HDM-l-koden som benyttes i opptakere av DASH-format (Digital Audio Stationary Head), se kapittel 9. Kodingen beskrives best som lagvis, og som vi ser av figur 6.24
112
a = A + CZ + Y (C ® F (G + H)) b = A (B + DE) + Å (B + C)
c = ÅC + A (D + E) + BDE d = A (C + BDE) + CDE + CZ + (AB ® FGHY) é= (AB + D) E + ABCDE + YF (G + H)
f = AE [C + (B ® D)J + [(D + CE) ® F (G + H)]
g = F G + Y + (B + C) Z h= FGH + FY
i = H + FG + F Y
where Y = A (B + C) DE
j=FG + FY
Z = ADEF(G + H)
(a)
Input data bytes
(b)
Figur 6.23. a. Sannhetstabellen for symbolkoding før kontroll av DSV. I b kontrollerer denne kret sen kodeulikhet ved å huske DSV ulik null i sperren og å velge et etterfølgende symbol med motsatt DSV.
er den ganske sammensatt. En DR på 1,5 oppnås ved å behandle inngangsbitmønsteret 0-1 som et enkelt symbol som får spilt inn en transisjon i enerens senter. Koden avhenger så ay om den for tsetter med enere eller vender tilbake til nuller. De kortere løpelengder benyttes for å beskrive se kvensielle enere, de lengre løpelengder beskriver sekvensielle nuller, maksimalt 4,5 T, og med en bestemmende lengde Lc på 5,5 T. I HDM-2, som er en avledning, er den maksimale løpe lengde redusert til 4 T, men dette er skjedd på bekostning av Lc, som da blir 7,5 T.
113
0—1
0
1
------- 1
-r
■ ■
■
Transisjon i midten av 1 bit celle
Figur 6.24. HDM-1 kode for DASH-format blir kodet i henhold til ovenstående regler. Transisjoner vil aldri være tettere enn 1,5 bits, og ikke lenger fra hverandre enn 4,5 bits.
2/4 M-koden som benyttes i kvarttomme ProDigi-opptakere er også lagvis og har samme tett hetsforhold og vindusmargin som HDM-1. Tmax er åtte bits. Hverken HDM-1 eller 2/4 M påstås å være DC-frie, men dette har mindre betydning ved stasjonære hoder, der lineær tetthet betyr mer. Koding av 2/4 M er like innviklet som for HDM-1, og vises i figur 6.25. To databits danner en gruppe og resulterer i fire kanalbits, hvor det alltid er to kanalnuller mellom enere for å oppnå en Tmin på 1,5. For å hindre forbudte løpelengder er det imidlertid en rekke unntak fra kodingen, og disse krever at et løpende sample på ti databits undersøkes - det er derfor koden må beskrives som lagvis, snarere enn som en erstattende gruppekode.
6.9. Tilfeldig NRZ Originale data passer ikke for direkte innspilling, fordi de som vi har sett har en udefinert maksi mal løpelengde, Tmax, som skaper store problemer med hensyn til klokkeseparasjon, AGC og DC-innhold. På andre måter har imidlertid rådata et potensial fordi tetthetsforholdet er kombi nert med et usedvanlig godt jittervindu - noe som gir en FoM på 1, som er høyere enn for de beste gruppekodene. Det er mulig å konvertere rådata til en kanalkode uten overflødig informasjon ved å utføre en modulo-2 (XOR) addisjon med en pseudotilfeldig sekvens. Som figur 6.26 viser er resultatet av denne prosessen at Tmax blir drastisk redusert. Hvis dekodingen skal bli korrekt, må den samme pseudotilfeldige sekvensen åpenbart være til stede ved avspillingen, synkronisert til dataene. I praksis kan ikke systemet godta virkelige tilfeldige data, for hvis dataene tilfeldigvis er identiske med den pseudotilfeldige sekvensen, vil systemet bryte sammen. Sannsynligheten for noe slikt 114
X X X X E4 E3 E2 E1 D D L1 L2 L3 L4 X X X X -y------------------------------ - ——'
V
Løpende utvalg av ti databits DD = aktuelle bits E(N) = foregående bits l_(N) = etterfølgende bits
(a)
Data bits DD
Kanal bits C1 C2 C3 C4 10 0 0
0 0
0
0
0
1
0
0
10
00
0 0
01 10
Y 0
0 0 10
1 0
0 0
0 0
0 0
1 0
Y
0
0
0
11
Unntak og erstatninger
E4 E3 = 10 E4 E3 ¥= 10 and E2 E2 = 10 and L1 L2 ¥= 01 E4 E3 10 and E2 E1 = 10 and L1 L2 = 01
E2 E2 E2 E2
El E1 E1 E1
¥=10 =10 =10 =10
and and and and
L1 L1 L1 LI
L2 = 00 L2 = 10 and L3 L4 = 00 L2 = 00 L2 = 10 and L3 L4 = 00
Y = XNOR av C3C4 av foregående DD (b)
Figur 6.25. Kodereglerfor 2/4 M kode. I a lages et løpende sample av to databits DD og tidligere og senere bits. 1 b blir to databits de fire kanalbitene som er vist unntatt når de spesifiserte erstatninger blir laget.
Figur 6.26. Modulo-2 tillegg med en pseudotilfeldig kode fjerner ubegrensede løpelengder i reelle data. En identisk prosess må finne sted ved avspilling.
er liten, og feilkorreksjonssystemet ville i så fall tatt seg av saken. Den såkalte tilfeldige NRZIkoding er blitt benyttet i digitale videoopptakere, fordi den pseudotilfeldige sekvensen reduserer kurveformens DC-innhold, noe som er viktig dersom det er en roterende transformator i kanalen.
6.10. Myk degradering I alle de kanalkoder som er beskrevet her har alle databitene lik signifikans, og hvis kanalens egenskaper forringes, faller sannsynligheten for mottak av alle bitene like raskt. I digital lyd har ikke alle bitene samme signifikans, ettersom en feil i den minst signifikante biten i et sample kan passere ubeme ket, mens en feil i MSB ikke vil godtas. I anvendelser hvor kanalens båndbredde er ukjent, eller hvor den kan forbedres etterhvert som en bestemt teknologi blir utviklet, er en an nen form for k< nalkoding foreslått, hvor sannsynligheten for bitfeil ikke er lik. Kanal spekteret er delt på en slik måte at de mest signifikante bitene i et sample opptar de laveste frekvensene, og de minst signifikante bitene de høyeste frekvensene.
115
Når et slikt signals kanalbåndbredde reduseres, påvirkes øyemønsteret slik at noen øyne blir ubestemmelige, mens andre blir merkbart åpne med jevne mellomrom. Dette sikrer korrekt de koding av klokkepuls og høyordensbits, mens feil konsentreres om lavordensbits. I en strøm av lydsampler betyr dette at kurveformen blir den samme, men den får et øket støynivå. De nødvendige feilkorreksjonsteknikker blir forskjellige, i og med at kodeordene må samles fra bits i forskjellige sampler med samme signifikans.
6.11. Synkronisering I de fleste kodene som her er beskrevet, er en forbedring av en ønsket parameter oppnådd enten ved å ofre en annen parameter eller ved en økning i kompleksitet. Det er ofte klokkeinnholdet som får lide, slik at det antall kanalbits som må måles mellom transisjoner blir ganske høyt. Den ene ste måten å dekode kanalkoden på er å benytte en faselåst sløyfe (PLL) for å oppdatere kanalbitklokken. En fastfrekvensklokke ville ikke være til noen nytte, for selv om man kunne få mediet til å bevege seg med riktig hastighet slik at kanalbitfrekvensen passet overens med klokkefrekvensen, ville de momentane feilene på grunn av jitter være uovervinnelige. I faselåste sløyfer blir den spenningsstyrte oscillatoren drevet av en fasefeil som er målt mellom utgangen og en referanse, slik at oscillatoren til slutt svinger med samme frekvens som referansen. Hvis en deler plasseres mellom VCOen og fasekomparatoren som i figur 6.27, kan VCO-frekvensen gjøres til en multip pel av referansen. Dette har også den virkning at sløyfen blir sterkere dempet. Dersom en kanal kode blir benyttet som referanse til en PLL, kan sløyfen gjøre en fasesammenligning når det forekommer en transisjon, men når det er kanalnuller mellom transisjoner, vil sløyfen svinge ved den sist kjente frekvensen og fase inntil den kan låse på nytt ved en etterfølgende transisjon. På denne måten kan man telle VCO-perioder for å måle antall kanalnuller mellom transisjoner og således dekode informasjonen. Figur 6.27 illustrerer denne mekanismen. Fasefeil
Styrespenning
Utgang
Figur 6.27. En typisk faselåst sløyfe hvor VCO er tvunget til å svinge med en multippel av inngangsfrekvensen. Dersom inngangssignalet opphører, vil utgangssignalet fortsette en stund ved samme frekvens inntil den driver av.
1
1212345612123412
Løpelengdetelling
Figur 6.28. For å rekonstruere kanalmønstrene, mates en faselåst sløyfe med kanalkoden og «går på tomgang» mellom transisjoner, og korrigerer sin fase ved hver ener. Telling av VCO-pulser (1) mellom transisjoner rekonstruerer kanalbitene. Hvis mediet endrer hastighet vil VCO følge etter. Dersom den maksimale løpelengde er for lang, kan ikke VCO fasekorrigeres ofte nok, og kan telle kanalbitsfeil dersom jitter er tilstede.
116
Det er klart at data ikke kan skilles hvis PLL ikke er låst, men den kan ikke låses før den har vært gjennom transisjoner en viss tid. Løsningen er å la et transisjonsmønster gå foran hver datablokk. Mønsterets eneste hensikt er å tilby en tidsstyringsreferanse for å synkronisere den faselåste sløyfen, og det kalles en blokkstart. I MFM er blokkstarten vanligvis resultatet av å kode alle nuller, som er en firkantkurve ved den bitraten. I høytetthetsinnspilling kan blokkstarten være en enkel fraksjon av bitraten for å hindre demping av de høyeste frekvenser når PLLen forsøker å låse. I magnetisk innspilling er det nesten alltid en blokkavslutning ved enden av datablokken. Igjen spilles noen nuller inn etter de reelle dataene. Når skrivestrømmen til magnetiske hoder slås av, oppstår ofte en transisjon som korrumperer de sist skrevne bitene. Blokkavslutningen kan på denne måten ødelegges uten at det får følger. En annen hensikt med blokkavslutningen er å gjøre en blokk istand til å bli lest baklengs. Dette blir ofte gjort på databånd for å forkorte tilgangstiden. Tidskoden må være leselig i begge retninger og i forskjellige hastigheter. Noen kanalkoder er konstruert for å virke baklengs, slik som fasekoding, 4/5 GCR, nullmodulasjon og FM. For bak lengs lesing må blokkavslutningen være like lang som blokkstarten, forøvrig kan den være mye kortere. Når PLLen har låst seg til blokkstarten, vil en datastrøm og en klokke komme ut fra dataseparatoren. Da er det viktig å vite på hvilket punkt i datastrømmen blokkstarten avsluttes og de virke lige dataene begynner. I serieinnspilling blir ordene spilt inn etter hverandre, en bit av gangen uten mellomrom, slik at selv om konstruktøren vet at en blokk inneholder f.eks. tolv ord med sek sten bits hver har mediet bare 192 bits i en rekke. Hvis den første bitens nøyaktige posisjon er ukjent, er det ikke mulig å sette alle bitene på riktig plass i de riktige ordene. Virkningen av synkroniseringsfeil er enorm, fordi en ulikhet på en bit mellom databittellingen og bitstrømmen vil korrumpere hvert ord i blokken, og det er like ille som drop-out. Dataseparatorens synkronisering og synkroniseringen til blokkformatet er to forskjellige pro blemer, og løses ofte hver for seg. Ved enden av blokkstarten kan man legge inn et såkalt synkroni seringsmønster. Dette mønsteret er likt for hver blokk - det blir gjenkjent av avspillingskretsen og benyttet til å stille bittellingen tilbake gjennom blokken. Ved å telle bits fra synkroniserings mønsteret og dele på ordlengden kan avspillingskretsen avgjøre grenseposisjonen mellom ord. Synkroniseringsmønsteret må velges med omhu, slik at en eller flere bitfeil ikke gjør at synkroni seringen gjenkjennes på feil sted. Et slikt mønster er konstruert for å være så forskjellig som mu lig fra seg selv, uansett hvor mange plasser det blir flyttet. Dette er det samme som å si at det har en lav autokorrelasjon. Et godt eksempel på et synkroniseringsmønster med lav autokorrelasjon er det som benyttes i D-l formatet DVTR, som er OCAF heks, eller 0000110010101111. Figur 6.29 viser hvor mange for skjeller som forårsakes ved forskjellige gale synkroniseringstilstander, noe som bidrar til å sikre at bare den korrekte tidsreferanse blir akseptert. ProDigi-formatet benytter en lignende teknikk, bortsett fra at synkroniseringsmønsteret er et mønster av kanalbits, ikke databits.
o 0
0
c 0
0
1
1
F
A 0
0
10
10
1
1
1
(a)
1
i
0
0 0
0
0
1
0
0
0
1
xxx
i i
0
1
0 0
1
1
0
0
1
l I
X X
X
X
X
0
1
0
0
10
11
XXXX
10
111
X
En bit forskjøvet
(b)
To bits forskjøvet
(0
Tre bits forskjøvet
(d)
I
0
0
0
0
1
1
XX
0
XX
1111
1
0
X
XX
X
Figur 6.29. Ia vises et synkroniseringsmønster med lav autokorrelasjon. I b er mønsteret en bit fra synkronisering, og passer ikke på syv steder (vist med X). I c er mønsteret to bits fra synkronisering, og passer ikke på seks steder. Ider mønsteret tre bits fra synkronisering, og passer ikke på åtte steder. På grunn av det store antall forskjeller når mønsteret forskyves, er det en redusert sannsynlighet for feil i lesingen av mønsteret som kan forårsake falsk synkronisering. Det mønsteret som vises benyttes i D-l-formatet DVTR i både lyd- og videodatablokker.
117
I gruppekoder og koder med begrenset løpelengde er det mulig å kombinere blokkstart- og synkroniseringsmønstrenes funksjoner ved å lage et transisjonsmønster på begynnelsen av blok ken som inneholder tidsreferansen for å faselåse PLL, men som inneholder løpelengder som bry ter kodereglene. Disse mønstrene kan ikke tolkes som data på noen måte, men de kan påvises av avspillingskretsen. Slike teknikker benyttes i Compact Disc og i det digitale AES/EBUgrensesnitt (se kapittel 5), og illustreres i figur 6.30.
To 11T lange koder kan ikke oppstå i kodet data T = Kanal bit periodetid (a)
1.5T
-________________ _ 11 Bit Synkmønster i 4.5T । 4.5T
___________________ Informasjon----- -
°-5T
eller
T = Data bit periode tid
(b)
njirinj
Bit cell clock
I ;
Preamble Channel A and block
I
I
♦
1*1
I
I
pTTQ_T I
I
I
Preamble Channel A
Preamble Channel B
FM kode må ha en transisjon i hver bit celle
♦ Overskridelse av FM-koden (c)
Figur 6.30. Synkroniseringsmønstre i forskjellige anvendelser. 1 a bryter CD-synkroniseringsmønsteret EFM kodereglene, og kan entydig identifiseres. 1 b holder DASH-synkroniseringsmønsteret seg innenfor HDM-1's løpelengde. I c vises AES/EBU-grensesnittets synkroniseringsmønstre.
Der hvor det er påkrevet med lesing i begge retninger vil et omvendt synkroniseringsmønster plasseres mellom dataene og blokkavslutningen. I tidskode er synkroniseringsmønsteret asym metrisk, slik at lesekretsen kan fortelle hvilken vei båndet går uten noen annen informasjonskilde (se figur 8.19).
118
KAPITTEL 7
Feilkorreksjon
Emnet feilkorreksjon blir nesten alltid beskrevet i matematiske termer av spesialister til fordel for andre spesialister. En slik matematisk måte å nærme seg emnet på er ikke egnet for en riktig for ståelse av begrepet, og blir bare nødvendig for å analysere et systems kvantitative opptreden. Be skrivelsen nedenfor vil benytte så lite matematikk som overhodet mulig, og man vil da se at feilkorreksjon faktisk er ganske enkelt.
7.1. Meldingens følsomhet overfor feil Før man forsøker å spesifisere noen utstyrsdel er det nødvendig å se på hvilke problemer som må overvinnes og hvor effektivt de må overvinnes. Når det gjelder digitale innspillings- eller sendesystemer må feilårsakene studeres for å angi problemets størrelse, og mottakerstedets følsomhet overfor feil må vurderes. I lyd må følsomhet overfor feil bedømmes subjektivt. I PCM-lyd er virk ningen av at en enkelt bit er gal avhengig av bitens signifikans. Hvis den minst signifikante biten i et sample er gal, er det sjanse for at virkningen blir borte i støyen. Omvendt vil en massiv transient legges til lyden dersom en høyordensbit er gal. Virkningen av ukorrigerte feil i PCM høres akkurat ut som tenningsforstyrrelser fra kjøretøyer på en radio. Virkningen av feil i deltamodulasjon er mye mindre, fordi hver bit har samme signifikans og hver bit inneholder lite informasjon. Hvis den feilfrekvens som kreves av bestemmelsesstedet ikke kan imøtekommes av kanalen på egenhånd, er det nødvendig med en eller annen slags feilbehandling. I noen tilfeller kan et deltamodulert system benyttes uten feilkorreksjon, men i PCM er dette vanligvis umulig.
7.2. Feilmekanismer Ettersom digitale data kan overføres på mange forskjellige måter, hver med sine egne feilmeka nismer, innebærer det at det fins forskjellige måter å beskytte data på. I tillegg vil de forskjellige anvendelser av et stykke utstyr gjøre noen feilbeskyttelsessystemer mer praktiske enn andre. Inne i utstyr, hvor data overføres binært på kabler, kan støymimuniteten gjøres slik at det ikke oppstår noen feil. Når det gjelder overføring mellom utstyr vil det være mindre kontroll over de elektromagnetiske omgivelsene, og forstyrrelser kan forfalske binære data på kabler, men ikke i optiske fibre. En slik forstyrrelse vil vanligvis ikke samsvare med dataene. Når det gjelder over føring på kabel over lange avstander må man bekjempe virkningene av lyn og annen form for støy. I MOS-minner lagres informasjonen i en liten ladningsbrønn som opptrer som en kondensator (se kapittel 3), og naturlig radioaktiv nedbryting av brikkematerialet kan forårsake at alfapartikler med tilstrekkelig energi kan utlade en brønn, noe som resulterer i en enkeltbits feil. Dette skjer bare omtrent hvert trettiende år i en gitt brikke, men når mange brikker er samlet for å danne et stort minne i en datamaskin eller i en kraftig lydredigeringsmaskin, stiger sannsynligheten for en feil til noen få minutters mellomrom. I magnetisk innspilling er det mange flere mekanismer som kan korrumpere data, fra mekani ske problemer som f.eks. medieutfall og dårlig hodekontakt, til termisk støy i avspillingskretser og hoder. I optiske medier er det tilsvarende til utfall i mediet at det legger seg støv på det optiske belegget før det forsegles. Ved avspilling kan overflaten skitnes til av fingeravtrykk og det kan bli dobbeltbrytning i det gjennomsiktige mediet, noe som forvrenger og sprer laserstrålen slik at det reflekterte lysmønsteret ikke kan skjelnes. Til tross for forskjellen i driftsprinsipp virker magnetiske opptakere og optiske medier likt når det gjelder korrumpering av data. Det fins store isolerte områder med feil, såkalte gruppefeil, hvor en rekke bits er helt korrumpert i et større område som ellers er feilfritt, og det fins tilfeldige feil som rammer enkle bits eller symboler. I diskusjonen om kanalkoding i kapittel 6 ble det be119
merket at der hvor gruppekoder benyttes, forårsaker en enkelt feil i en gruppe at alle databitene i den gruppen blir meningsløse. Derfor er enkeltbit-feil mye mindre vanlig i gruppekodede data. Uavhengig av hvilken feilmekanisme vi har blir resultatet at de mottatte data ikke blir akkurat de samme som de som ble sendt. Noen ganger er det nok å vite at det har vært en feil, dersom tiden tillater en nyutsendelse. Dette er fullt mulig med teleksmeldinger, men uegnet for digital lyd, for di man her opererer i sanntid, kanskje med unntak av noen operasjoner i harddiskbaserte redigeringsmaskiner. I data harddisker resulterer påvisningen av en lesefeil ofte i et nytt leseforsøk. Harddisken drei er som regel med 3600 o/min. og presenterer gjentatte ganger de samme dataene for et fast lesehode, noe som gjør et nytt leseforsøk veldig enkelt. I magnetbånd basert for lagring av data leses båndet mens det skrives, og dersom det oppdages en feil, vil båndet gå tilbake til begynnelsen av blokken, slette noen få tommer og forsøke på nytt. Denne luksus fins ikke i digitale lydopptakere.
7.3. Interpolering Selv om lydopptakere er ugunstig stilt i forhold til dataopptakere fordi de ikke kan formatere og verifisere mediet og det ikke er tid til nytt skrive/lese forsøk, har de den fordel at det er en viss mengde redundans i den informasjonen som blir overført. Hvis en feil ikke kan korrigeres, kan den skjules. I lydsystemer er det slik at dersom et sample går tapt, er det mulig å oppnå et som er tilnærmet likt ved å interpolere mellom tilstøtende verdier. Forbigående interpoleringer i mu sikk er ikke alvorlig, men vedvarende bruk av interpolering begrenser båndbredden og kan forår sake frekvensspeiling ved høye frekvenser. I avanserte systemer gjøres en spektrumsanalyse av lyden, og hvis sampleverdier ikke er tilgjengelige, legges sampler med de sammé spekktrumsegenskaper inn. Denne metoden å skjule feil på er ganske vellykket fordi den frekvensspekteret en drer seg relativt sakte i musikk.
7.4. Håndtering av feil Figur 7.1 viser i grove trekk undergruppene av håndtering av feil. Det første trinnet består i å unn gå feil, og innbefatter skritt som å isolere dårlige overflatepartier i harddisker, å plassere digitale lydblokker i båndets senter i D-l format og å skrive over etter en les-etter-skriv feil i databånd. Etter disse skrittene blir dataene overlatt til kanalen, som forårsaker hvilke feil den måtte finne for godt. Ved mottak av dataene oppdages først en forekomst av feil, og denne prosessen må være svært pålitelig - det spiller nemlig ingen rolle hvor hurtig feilrettingsmekanismen er eller hvor god skjulealgoritmen er hvis det ikke oppdages at det er behov for dem. Påvisningen av en feil re sulterer så i at en fremgangsmåte blir bestemt. I en toveis forbindelse kan en nyutsendelse være påkrevet. I en viktig finansdatamaskin kan det være påkrevet med en referanse til reservefilen. I en harddisk kan det utføres et nytt lese/skrive forsøk. I lydanvendelse foreligger ikke disse valge ne, og den eneste utveien er å forsøke en korreksjon. Hvis dette lykkes, blir dataene med stor sannsynlighet gjenopprettet til sine opprinnelige verdier. Dersom korreksjonen mislykkes eller er bare delvis vellykket, vil det være nødvendig å forsøke og skjule feilen. Hvis korrumpsjonen er for stor for dette, er den eneste utvei å dempe signalnivået («muting»). Forespørsel om
Kanalfeil
Figur 7.1. Hovedprosessene i håndtering av feil.
120
7.5. Paritet Feilpåvisnings- og korreksjonsprosessene er nært beslektet og vil her bli behandlet sammen. Korreksjonen av en feil blir svært forenklet ved bruk av det binære systemet. Siden det bare fins to symboler, 0 og 1, er det tilstrekkelig å vite at et symbol er feil, og den korrekte verdien gir seg selv. Figur 7.2 viser den minste krets som trengs for korreksjon når feilbiten først er identifisert. EKSKLUSIV/ELLER-porten (XOR) kommer i stor grad til sin rett i feilkorreksjon, og figuren gjentar også sannhetstabellen fra kapittel 3. En måte å huske denne nyttige innretningens egenska per på er at det vil bli en utgangssignal når inngangene er forskjellige. Sannhetstabell for XOR-port
XOR
A
B
c
0 0 1 1
0 1 0 1
0 1 1 0
A ® B = C
Figur 7.2. Når feilens posisjon er identifisert er den binære korreksjonsprosess enkel.
Det grunnleggende begrepet i feilpåvisning er kjent som paritet. I figur 7.3 ser vi et eksempel på et firebits dataord som skal beskyttes. Hvis man tilføyer ordet en ekstra bit som er beregnet slik at det totale antall enere i fembits-ordet er likt, kan denne egenskapen testes ved mottak. En annen måte å betrakte XOR-porten på er å si at antall enere på de tre terminalene alltid er likt, og den kan derfor kalles en lik paritets-port. Utviklingen av paritetsbiten i figur 7.3 kan utføres ved å konfigurere et antall av de allestedsnærværende XOR-portene til noe man kaller et paritetstre. Figuren viser at dersom en bit er gal har ikke den mottatte meldingen lenger et likt antall enere. Dersom to bits er forfalsket, vil ikke feilen oppdages. Dette eksemplet kan benyttes til å introdu sere mye av terminologien omkring feilkorreksjon. Den ekstra biten som blir lagt til meldingen inneholder ingen egen informasjon, ettersom den er beregnet ut fra de andre bitene. Den kalles derfor en overflødig (redundant) bit. Tillegget av den overflødige biten gir meldingen en spesiell egenskap, det vil si at antall enere er likt. En melding som har en spesiell egenskap uavhengig av det faktiske datainnhold kalles et kodeord. All feilkorreksjon går ut på å legge paritet til reelle data for å danne kodeord for overføring. Hvis det oppstår feil, er hensikten at den mottatte meldingen ikke vil ha den spesielle egenskapen. Med andre ord - dersom den mottatte meldingen ikke er et kodeord, har det avgjort vært en feil. Dersom den mottatte meldingen er et kodeord, har det sann synligvis ikke vært noen feil. Man må bruke ordet «sannsynlig», fordi figuren viser at to feilbits vil gjøre at den mottatte meldingen er et kodeord, som ikke kan skjelnes fra en feilfri melding. Hvis man vet at den eneste feilmekanismen i den aktuelle kanalen vanligvis er tap av en enkelt bit, antas det at mottak av et kodeord betyr at det ikke har vært noen feil. Dersom sannsynligheten for to feilbits er til stede, er det nesten sannsynlig at feilpåvisningen er mislykket, ettersom alle ulike antall feil vil oppdages, og en firebits feil er mye mindre sannsynlig. I alle feilkorreksjonssystemer er det ytterst viktig at den beskyttelse som benyttes er egnet for den feilsannsynlighet som er til stede. Et uegnet feilkorreksjonssystem er faktisk verre enn ikke å ha noen korreksjon i det hele tatt. Feilkorreksjon skjer ved hjelp av utveksling av sannsynligheten Feilfri ytelse med en viss feilfrekvens oppnås på bekostning av ytelse ved større feilfrekvenser. Hvis den forventede feilfrekvens feilvurderes, kan følgene bli katastrofale. Eksemplet viser også at vi bare kan garantere på visning av samme antall feilbits som antall overflødige (redundante) bits.
7.6. Kryssordkode I eksemplet fra figur 7.3 ble feilen oppdaget, men det var ikke mulig å si hvilken bit som var feil. Selv om den koden som benyttes bare kan påvise feil er det fortsatt mulig med korreksjon dersom man benytter en passende strategi. Figur 7.4 viser bruken av en kryssordkode, også kjent under
121
X
X
X
X
P
5___________ Y.>
Fire bit data
1 1 0 0
0 1 1 1
1 1 1 0
Paritetsbit
0 0 0 0
01 ~— “l q
Like antall ' enere
1 —
Figur 7.3. Paritetskontroll summerer antall enere i et ord ved, i dette eksemplet, å bruke paritetstrær. En feilbit og ulike antall feil blir oppdaget. Like antall feil kan ikke oppdages.
Figur 7.4. Et kryssordsystem for paritetskontroll. Horisontale kontroller gjøres av Pl, P2, o.s.v., og krysskontroller på kolonner gjøres av CP1, CP2, o.s.v. Hvis f.eks. bit 10 var feil, ville dette påvises av skjæringen mellom CP2 og P3.
navnet produktkode. Data grupperes i en todimensjonal tabell, med paritet i rekker og kolonner. Dersom en bit er feil, vil en rekkekontroll og en kolonnekontroll være feil, og den gale biten kan påvises ved de to kontrollenes skjæringspunkt. Selv om to feilbits forvirrer denne enkle fremstil lingen, er det svært virkningsfullt å benytte mer sammensatt koding i en todimensjonal opp bygning. 122
7.7. Stokking Begrepet bitstokking ble introdusert i forbindelse med at en enkeltbits korreksjonskode skulle korrigere små feil. Ved feilkorrigerende koder som f.eks. Reed-Solomon er bitstokking unødven dig. I de fleste kanaler, og spesielt de kanaler for høytetthets innspill ing som benyttes i digital lyd. kan feilstørrelsen være mange bytes i stedet for bits, og det kreves stor redundans dersom man ba re skal gjøre bruk av en periodisk kode for å korrigere slike feil. I dette tilfellet er løsningen å ta i bruk ordstokking, som vist i figur 75a. Flere kodeord kodes fra inngangsdata, men de blir ikke spilt inn i den rekkefølge de ble lagt inn, rekkefølgen blir byttet om i kanalen slik at en virkelig gruppefeil blir delt opp i mindre feil i flere kodeord. Størrelsen på feilen som oppfattes av hvert kodeord er først og fremst bestemt av stokkingens parametre, og figur 7.6 viser at sannsynligheten for feilforekomst med hensyn til feillengde i et gitt kodeord er minsket. Antall bits i det stokkete ordet kan gjøres likt kodens evne til gruppefeilkorrigering, fordi det bare sjelden vil overstiges.
Posisjon på båndet A1
B1
01
A2 I)
B2
C2
B3
A3
C3
A4
B4
C4
A5
B5
C5
Gruppefeil
(b)
Figur 7.5. I a kontrollerer stokking størrelsen på gruppefeil i individuelle kodeord, men i b faller systemet sammen når en tilfeldig feil opptrer ved siden av en gruppefeil.
Stokking kan utføres på mange forskjellige måter. Figur 7.7 viser at i blokkstokking stokkes rekkefølgen på de ordene som fins i blokken i riktig rekkefølge. Dette er fordelaktig i PCMomformere for bruk med video kassettopptakere, slik som Sony PCM 1610/1630, fordi blokkene passer i rammestrukturen i et TV-signal, og det blir enkelt å redigere. Blokkstokking oppnås ved å skrive samplene inn i et minne i sekvensielle adresselagre fra en teller, og å lese minnet med
123
(a)
(b)
Figur 7.6. a. Fordelingen av gruppefeilstørrelser kan se slik ut. h. Etter slokking kontrolleres gruppefeilstørrelsen i et kodeord av størrelsen på stokkingssymbolet, bortsett fra store feil som har liten sannsynlighet. 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1
5
2
6
3
7
4
8
9
13
10
14
11
15
12
16
17
21
18
22
19
23
20
24
Figur 7.7. Iblokkstokking blir data som opprinnelig er i riktig rekkefølge blandet innen blokkene.
ikke-sekvensielle adresser fra en sekvensgenerator. Slik konverteres endimensjonale sekvenser av sampler til en todimensjonal oppbygning med rader og kolonner. Figur 7.8 viser at stokkingsprosessen i lagvis stokking er uendelig. Samplene samles i korte blokker, og hvert sample forsinkes individuelt av en mengde som er proporsjonal med posisjonen i blokken. I praksis kan ikke rader samles i en endeløs prosess, for da blir de ubegrenset lange, så lagvis stokking skaper diagonale kodeord. En lagvis stokking kan fortsette fra delbilde til delbilde i videospillerbaserte systemer, og dette gjøres i EIAJ-formatet. Lagvis stokking krever var somhet i redigering, og dette blir diskutert senere i kapitlet. En kombinasjon av de to ovennevnte teknikker vises i figur 7.9, hvor en lagvis kode får en begrenset størrelse ved å gjøre den til en sløy fe. Dette kalles en blokkavsluttet lagvis kode, og finnes i Video-8 formatets digitale lydblokker og i JVC PCM-omformere. Virkningen av stokking kan vedlikeholdes i blokkavsluttet stokking forutsatt at blokken er stor nok sammenlignet med stokkingsparametrene, men dette krever et stort stokkingsminne.
1
2 3 4 5 6 t------- 4--------j
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 .................................................................................... *----------------------- 8------------------ *------------------------------------------12----------------------------------- 1
1
••• 5
•• 9
2
6
3 •
13
10
7
4
17
14
11
8
21
18 15 12
•
22
19
16
•
•
23
20
•
•
Figur 7.8. 1 lagvis stokking grupperes samplene i en rektangulær tabell, som forskyves ved å la hver rad få forskjellig forsinkelse. Den forskjøvede tabellen leses i vertikale kolonner. I dette eksemplet befinner samplene seg 4, 8 og 12 plasser fra der hvor de egentlig hører hjemme.
124
'24
Figur 7.9. Iblokkavsluttet lagvis stokking er blokkslutten omsluttet av noen diagonale kodeord. Dette krever et stort minne og forårsaker en lengre sorteringsforsinkelse.
De stokkinger som er beskrevet ovenfor forutsetter at det fins en endimensjonal kanal for infor masjonen. Dette er tilfelle i Compact Disc, ettersom den har bare en laserstråle og et sammenhen gende spor. I båndopptakere med fast hode kan det imidlertid være flere kanaler som benytter et flerspors hode. Det er mulig å felle inn samplene ved å fordele dem over mange spor, fordi det gjennomsnittlige dropout bare vil påvirke ett eller to spor. Denne teknikken benyttes i Mitsubis hi^ digitale lydopptakere som er tilpasset PD (ProDigi)-formatet, og i de mellom- og saktegående versjoner av DASH-formatet. Opptakere med roterende hode stokker naturlig inn med mellom rom på båndet. Figur 7.10 viser at en enkelt stor bånddefekt blir en serie små defekter på grunn av spiralsøkingens geometri.
Figur 7.10. Opptakere med roterende hode produserer en slags mekanisk stokking, fordi en stor defekt på mediet blir fordelt over flere forskjellige hoderotasjoner.
7.8. Krysstokking Der hvor det bare forekommer gruppefeil virker stokkingssystemet veldig bra, men som kjent oppstår det i mange kanaler også uavhengige feil på noen få bits på grunn av støy. Figur 7.5b viser at en støyfeil i nærheten av en gruppefeil forårsaker to feil i et kodeord, og dette kan ikke korrige res. Løsningen på dette problemet er å benytte et system hvor kodeord dannes både før og etter stokkingsprosessen. I blokkstokking resulterer dette i en produktkode, mens resultatet i lagvis stokking er kjent som krysstokking. Disse systemene har mange like trekk. Figur 7.11a viser et krysstokkingssystem hvor flere feil har oppstått. I en rad er det to feil, som det ikke er i kodeordets makt å rette, og på to diagonaler er det samme tilfelle. Hvis en diagonal har to feil, vil imidlertid
125
1, 2,3, 4 og P1 utgjør et kodeord
17, 14, 11, 8, P1 og Q17 utgjør en kryssordkode
(a)
Korreksjonsforløp: P9 korrigerer 12, som gjør at Q21 kan korrigere 15. Deretter korrigerer P13 16 og P17 19. (b)
Figur 7.11. a. 1 krysstokking dannes kodeord på data før stokking (1, 2,3,4, Pl), og etter lagvis stokking (21, 18, 15, 12, P5, Q21). Sammenlign med figur 7.8. b.Multippelfeil i et kodeord blir enkle feil i et annet. Hvis den viste-sekvens følges kan, alle feilene korrigeres. 1 dette eksemplet skyldes feilsamplene 12, 15, 16 og 19 to gruppefeil i den lagvise stokkingen i figur 7.8.
en rad vanligvis bare ha en. Denne ene feilen kan korrigeres, hvilket innebærer at en av de to feile ne i diagonalen forsvinner, og det diagonale kodeordet kan så rette den. Dette betyr igjen at det bare er en feil i neste rad, o.s.v. Tilfeldige feil i nærheten av gruppefeil kan nå korrigeres. Faktisk går krysstokkingens og produktkodenes egenskaper utover evnen til å behandle reelle feil. Den todimensjonale oppbygningen gjør at en feils posisjon kan påvises fordi den befinner seg i skjæringspunktet mellom to kodeord. Hvis feilens posisjon kan opprettes geometrisk, er det ik ke nødvendig å finne den ved hjelp av en kode som krever paritet. De omkostninger som er for bundet med krysstokking er faktisk mindre enn for noe annet system for en gitt ytelse, fordi påvisningen av en feil i et kodeord før sortering kan benyttes til å opprette slettepekere som hjel per et kodeord lenger fremme etter sortering. Kombinasjonen av kodeord med stokking i flere di mensjoner gir en feilbeskyttelsesstrategi som er meget virkningsfull, i og med at sluttresultatet er bedre enn summen av delene. Det er nesten overflødig å si at denne teknikken i stor grad benyt tes i digitale lydsystemer.
7.9. Redigering av stokkede innspillinger En lagvis stokking betyr at redigering må skje med omhu. Hvis en ny innspilling legges til en tidli gere innspilling, vil de diagonale kodeordene over en bestemt lengde nær redigeringspunktet bli ødelagt, og systemets korreksjonsevne vil bli begrenset. Det er bare en måte å redigere en lagvis stokking riktig på, og dette vises i figur 7.12. Før redigeringspunktet blir signalet fra avspillingshodet sortert, og dette signalet tilføres innspillingskanalen. Innspillingskanalen gjenstokker sam plene og produserer et signal som etter en stund vil være det samme som det som allerede er på båndet. I løpet av denne tiden vil den originale innspillingen ha vandret et stykke, og et annet hode er plassert med samme avstand etter avspillingshodet. Ved en blokkgrense skrus innspillingsforsterkeren på, og innspillingshodet vil gjeninnspille det som allerede er på båndet. Kryssfaderen kan nå fades over til det nye materialet, og den stokkete kryssfading spilles inn etterfulgt av det nye materialet. Alle opptakere som benytter stokking må bruke denne teknikken, og som vist gjennomføres den ofte ved å ha ekstra hoder. Dette er ikke noe problem for opptakere med fast hode. I opptakere med roterende hode må de ekstra hodene plasseres på trommelen. I PCMomformere, som benytter standard videoopptakere fins ikke de ekstra hodene, og en rekke inn viklede arrangementer må følges for å få til en vellykket redigering.
126
I formater med fast hode er det ofte nødvendig å foreta tradisjonell «klipp og lim»-redigering, som krever spesielle teknikker for å oppnå tilfredsstillende resultater. Kryssfader
Kryssfader
Original opptak
Kryssfader
Redigert opptak
Figur 7.12. Redigering av en lagvis stokket innspilling, a. Eksisterende innspilling dekodes og kodes på nytt. Etter en stund kan innspilling finne sted i b når det eksisterende båndmønster er blitt spilt inn på nytt. Kryssfaderen kan så tas i bruk, og det resulterer i c en stokket redigering på båndet.
KAPITTEL 8
Opptakere med roterende hode
Opptakeren med roterende hode spiller en betydningsfull rolle i digital lyd fordi den på visse bruksområder har en rekke fordeler. De forskjellige maskiners viktigste egenskaper vil bli for klart her, med spesiell vekt på det utstyr som benyttes for som masterbånd for Compact Disc og forbrukerutgaven RDAT.
8.1. Bruk av videoopptakere Digital lyd har vært mulig i flere tiår, men har først i den senere tid blitt lønnsom på grunn av ut viklingen av høytetthets opptakere. Det nødvendige antall på ca. to megabits pr. sekund for et stereosignal kan idag spilles inn med et moderat forbruk av bånd. Imidlertid er det ikke lenge siden selve dataraten var et problem. Den gang hode- og båndteknologien ikke var så avansert som i dag, var bølgelengdene på bånd lange, og den eneste måten å oppnå god gjengivelse ved høye fre kvenser på var å benytte høye hastigheter. Høy hastighet kan oppnås på to måter. Hodet kan forbli fast, og båndet kan transporteres hurtig forbi, med de opplagte konsekvenser det har, eller båndet kan gå relativt sakte og hodet kan beveges. Sistnevnte prinsipp gjelder for opptakere med roteren de hode. Figur 8.1 viser de to hovedgruppene av opptakere med roterende hode og hvordan de er innrettet. I transverse scan («tverrsøkopptakere») spilles relativt korte spor inn nesten vinkelrett på båndretningen med et roterende hodehjul som vanligvis har fire hoder. I helical scan opptakere («spiralsøkopptakere») er båndet viklet rundt trommelen på en slik måte at det går på og av i to forskjellige plan. Dette gjør at de roterende hodene spiller inn lange skråstilte spor. I begge tilfel ler bestemmes bredden på mellomrommene mellom sporene av den lineære båndhastigheten. De kan lett gjøres mye mindre enn på opptakere med fast hode.
Figur 8.1. Forskjellige typer opptakere med roterende hode. a. Helical scan spiller inn lange diagonale spor, b. Transverse scan spiller inn korte spor på tvers av båndet.
Bruken av roterende hoder hjalp utviklingen av de første videoopptakerne. Ettersom videosig naler består av diskrete linjer og bilder ble det mulig å skjule opphold i sporene på en maskin med roterende hode ved å få dem til å falle sammen med blankingintervallet. De første videoopptakere som ble utviklet av Ampex benyttet transverse scan prinsippet, med fire hoder på rotoren - derav navnet kvadrupleks. Sporene var litt kortere enn båndets to tommers bredde, og det måtte flere rotasjoner til for å bygge opp en videobilde. Overgangen mellom hodene skjedde i den horisontale synkperioden. Kontakttrykket med hodet kan aldri gjøres stabilt med roterende hoder, så analoge videoopptakere benytter fortsatt frekvensmodulasjon, som er immun mot variasjoner i amplitu de. Disse maskinenes tidsbasis stabilitet var relativt god, men båndforbruket var høyt, og variabel 128
hastighets var så godt som umulig. For profesjonelt bruk banet Ampex formatet vei for entommes bånd, som benyttet helical scan og et nesten fullstendig omløp for å passe et helt delbilde inn i et skrått spor på ca. 15 tommer (380 mm). Slik ble overgangen mellom sporene gjort i vertikalsynkperioden. Tidsbasis stabiliteten ble dårligere, men den digitale tidsbasisretter ble utviklet for å overvinne dette. For industribruk ble U-matic-maskinen utviklet av Sony. I dette formatet har trommelen to hoder, slik at omløpet bare trenger å være ca. 180 grader, og allikevel er en konti nuerlig innspilling mulig. Dette muliggjorde bruken av en kassett med mekanisert båndføring. Et omløp på 180 grader innebærer at båndet går rundt trommelen i U-form, derav navnet. Deretter ble Betamax og VHS forbrukerkassettene utviklet, nylig etterfulgt av 8 mm video.
8.2. Pseudovideo Dersom digitale sampledata blir kodet for å ligne et videosignal, kjent som pseudovideo eller sammensatt digital, kan de spilles inn på en nokså vanlig videoopptaker. Digitale lydopptakere er blitt laget ved hjelp av de fleste typer videoopptakere. Det utstyret som trengs for å formatere samplene på denne måten kalles en PCM-omformer. Det er også blitt laget digitale lydopptakere som bare benytter en videoopptakers mekanikk, med spesielt konstruert digital signalelektronikk. I stedet for å bruke analog FM for å lage en di rekte digital opptaker er det mulig å benytte digital innspilling, som beskrevet i kapittel 6. Den siste gruppe digitale lydopptakere med roterende hoder er en hvor man benytter direkte di gital innspilling med en overføring som er spesielt konstruert for lydbruk uten noe kompromiss på grunn av et videobasert slektskap. Et eksempel her er RDAT.
8.3. Sony PCM-omformer Figur 8.2 viser et blokkdiagram av en PCM-omformer. Enheten har fem hoveddeler. Sentralt fin ner vi generatoren for synkronisering og tidsstyring. Denne produserer synkroniseringspulser for kontroll av videogeneratoren og låser videoopptakeren, i tillegg til å produsere samplingsfre kvens klokker og tidskode. En A/D-konverter gjør at et vanlig analogt lydsignal blir spilt inn, men denne kan omgås dersom en digital inngang er tilgjengelig. Likeledes har man en D/A-konverter til å overvåke innspillinger, og denne kan også omgås ved å bruke den direkte digitale utgangen. I figur 8.2 ser vi også kodings- og dekodingstrinnene som konverterer mellom digitale sampledata og pseudovideosignalet. Digital inngang
Video til opptaker
Referanse video til opptaker
Video fra opptaker
Figur 8.2. Blokkdiagram av en PCM-omformer. Merk -dub» forbindelsen som trengs for å lage en digital kopi mellom to videomaskiner.
129
Et eksempel på en slik enhet er PCM 1610/1630, som ble konstruert av Sony til bruk med en Umatic video kassettopptaker (VCR) spesielt for masteropptak for Compact Disc. En tilpasset redigeringsenhet er også blitt kouatruert. Kapittel 2 viste hvor mange lydsamplingsfrekvenser som ble avledet fra videofrekvenser. Com pact Disc-formatet er en internasjonal standard, og det var ønskelig at opptakeren for masterbånd holdt seg til et enkelt format. Derfor virker PCM 1610 bare sammen med en 525/60 monokrom videomaskin. Det fins ingen 625/50-utgave. Derfor blir originalopptak på Compact Disc selv i PAL-land gjort på 60 Hz videomaskiner, hvilket betyr at den tradisjonelle internasjonale utveks ling av innspillinger fortsatt kan skje. PCM-1610 var beregnet for profesjonelt bruk, og skulle føl gelig ikke produseres i volum. Derfor er formatet enkelt, til og med primitivt, fordi den LSI-teknologi som trengtes for å implementere mer komplekse formater ikke fantes. I figur 8.3 vises et typisk pseudovideo linje. Linjen er delt inn i bitceller, og inne i dem represen terer sort nivå en binær null, og ca. 60 % av helhvitt representerer en binær ener. Grunnen til en begrensning til 60 % er at de fleste videomaskiner benytter ikke-lineær forbetoning. Bruken av to inngangsnivåer til en frekvensmodulator betyr at innspillingen stort sett er «frequency-shiftkeyed» (FSK).
Kontroll bit
Figur 8.3. Typisk videolinje for PCM-1610. Kontrollbiten overfører valg av forbetoning eller samplingsfrekvensen avhengig av posisjon i bildet. Bitene skilles kun ved hjelp av tidsstyringsinformasjonen i synkpulsene.
Siden videoopptakeren er konstruert for å skifte mellom hoder i løpet av det vertikale interval let, kan ingen informasjon spilles inn der. I alle opptakere med roterende hode benyttes en eller annen form for tidskompresjon for å presse samplene inn i de aktive delene av ublankede linjer. Dette gjøres ganske enkelt ved å lese samplene fra et minne i konstant rate, som er høyere enn samplingsfrekvensen. På grunn av avbrytelser fra synkpulser vil den gjennomsnittlige rate som oppnås være den samme som samplingsfrekvensen. Samplene som blir lest fra minnet må innde les i grupper slik at hver bit blir sendt etter tur. I kapittel 7 så vi at digitale lydopptakere i stor grad benytter stokking for å motvirke dropout. PCM-1610 deler hvert videodelbilde inn i syv blokker på 35 linjer hver, og stokker samplene inn enfor blokkene. Figur 8.4 viser at et enkelt kryssordsystem for feilkorreksjon benyttes. Inngangssamplene 1 til 3 danner et kodeord i (a) med et CRC tegn. Samplene 4 til 6 danner et kodeord til i (c) med et CRC-tegn. De XOR uttrykkene eller modulo-2-summene av sampleparene som vises danner et tredje kodeord med sitt eget CRC-tegn i (b).
Figur 8.4. I PCM 1610/1630-formatet skjer feilkorreksjon via et XOR uttrykk som er beregnet fra to sampler, som vist her. CRC-tegn oppdager feil - paritetsuttrykket korrigerer.
Hvis det oppstår en feil, mislykkes CRC’en, men det gjøres ikke noe forsøk på å lokalisere fei len ved å behandle syndromet. Alle samplene i kodeordene anses gale. Hvis f.eks. sampling 5 er 130
korrumpert, vil kodeord (c) være feil, og samplene 4, 5 og 6 erklæres gale. Sampling 4 oppnås ved å ta XOR av sampling 1 og det første paritetssymbolet, siden 1 XOR (1 XOR 4) = 4. De to andre sampleverdiene oppnås på samme måte. Systemet er ikke så effektivt, da det er like mye paritet som data. Imidlertid er båndbredden så viktig, siden denne er bestemt av U-matic forma tet, og er rikelig for denne anvendelsen. Ved så alvorlige feil at feilkorreksjonen og interpolering ikke kan nyttes vil det foregående samplet gjentas. Til slutt demper maskinen utgangsnivået for å hindre støy. I praksis er dropout-ene mye kortere enn hva som kan korrigeres. Den relativt store båndbredden i U-matic formatet gir et signal/støyforhold som er høyere enn hva som er nødvendig for digital innspilling, så feilraten er ganske lav. Det passer ikke til bruk med forbruker videospillere. En annen grunn til at 1610-formatet er begrenset til U-matic formatet er at tidskoden blir spilt inn på et lineært lydspor. Dette virker bra med den relativt høye lineære båndhastighet hos U-matic maskiner, men er van ligvis ikke vellykket i forbrukerformatene. Noen videomaskiner har innebygget drop-out kompensatorer, som gjentar en del av den fore gående linjen for å skjule den manglende bildeinformasjon. Slike kretser må settes ut av drift ved bruk av PCM-omformere fordi de forstyrrer feilkorreksjonsmekanismen.
8.4. EIAJ-formatet Som forbrukerutgave ble et PCM-omformerformat spesifisert av EIAJ - dette kunne spille inn stereo med fjorten-bits lineær kvantisering. Disse enhetene kunne benyttes med en videospiller for hjemmebruk. Ettersom forbrukeren også ventet å kunne bruke videoen til vanlig TV-innspilling, er EIAJformatet faktisk to uforenlige formater. En benytter en samplingsfrekvens på 44,0559 kHz sam men med 525/59,94 for NTSC, og en benytter 44,1 kHz samplingsfrekvens med 625/50 for PAL. For å gjøre det hele ennå mer komplisert konstruerte Sony en variasjon av formatet som tillot seksten-bits lineær kvantisering. I EIAJ’s fjorten-bits format brukes en lagvis krysstokking som benytter B-tilstøtende kodeord før stokking, og CRCC kodeord etter stokking. Ved en enkel gruppefeil vil en CRC-feil oppstå, og hele linjen blir feilflagget. Etter sortering vil det være en rekke flaggede enkeltsymbolsfeil i flere kodeord. Utfall på inntil 32 linjer kan kor rigeres fullstendig. Deretter må man ty til interpolering for å skjule samplene som ikke kan kor rigeres. I EIAJ-formatets seksten-bits tilpasning som benyttes av Sony PCM-F1, beholdes fjorten-bits oppbygningen stort sett for avspillingskompatibilitet, og de to ekstra bitene i hver av de seks sam plene og ett paritetsord i en linje lagres som et fjorten-bits symbol. Denne begrensningen i paritet er feilkorreksjonsmekanismen i seksten-bits modus mindre virkningsfull. Det er bare gruppefeil på inntil seksten linjer som kan korrigeres. På et gitt bånd kan man vente flere interpoleringer i seksten-bits modus enn i fjorten-bits modus. PCM F-l var et forbrukerprodukt som ble bygget med LSI-teknologi til lave masseproduksjonskostnader. På grunn av produktets lave kostnader er det blitt benyttet også i profesjonelle kretser, og har for mange virkelig tjent som en introduksjon til digital lyd. I og med at det er et forbrukerprodukt benyttes bare en A/D og D/A konverter. Disse multiplekses mellom de to lydkanalene, og resulterer i et tidsforskyvning mellom samplene på halve samplingsperioden, eller ca. 11 mikrosekunder. Til normalt bruk er ikke dette noe problem, siden den omvendte forskyv ningen introduseres av den multipleksede konverteren som brukes for avspilling. Standardutgaven av PCM-F1 var ikke utstyrt med digitale utganger eller innganger, og følgelig krevet det ikke store anstrengelser for å kontrollere DC-offset på grunn av konverterdrift. Da entusiastene be gynte å modifisere enheten for å få den til å passe digitale grensesnitt, ble disse problemene merk bare. Flere selskaper lager tilpasningsenheter som har digitale filtre for å fjerne DC-offset og 11 mikrosekundersskiftet. Utgangssignalet kan da tilbys i AES/EBU grensesnittsformatet eller inn gangs standarden av PCM-1610 for ettersynkronisering til U-matic. En redigeringsmaskin er også blitt utviklet uavhengig. En rekke Compact Disc’er er blitt tatt opp på PCM-F1, og det er blitt hev det at disse innspillingene lyder bedre enn de som ble gjort på tidlige PCM-1610 enheter, ettersom disse hadde instrumenteringskonvertere som ikke har gode lydmessige egenskaper. Senere 1610'ere ble levert med de samme konvertere som Fl.
131
8.5. Lokalisering av redigeringspunkt i systemer med roterende hode Ettersom PCM-opptakeren med roterende hode i stor utstrekning benyttes til mastering for Com pact Disc, må det være mulig å redigere innspillingene. I motsetning til i vinylplategravering, hvor operatøren kontrollerer graveringsparametrene, er CD’ens graveringsprosess uavhengig av mu sikalsk innhold, så ansvaret for kvaliteten på den endelige platen ligger hos de som lager masterbåndet. Hvert musikkstykkes varighet, lengden på pausene mellom stykkene og de innbyrdes nivåene på stykkene på platen må bestemmes når masteren lages. Masteren blir satt sammen fra kildebånd som hver kan inneholde bare noen av de stykkene som trengs på den endelige platen, i hvilken som helst rekkefølge. Innspillingene vil variere i nivå, og kan inneholde flere nye opptak av en passasje som ikke var tilfredsstillende. Formålet med den digitale lydredigeringsmaskinen er å ta hvert stykke og føye inn deler fra nye opptak for å korrigere feil, for så å lage en master ved å samle stykkene i riktig rekkefølge med passende pauser imellom og med de korrekte innbyrdes nivåer. Alt dette gjøres ved å kopiere på digitale form. Kildebåndene trenger ikke endres på noen måte, og kvalitetsforringelsen blir mini mal . Masteren har også sammenhengende tidskode, og når man legger til subkodeinformasjonen er alt klart til å lage Compact Disc’en. Digitale lydredigeringsmaskiner brukes til montasje - et begrep som har samme betydning som i videoinnspilling, hvor nytt materiale knyttes til slutten av en tidligere innspilling uten synkroniseringstap. Figur 8.5 viser hvordan et masterbånd er satt sammen av kildebånd. Det er klart at det trengs en opptaker og en avspiller i et redigeringssystem, men hvis det er mange kildebånd, vil et system med to avspillere arbeide raskere. Som ved videoinnspilling, kontrolleres digitale lydredigeringer ved hjelp av tidskode på kassettene. Redigering i seg selv kan gjøres ved hjelp av sann tidskode eller «dropframe» tidskode på 60 Hz maskiner, men Compact Disc-kutteren vil forkaste mastere med «dropframe» tidskode av grunner vi vil se i kapittel 11. Den tidskode som benyttes i PCM-1610 er SMPTE-standarden for 525/60 og vises i figur 8.6. Andre systemer benytter EBU tidskode, som stort sett er lik SMPTE. Disse lagrer timer, minutter, sekunder og bilder som binærkodet desimal (BCD), som kodes i serie sammen med brukerbits til en FM kanalkode (se ka pittel 6). Denne spilles inn på en av de lineære lydsporene på videobåndet. Brukerbitene er ikke spesifisert i standarden, men det er vanlig å spille inn opptaks- eller sesjonsnummer. Redigering utføres i to trinn: Lokalisering av redigeringspunkt og montasje. Redigeringspunktene lokaliseres under manuell kontroll for å oppnå ønsket effekt, mens montasjen er helautoma tisk.
Figur 8.5. En redigeringsmaskins oppgave er å utføre en serie montasjer for å lage et masterbånd av kildebånd.
132
nxr-o nj.in- r Figur 8.6. I SMPTE-standard tidskode blir bildenummeret og tiden lagret som åtte BCD-symboler. Det er også plass til 32 brukerdefinerte bits. Koden gjentas hvert bilde. Legg merke til det asymmetriske synkordet som gjør at retningen på håndbevegelsen kan bestemmes.
En digital lydredigeringsmaskin brukes sammen med en PCM-omformer. Kodings- og dekodingsdelene brukes til montasje, og DAC brukes til overvåking. Normalt brukes ikke ADC’en ved redigering, selv om en analog opptaker utstyrt med tidskode i prinsippet kan benyttes som kilde til montasje, hvis den blir tilknyttet ADC-inngangen. Figur 8.7 viser hvordan enhetene i et redigeringskompleks er koblet sammen. De to eller tre videomaskinene har alle fjernkontroll, synkro nisering, tidskode og videoavspillingsforbindelser. Opptakeren har i tillegg forbindelser, slik at video og tidskode kan spilles inn. PCM-omformerens tre deler er hver for seg forbundet til redigeringsmaskinen. Tidsstyringsgeneratoren i PCM-omformeren synkroniserer hele systemet med låst 44,1 kHz og videosynk. Følgende beskrivelse er stort sett basert på Sony-systemet, men an dre redigeringsenheter er like i prinsippet, om ikke i detalj.
Figur 8.7. Digitale lydredigering for videobaserte systemer benytter PCM-omformerens signalbehandling.
I videoredigering er lokalisering av redigeringspunktet enkelt, fordi de alltid fins i det vertikale intervallet i videosignalet. Videre er det mulig å se på bildet i hvilken som helst hastighet i de fle ste profesjonelle videoopptakere, slik at redigeringsmaskinen kan kjøre båndet frem og tilbake for å finne det presise redigeringspunktet. I digital lyd tillater ikke de industrielle videomaskinene variabel hastighet. Et ytterligere problem i lyd er at redigeringen må gjøres mye mer nøyaktig enn hva som kreves i video. En videobilde varer 33 ms, mens lyd må redigeres med en nøyaktighet på noen få sampler.
133
Digitale lydredigeringsystemer simulerer lokaliseringsprosessen av redigeringspunkt i analoge lydopptakere. Ettersom videomaskinen bare kan spille i normal hastighet, overføres redigeringspunktets område til et minne, og det presise redigeringspunktet blir funnet ved å få tilgang til minnet i hvilken hastighet man ønsker. Figur 8.8 viser hvordan redigeringspunktets område overføres til minnet. Videomaskinen set tes på avspilling, og operatøren lytter til samplene utenfor båndet via DACen i PCMomformeren. De samme samplene blir fortløpende skrevet inn i et minne i redigeringsmaskinen. Dette minnet blir adressert ved hjelp av en teller som stadig flyter over - noe som gir minnet en sirkelaktig oppbygning. Når operatøren hører det omtrentlige området hvor redigering skal skje, trykker han på en knapp som gjør at minnet stopper å skrive, ikke med en gang, men halvparten av minnets innhold senere. Dette resulterer i at minnet inneholder et likt antall sampler før og et ter det omtrentlige redigeringspunktet. 1
Figur 8.8. Bruken av et sirkelminne som overskrives gjør at man kan lagre sampler før og etter det omtrentlige redigeringspunkt.
En operatør må kunne være i stand til å høre ca. 30 sekunders lyd før han mentalt er i stand til å synkronisere til rytmen og å forvente redigeringspunktet. I et stereosystem krever dette en lagringsevne på minst fem megabytes. Dette innebærer en betydelig kostnad, og for å redusere stør relsen på det minnet som trengs benytter de fleste redigeringsmaskiner en eller annen form for datareduksjon eller kompandering. Et innlysende skritt er å addere venstre og høyre kanalsamplene for å gi et monofonisk signal med en besparelsesfaktor på to. Man kan oppnå ytterligere re duksjon i krav til minne ved å redusere samplingsfrekvensen. Det er enkelt å redusere samplingsfrekvensen med en faktor på to, ettersom utgangssamplene vil falle sammen i tid med inngangssamplene, og kretsløpet forenkles. Samplingsfrekvensen vil halveres, og lydbåndbredden reduseres til 11 kHz. Som vi så i kapittel 4 kan ikke uønskede sampler bare vrakes, fordi det forårsaker frekvensspeiling. Man må benytte et passende digitalt lavpassfilter. Man kan oppnå yt terligere datareduksjon ved å konvertere de lineære samplene til flyttallsnotasjon, muligens ved hjelp av flyttalls blokkoding (se kapittel 3). Når innspillingen først er i minnet kan man få tilgang til det når det passer, og videomaskinen har ingen videre betydning i lokaliseringen av redigeringspunkt. Videomaskinen foretar en delvis avtreing av båndet, slik at båndet ikke er i kontakt med de roterende hodene. Minnet kan leses på mange måter. Hvis minneadressen er forsynt med et telleverk som klokkes i passende takt, kan redigeringsområdet spilles av i normal hastighet, eller i halv hastighet gjentagende ganger. For å simulere den analoge måten å finne et redigeringspunkt på har operatøren et ratt eller en rotor, og minneadressen vil endre seg med en rate som er proporsjonal med den ha stighet rotoren svinges i, og i samme retning. Slik kan lyden høres forlengs eller baklengs i hvil ken som helst hastighet, og virkningen er den samme som å kjøre et analogt bånd forbi hodene på en analog båndmaskin. 134
Selv om denne prosessen høres enkel ut, er det imidlertid noen vanskeligheter som må overvin nes. En menneskehånd kan ikke dreie rotoren jevnt nok til å få rotorutgangssignalet til å adressere minnet direkte uten flutter, og en standard 44,1 kHz samplingsfrekvens må gjenopprettes for å mate kontroll DAC en. En digital faselåst sløyfe benyttes vanligvis for å dempe svingninger i rotorhastigheten, som i figur 8.9, og man trenger en interpolator for å gjenopprette samplingsfre kvensen til det normale.
Tidskode
Figur 8.9. For a simulere analoge opptakeres redigeringslokalisering leses samplene fra minnet under kontroll av en hånddrevet rotor.
De samplene som benyttes for å lage masterbåndet gjennomgår aldri disse prosessene for bitratereduskjon og kompandering - de er bare til for å hjelpe til med lokaliseringen av redigeringspunktene. Lydkvaliteten i denne metoden er vanligvis ikke imponerende. Når man trykker ned knappen for det omtrentlige redigeringspunkt, lagres tidskoden på båndet på det punktet, med en nøyaktighet på et delbilde. Etterhvert som rotoren roteres kontrolleres minneadressen, og den blir brukt til å oppdatere tidskoden. Når det eksakte redigeringspunkt blir valgt, blir det beskrevet med stor nøyaktighet og lagret som timer, minutter, sekunder, bilder og posisjon innen bildet. Før man kan utføre montering, må to redigeringspunkter bestemmes, ut-punktet ved slutten av det signalet som sist ble spilt inn, og inn-punktet for det nye signalet. Redigeringsmaskinens mik roprosessor lagrer disse for å kontrollere den automatiske monteringsprosessen.
8.6. Roterende redigering Samplene som tilsvarer lydsignalene blir fraktet i det videolignende signalet som spilles inn av videomaskinene. I motsetning til et ekte videosignal, som redigeres ved bildegrenser, represente rer lydsamplene en sammenhengende strøm, og det må være mulig å foreta redigering hvor som helst innenfor bildet. Figur 8.10 viser at ved montasje føres den gamle innspillingens ut-punkt og den nye innspillingens inn-punkt sammen. Det er ikke mulig å spille inn en kurveform med av brudd i synkperiodene, så løsningen blir å bytte om samplene i den nye innspillingen i forhold til synkperiodene. Dette oppnås ved hjelp av et minne som brukes som forsinkelse. Slik kan synkpulsene bli sammenhengende i redigeringsområdet. Redigeringspunktet kan ha hvilken som helst posisjon hva angår bildet, men en videomaskin er konstruert for å redigere bare ved bildegrenser. Figur 8.11 viser at ønsket effekt kan oppnås ved å sette maskinen på innspilling ved en bildegrense, for så å spille inn det som allerede er på båndet frem til redigeringspunktet, hvor den nye innspillingen begynner. Det er ikke mulig bare å bytte mellom de gamle og nye samplestrømmene, fordi det ville gi et hørbart klikk ved redigerings punktet. Figur 8.12 viser at det skjer en kryssfading i det digitale signalet. I kapittel 3 så vi hvor dan dette kunne gjøres. Operatøren kan kontrollere kryssfadingshastigheten ved å endre den takten koeffisientgeneratoren teller med. For å kontrollere de relative nivåer på innspillingen før
135
Ramme
Ramme
Slutt på gammelt opptak
Start av nytt opptak
Figur 8.10. For å foreta en montasje må slutten av en gammel innspilling og begynnelsen av en ny føres sammen. Dette må gjøres uten at synkmønsteret blir avbrutt, noe som oppnås ved å la den nye innspillingens sampler få en glidende synkronisering. Start
Figur 8.11. Ettersom videoopptakere bare kan starte et opptak ved begynnelsen av bildet, bestemmes redigeringspunktets nøyaktige posisjon ved å gjeninnspille de gamle dataene frem til redigeringspunktet. Redigeringspunkt
Figur 8.12. For å unngå et klikk ved redigeringspunktet på grunn av diskontinuitet i signalet brukes kryssfading.
og etter redigeringspunktet gikk den nye innspillingen gjennom et digitalt volumkontrolltrinn som ble kontrollert av en manuell fader før den kom frem til kryssfadingstrinnet. Som vi har sett stokkes samplene på en digital lydopptaker, noe som resulterer i en uunngåelig forsinkelse i både innspillings- og avspillingsprosessen. Ettersom innspillingen må begynne ved en bildegrense, må man sørge for at samplene spilles inn på forskudd, slik at de etter stokkingsforsinkelsen vil ha korrekt tidsreferanse i forhold til båndet. Denne forhåndsinnspillingen oppnås bare ved å spille tilbake slutten av den gamle innspillingen på forskudd, og å lagre samplene i et
136
minne. Opptakeren må passere redigeringspunktet to ganger for hver redigering, først for å laste minnet og så for å foreta redigeringen. I tillegg har dette den fordel at det kun er nødvendig med en PCM-omformer for å dekode og sortere den nye innspillingen, fordi slutten av den gamle inn spillingen skaffes til veie av minnet. Ettersom kryssfadingsperioden kan gå over flere bilder må minnet være stort nok til å romme den gamle innspillingen inntil den har fadet ordentlig ut. Samplene i den nye innspillingen vil være glidende med hensyn på synk, men den forsinkelse som trengs må modifiseres av noen detaljhensyn. Først forsinkes samplene fra avspillingen av det kildebåndet som gir den nye innspillingen av sorteringsprosessen, men de må skaffes til veie på forskudd med en tid som er lik stokkingsforsinkelsen. Derfor må forsinkelsen i minnet reduseres med en kodingsforsinkelse pluss en dekodingsforsinkelse. Videre kan man ikke stole på at billige industrielle videomaskiner aksellererer til bildelåsing samtidig fra hvileposisjon når de blir dre vet av redigeringsmaskinen. Spilleren og opptakeren kan komme til å låse med en tidsfeil på et bilde imellom. For å overvinne dette problemet kjører redigeringsmaskinen med vilje spilleren noen få bilder foran opptakeren, og forsinker samplene fra spilleren i ytterligere et område av minnet tilsvarende mye. Redigeringsmaskinen leser så den tidskoden som de to maskinene har ut arbeidet, og dersom det har blitt en bildeglipp, kan forsinkelsen økes eller minskes med et bilde eller 1470 sampler i en 60 Hz maskin. Som en konsekvens er den forsinkelse som samplene får fra kildespilleren en funksjon av forbindelsen til bilde-tidsstyring av inn- og ut-punktet, PCMomformerens kodings/dekodingsforsinkelse og låsetilstanden som oppnås av de to maskinene i løpet av prøverunden. Det er mikroprosessoren i redigeringsmaskinen som tar seg av beregningene, operatøren trenger ikke befatte seg med dem. En stor fordel ved elektronisk redigering er at den subjektive virkning av en redigering kan vur deres ved hjelp av simulering uten å endre innspillingen på noen av de bånd det gjelder. Prøveme toden er lik montasjeredigeringen, med det unntak at opptakeren ikke går i innspillingsposisjon, men operatøren kan høre akkurat hva som ville skje via DAC’en i PCM-omformeren. Inn- og utpunktet kan så jevnes ut, og kryssfadingsperioden og det relative nivået kan endres helt til opera tøren er fornøyd med redigeringen, som så kan spilles inn. Redigeringsmaskiner er forskjellige når det gjelder hvordan en prøve utføres. Noen maskiner lagrer bare utpunktets område i minne, og spilleren må kjøres frem til prøving, mens andre med større minne lagrer begge områdene i minne, og prøvingen blander ikke inn videomaskinene. For å gi korrekt avlytting av prøvingen eller den virkelige montasjen, foreligger ytterligere en komplikasjon. I løpet av prøverunden før redigeringspunktet skaffer PCM-omformeren sampler fra opptakeren som forsinkes av sorteringsprosessen. Når man når frem til de samplene fra oppta keren som tidligere ble lastet inn i minnet, blir det et plutselig sprang i tid, fordi disse må tilføres PCM-omformeren en kodingsforsinkelse før sanntid. For at det skal bli en sammenhengende av lytting mens denne overføringen skjer, får samplene fra det forhåndslastede minnet en forsinkelse som er lik en kodingsforsinkelse pluss en dekodingsforsinkelse, slik at de tidsmessig blir på linje med samplene fra opptakeren i løpet av prøverunden og fra kildespilleren selv om de tilføres kodeenheten på forskudd. Tre minneområder er derfor nødvendige: Den forhåndslastede opptakerens samplingsminne, minne for spillerens tidsbasisretter og kontrollforsinkelsesminnet. Disse områdene oppnås ved å tildele minnet for lokalisering av redigeringspunkt på nytt, siden det ikke lenger tjener noe formål når punktene er funnet.
8.7. Montasje Vi kan nå beskrive hele hendelsesforløpet i en montasjeredigering, og samtidig referere til figur 8.13. Inn- og utpunktene lokaliseres som beskrevet, og operatøren setter igang redigeringsprosessen. Første skritt består i å forhåndslaste minnet med samplene fra opptakerens utpunktsområde. Opptakeren reverseres bort fra redigeringspunktet, og settes på spilling. Når tidskodeleseren vi ser at passende bilde er nådd, lagres samplene i minnet. På dette stadium vil det ikke bli noen hør bar avlytting, noe som kan virke forvirrende dersom man ikke vet hvorfor båndet beveger seg. Etter førlastingen reverserer opptakeren og spilleren bort fra redigeringspunktet. Redigerings maskinen setter så begge på spilling, og leser tidskode fra begge for å opprette synkronisering mellom dem. Denne brukes til å tilpasse minneforsinkelsen for tidsbasisretteren. Videomultiplekseren skifter til pseudovideo fra opptakeren i løpet av prøverunden, og sender den til PCM-
137
omformerens dekoder. Etter en dekodingsforsinkelse vil samplene fra PCM-omformeren sendes tilbake til redigeringsmaskinen, som igjen vil sende dem til DACen for avlytting. Man må skifte over til samplene fra det forhåndslastede minnet like før redigeringsområdet, slik at dekoderen kan dekode den nye innspillingen fra kildebåndet. Disse samplene er tilgjengelige en kodingsforsinkelse før sanntid, og for avlytting må avlyttingsforsinkelsen for en kodings/dekodingstid ko bles inn slik at DAC’en får sin samplingskilde umerkelig skiftet over fra aktuell avspilling av opptakeren til samplene fra det forhåndslastede minnet. Så fort avlyttingsutgangen er opprettet fra minnet skifter videomultiplekseren til pseudovideo fra kildespilleren, og sender den til deko deren i PCM-omformeren. En dekodingsforsinkelse senere sendes samplene tilbake til redige ringsmaskinen, som må avgjøre hvor mye de skal forsinkes i henhold til de restriksjoner som tidligere er spesifisert. Etter denne forsinkelsen danner avspillingssamplene det andre inngangs signalet til kryssfaderen via nivåkontrollen. På dette stadiet har man ennå ikke nådd det bildet som inneholder redigeringspunktet, og kryssfaderen vil fade vekk fra avspillingssamplene og mot samplene fra det forhåndslastede minnet. Opptakeren står fortsatt på spilling. Før bildet som inn eholder begynnelsen av kryssfadingen, må man føre samplene fra det forhåndslastede minnet, som er kommet uforandret gjennom kryssfaderen, til PCM-omformerens kodingsenhet. I begyn nelsen av den rammen begynner opptaket, og først vil det som allerede er på båndet spilles inn. Når kryssfadingen begynner, vil samplestrømmen fra kildespilleren, som er blitt forsinket til strekkelig, bli fadet inn, og de data som er tatt opp på forhånd vil fades ut. Etter dette begynner opptakeren å dubbe om og om igjen fra kildebåndet helt til operatøren stopper den. Hele proses sen kan avlyttes underveis, fordi kontrollforbindelsen er plassert rett etter kryssfadefen. Ytterli gere montasjer kan foretas inntil originalbåndet er ferdig. Hver gang opptakeren begynner å spille inn ved redigeringspunktet blir tidskodegeneratoren presset til neste bildenummer etter det siste som ble spilt, og tidskoden vil også spilles inn. Slik vil det sammensatte båndet inneholde et sam menhengende tidskodespor som vil virke som om det er spilt inn på en gang. Compact Disckuttere avviser bånd som ikke har sammenhengende tidskode. Et felt Synk
Dekoder inngang
Fra opptaker
Fra spiller
(Dec.)-*-j p-
Dekoder utgang
Fra opptaker til monitor
Fra spiller til redigeringsminne
Maks. kryssfadings-i
Redigeringsminne-
Redigeringsminne Kryssfader
||
I
f
|| ,orsinkelse
periode
I1
'
I
(Enc.)—"p f*-
I
Opptaksminne
T
~
I,1
(Enc.)—M I—-
"j
। 1
I1! Playback
Pl
Re-record-.
l!l
Startbånd
Monitorkilde
Fra opptaker via dekoder
I (Enc.)-—1
138
Nytt opptak
Opptaksstad ved
’ forsinkelse nV rarnme
Fra kryssfader via monitor-forsinkelse (Enc.) = Koders forsinkelsestid (Dec.) = Dekoders forsinkelsestid
Figur 8.13.
Koding skjer før skriving til bånd
[“ i Opptaksminne tømmes i løpet av kryssfading II
\ ] Opptaks- }
Opptaker- ---------------------------- -- —U-j.------------------funksjon j ।------------------------------- fading (Enc.) + (Dec.) -*1 r'*j^onitor.
l Utgang av kryssfader går til enkoder og monitorforsinkelse
Uunngåelig nok er en slik redigeringsmaskin meget sammensatt, og hovedgrunnen er den be grensning det innebærer å benytte videoopptakere som ikke er konstruert for lydbruk fra begyn nelsen av. Hvis man konstruerer et båndføringssystem med roterende hoder kun for digital lydbruk, kan redigeringsmaskinene gjøres mye enklere.
8.8. Introduksjon til RDAT Når man benytter en videoopptaker som grunnlag for en digital lydopptaker, er video båndbred den allerede definert, og som regel er den mye større enn nødvendig. Videre er signal/støyforhol det i videoopptakere altfor høyt til å lagre binært. Resultatet av disse faktorene er at forbruket av bånd blir mye høyere enn nødvendig. Etter at digital lyd ble vanlig, og det synes å være marked for et stort antall maskiner er det ikke lenger nødvendig å låne teknologi fra andre områder, fordi det er økonomisk forsvarlig å konstruere et eget produkt for formålet. Den første av denne genera sjon maskiner er RDAT (Rotary Head Digital Audio Tape). Ved at konstruksjonen er tilpasset for målet kan båndforbruket bli mye lavere enn for en ombygget videomaskin. Faktisk oppnår RDAT-formatet flere bits pr. kvadrat centimeter enn noen annen magnetisk opptaker som fins pr. dags dato. Opprinnelsen til RDAT finner vi i en eksperimentell maskin som er bygget av Sony, men RDAT-formatet er vokst frem gjennom en standardiseringsprosess som har involvert ca. åtti selskaper. RDAT-kassettens vanlige utseende finner vi i figur 8.14. Vanlig størrelse er bare 73 mm x 54 mm X 10,5 mm, noe som er vesentlig mindre enn Compact-kassetten. Kassettens konstruksjon er en del forbedret sammenlignet med sin analoge forgjenger. I figur 8.15 ser vi at de spaltene som Laste feste Overside
Utsparing for skyvedeksel og beskyttelse mot feilmating
Øvre/nedre kassetthalvdel
Skyvedeksel Utsparing for utløsning av skyvelås
Underside
I nnspilli ngsbeskyttelses hull
Styrehull
Gjenkjenningshull (x4) Navhull (dekket av skyvedeksel)
Skyvelås 1
Skyvelås 2* Lukelås x (låst av skyvedeksel)
'Merk: Ved kun én skyvelås benyttes et skyvespor
Figur 8.14. RDAT-kassettens utseende. Tilgang til båndet via et hengslet lokk, og navdrevhullene har et deksel som gir maksimal beskyttelse av båndet. Ytterligere detaljer når det gjelder gjenkjenningshullene gis i tabell 8.1.
139
hodene kommer i kontakt med båndet gjennom er lukket med en hengslet dør, og navdrevets spal ter har et deksel som også stenger døren når kassetten ikke er satt inn. Når døren lukkes settes en brems på, og den virker på spolenavene. Dette betyr at kassetten er godt beskyttet mot støv og skitt i forbindelse med håndtering eller lagring. De korte bølgelengdene som benyttes i digitale opptak gjør den mer følsom overfor avstandstap som oppstår på grunn av tilsmussing. Akkurat som i Compact-kassetten er båndnavene uten vanger, og kantføring i båndesken oppnås ved bruk av ledeark. Det at det ikke er vanger gjør at navsentrene kan sitte tettere sammen en gitt lengde bånd. Kassetten har hull på fire standardsteder som gjør at spillerne automatisk kan avgjøre hvil ken type kassett som er satt inn. I tillegg er det en mekanisme for skrivebeskyttelse (opptakssikring) som blir utløst av en liten plastikkplugg som glir mellom kassetthalvdelene. Slutten av båndet påvises optisk og ledebåndet er gjennomsiktig. Man står noe fritt i utformingen av EOTføleren. Som vi ser av figur 8.16 kan man benytte overført lysføling gjennom hjørnet av kassetten, eller lysreflektert føling, fordi kassetten har innebygget en prisme som reflekterer lys til baksiden av båndet. En studie av figur 8.15 viser at prismene er formet i ett med hjørnene på det gjennom siktige mellomlegget på kassettvinduet. Tabell 8.1. Betydningen av RDAT-kassettens gjenkjenningshull. Hull 1, 2 og 3 danner et kodet mønster, mens hull 4 er uavhengig.
Funksjon
Hull 1
Hull 2
Hull 3
0
0
0
Metall tape eller ekvivalent, 13 p.m tykk
0
1
0
MP tape eller ekvivalent, tynn tape
0
0
1
1.5 TP/13 p.m tykk
0
1
1
1,5 TP/tynn tape
1
X
X
Reservert
Hull 4
1 = Hull tilstede
0 = Hull dekket til
0
Uinnspilt tape
1
Ferdig innspilt tape
Det høykoersive (vanligvis 1480 ørsted) metallpulver-båndet er 3,81 mm bredt, akkurat likt Compact Cassette-båndet. Standard tykkelse er 13 /im. Et påfallende trekk ved metallbåndet er at det magnetiske belegget er så tynt, omtrent 3 /im, at båndet virker gjennomsiktig. Båndets maksimale lengde er ca. 60 m. Når kassetten settes inn skyves glidedelen tilbake når den kobles inn. Dette utløser låsen på lok ket. Fortsatt bevegelse inn i båndføringen skyver glidedelen rett tilbake og navåpningene kommer til syne. Deretter går kassetten ned på navdrevspindelen og håndlederne, og døren åpnes helt for å gi plass til båndet. Som navnet antyder benytter systemet roterende hoder, men likheten med videoopptakere for øvrig er ikke så stor. I videoopptakere lagrer hvert diagonale båndspor ett fjernsynsdelbilde, og skiftet fra et spor til neste skjer i løpet av det vertikale intervallet. I en opptaker med to hoder, ett på hver side av trommelen, er det nødvendig å dreie båndet mer enn 180 grader rundt trommelen slik at et hode begynner et nytt spor akkurat før det foregående hodet slutter. Dette kravet innebæ rer at maskinenes træingsmekanisme er ganske innviklet. Træing er enklere i RDAT, fordi det di gitale opptaket ikke må være sammenhengende. RDAT fører tidskompresjonsteknikken ennå videre for å presse sammenhengende sampler inn i periodiske videolinjer. Blokker av sampler som skal spilles inn blir skrevet inn i et minne med samplingsfrekvensen, og blir lest ut i atskillig høyere hastighet når de skal spilles inn. Slik kan innholdet i minnet spilles inn på kortere tid. Fi gur 8.17 viser at når samplene tidskomprimeres, er ikke opptaket lenger sammenhengende, men 140
Øvre kassetthalvdel
Vindu (prisme)Luke fjær
Navbremsfjær Luke
Navbrems Glidesjikt
Magnet bånd
Nav
Feste/lås
Skjøte tape
Glidesjikt Klar plasttape
Skyve klaff for slettebeskyttelse
Festeskrue
Nedre kassetthalvdel
Skyvedeksel
Skyvedekselfjær
Figur 8.15. RDAT-kassettens innviklede deler vist hver for seg. Når lokket åpnes, dras hjørnene på bremseplaten, og navene utløses. Merk at EOT/BOTføleprismen er formet inn i hjørnene på det klare vinduet.
avbrutt av lange pauser. I disse pausene må ikke hodet nødvendigvis være i kontakt med båndet, og vinkelen på omløpet av bånd rundt trommelen kan reduseres, noe som forenkler træingen. I RDAT er omløpsvinkelen bare 90 grader ved vanlig trommelstørrelse. Siden hodene sitter 180 grader fra hverandre er ingen av dem i kontakt med båndet halvparten av tiden. Figur 8.18 viser at prinsippet for delvis omløp gjør at træingen blir virkelig enkel. Når kassetten settes inn passe rer pressvalsen og flere ledepinner bak båndet. Disse flytter seg da ganske enkelt mot kapstanen og trommelen og træingen er ferdig. En ytterligere fordel ved delvis omløp er at friksjonen mel lom båndet og trommelen blir redusert, noe som gjør at man sparer kraft i bærbare anvendelser, og båndet kan kjøre frem og tilbake i høy hastighet uten den delvise avtræing som trengs med vi deokassetter. Slik kan spilleren lese subkode i løpet av spolingen, og få rask tilgang til sporene. Det spormønsteret som benyttes av de roterende hodene vises i figur 8.19. Hodene roterer med 2000 omdreininger pr. minutt i samme retning som båndet beveger seg, men fordi aksen på trom melen står på skrå resulterer det i diagonale spor på 23,5 mm, med en vinkel på litt over seks gra der til kanten. Det er ikke spesifisert noen nødvendig diameter på søkeren, fordi det er spormønsterets form som sikrer vekslingens kompatibilitet. I bærbare maskiner er en liten søker 141
Snitt D-D
inn her
Figur 8.16. Båndføling kan enten skje ved hjelp av overføring gjennom hjørnet av kassetten, eller ved hjelp av reflektering gjennom en sammenhengende prisme. I begge tilfeller blir åpningene forseglet når lokket lukkes.
Figur 8.17. Bruken av tidskompresjon reduserer nødvendig omløpsvinkel, men samtidig blir frekvensene i kanalen høyere.
å foretrekke, mens det for profesjonell bruk er en fordel med større søker, som gir rom for at flere hoder kan monteres for sikkerhetsavspilling og redigering. Det er to lineære spor, ett på hver kant av båndet, hvor de beskytter de diagonale sporene mot å bli ødelagt i kantene. På grunn av den lave lineære båndhastigheten er bruken av disse sporene på kantene noe begrenset. I standardkassetten kan man benytte flere beslektede virkemåten Disse sammenlignes i tabell 8.2. En av de viktigste virkemåtene benytter en samplingsfrekvens på 48 kHz, med seksten bits 142
Båndføring Trommel
Figur 8.18. RDAT’s enkle mekanisme. Lederne og pressvalsen flytter seg mot trommelen og kapstanen og træingen er ferdig.
Figur 8.19. De to hodene med motsatt azimutvinkler fastsetter sporformatet over. Lineær båndhastighet bestemmer avstandene mellom sporene.
toerkomplement lineær kvantisering. Ved siden av lydsamplene kan det være 273 kilobiter subkode pr. sekund (ca. fire ganger mer enn i Compact Disc) og 68,3 kilobiter ID-koding pr. sekund, noe vi skal forklare senere. Med en lineær båndhastighet på 8,15 mm i sekundet gir standardkassetten 120 minutter uavbrutt spilletid. Alle RDAT-maskiner kan spille inn og av ved 48 kHz. Når det gjelder forbruksmaskiner anbefales 44,1 kHz. Når det gjelder forbruksmaskiner anbefales 44,1 kHz seksten-bit toerkomplement med lineær kvantisering, hvis man bare skal spille av ferdiginnspilt materiale. Av grunner vi vil forklare senere går ferdiginnspilte bånd med 12,225 mm pr. sekund for å gi en spilletid på 80 minutter. Her har vi samme subkode og ID-frekvens. De to virkemåtene ovenfor er obligatoriske hvis en maskin skal sies å tilfredsstille formatet. En profesjonell RDAT-maskin som benyttes for CD eller ferdiginnspilte RDAT originalopptak vil ta opp ved 44,1 kHz. Valg 1 er likt som 48 kHz med unntak av at samplingsfrekvensen er 32 kHz. Valg 2 gir ekstra
143
Tabell 8.2. Forskjellige RDAT-typer satt opp mot hverandre. Obligatorisk er 48 kHz innspilling/spilling og 44,1 kHz avspilling. Andre metoder er valgfrie. Merk at valg 2 kjører trommelen med halv hastighet for å gi lengre spilletid.
Opptak/avspilling Obligatorisk Option 1 Option 2 Option 3 Antall kanaler
Ferdig innspilt bånd
2
2
2
4
2
2
Sampling frekvens (kHz)
48
32
32
32
44.1
44.1
Kvantisering (bit)
16
16
12 ulin.
12 ulin.
16
16
8.15
8.15
4.075
8.15
8.15
12.225
273.1
273.1
136.5
273.1
273.1
273.1
120
120
240
120
120
80
2000
2000
1000
2000
2000
2000
Båndhastighet
Subcode rate (kbit/s)
Spilletid (13 m tape) Trommelhastighet (o/min)
lang spilletid. For å redusere dataraten er samplingsfrekvensen 32 kHz og samplene skifter til tolv bits toerkomplement med ikke-lineær kvantisering. Ved å halvere subkoderaten halveres også den nødvendige generelle datarate. Den lineære båndhastigheten og trommelhastighéten blir begge halvert for å gi en spilletid på 4 timer. Alle metodene ovenfor er stereo, men valg 3 benytter sampleparameterne fra valg 2 med fire lydkanaler. Dette dobler dataraten med hensyn til valg 2, slik at den vanlige båndhastigheten på 8,15 mm pr. sekund blir benyttet. Figur 8.20 viser et blokkdiagram for en vanlig RDAT-opptaker, som vi vil benytte i presentasjo nen av maskinens hovedkonsept og de hovedemner vi skal beskrive. Ved innspilling føres et ana logt signal til en inngangs-ADC, eller et digitalt inngangssignal tas fra et AES/EBU grensesnitt. De inngående samplene stokkes for å redusere virkningen av gruppefeil. Ved å lese minnet med høyere hastighet enn det ble skrevet oppnås nødvendig tidskompresjon. Tilleggsbytes med paritet beregnet fra samplene legges til datastrømmen for å gi etterfølgende feilkorreksjon. Subkodeinformasjon legges til, og den parallelle byte-strukturen omdannes til serieform og tilføres kanalkoderen, som kombinerer en bitklokke med dataene, og skaper et innspillingssignal som kalles en DC-fri 10/8 kode (se kapittel 6). Dette signalet tilføres hodene via en roterende transformator for å foreta binær innspilling, noe som gjør at båndsporet får et mønster av transisjoner mellom de to magnetiske tilstandene. Ved avspilling virker transisjonene på båndsporet inn på pulser i hodet, som benyttes for å gjenskape den gjeldende kurveformen i innspillingen. Denne tilføres 10/8-dekoderen som om danner den til en serie bitstrøm og en separat klokke. Subkodedataene føres til subkodeutgangen. og lydsamplene tilføres et sorteringsminne, som i tillegg til å utvide innspillingen i tid også har den funksjon å fjerne all wow eller flutter som er forårsaket av variasjoner i hastigheten hode/bånd. Feilkorreksjon skjer delvis før og delvis etter sortering. De korrigerte utgangssamplene kan tilføres DAC’er eller en direkte digital utgang. For å få de roterende hodene til å følge de trange, skrånende sporene blir tilpasningsmønstre spilt inn i tillegg til dataene. Det automatiske sporfølgingssystemet behandler avspillingssignalene fra disse mønstrene for å kontrollere trommel- og kapstanmotorene. Kontrollogikken kan bru ke subkode- og ID-informasjonen til å drive båndet til den posisjon brukeren måtte ønske.
8.9. Sporfølging i RDAT Vi vil nå beskrive sporenes oppbygning og sporfølgingssystemet i RDAT. Som enhver opptaker beregnet for konsumentbruk er økonomien i båndforbruk ytterst viktig, og dette innbefatter mange skritt for å kunne bruke båndområdet så effektivt som mulig. Siden magnetisk bånd er fleksibelt og konstruert for et begrenset toleranseområde vil det alltid finnes feil mellom avspillingshodets bane og det innspilte sporet. Dette er sjelden noe problem med de relativt brede sporene i analoge lydopptakere. Et metallbånd med høyt utgangnivå, slik som i
144
A D, D-A
Figur 8.20. Blokkdiagram for vanlig RDAT.
RDAT, gjør at man oppnår et tilstrekkelig signal/støyforhold med svært smale spor på båndet. Dette reduserer forbruket av bånd og gjør at kassetten blir liten, men samtidig blir det nødvendig aktivt å kontrollere hodets og sporets relative posisjon, slik at avspillingssignalet blir så sterkt som mulig og feilfrekvensen så liten som mulig. Alminnelige magnetiske opptakere tar opp transisjonene på båndsporet med rette vinkler på kanten av sporet, og figur 8.21 viser at såkalte vernebånd mellom sporene trengs for å gi rom for noe sporfeil uten at dette medfører overhøring fra tilstøtende spor. Disse vernebåndene represen terer bortkastet bånd.
Spor
Spor
Vernebånd
Spor
Figur 8.21. I alminnelig innspilling må man ha et mellomrom eller vernebånd mellom sporene slik at dersom et hode ikke er på rett linje, blir signalet bare svakere i stedet for å bli et sammensatt signal fra to spor. Vernebåndene representerer ubrukt bånd.
145
Azimut opptakshode
Azimut opptak
Omvendt azimut avspillingshode
77/////////7/T7777
(a)
Azimut vinkel
Figur 8.22. /azimutinnspilling (a) står hodespalten på skrå. Hvis sporet spilles med samme hode, blir avspillingen normal, men det omvendte azimuthodets respons blir svekket (b).
Figur 8.22 viser at i azimutinnspilling er det et skråstilt hode som fastsetter transisjonenes vinkel til sporet. Maskiner som benytter azimutinnspilling må alltid ha et jevnt antall hoder, slik åt tilstø tende spor kan spilles inn med motsatt azimutvinkel. De to sportypene refereres vanligvis til som A og B. Figur 8.22b viser hva som skjer når man spiller et spor med feil type hode. Avspillingsprosessen har en enorm azimutfeil. Man kan forstå virkningen av azimutfeil ved å tenke seg at bånd sporet består av mange identiske parallelle strimler. Ved azimutfeil spilles strimlene ved den ene kanten av sporet av med en fasedreining relativt til strimlene på den andre siden. Ved noen bølge lengder blir fasedreiningen 180 grader og det blir ikke noe utgangsignal, ved andre, og spesielt lange bølgelengder vil noe av utgangssignalet komme igjen. Virkningen er som med et kamfilter, og svekker overhøring fra tilstøtende spor. Siden ikke noe bånd går tapt mellom sporene, gir dette altså effektiv bruk av båndet. Uttrykket innspilling uten vernebånd brukes ofte i stedet for, eller i tillegg til, uttrykket azimutinnspilling. Hvis man benytter en kanalkode med et lite lavfrekvent innhold, blir ikke bortfall av azimutvirkningen lenger noe problem. I digital innspilling fins ingen separat sletteprosess, og sletting skjer ved å skrive over med en ny kurveform. Når overskriving brukes sammen med azimutinnspilling kan de innspilte sporene gjøres smalere enn hodets pol ba re ved å redusere båndets lineære hastighet, slik at det ikke flytter seg så langt for hver gang de roterende hodene kommer i kontakt med det. I RDAT er hodets pol 20,4 gm bred, men de sporene det spiller inn er bare 13,59 pm brede. Samme hode kan brukes til avspilling selv om det er 50 % bredere enn sporene. Av figur 8.23 fremgår at det vil bli overhøring fra spor på begge sider av utgangssporet, men denne svekkes av azimutvirkningen. Den lengde hodet overlapper tilstøtende spor med bestemmer overhøringens spekter, siden den endrer forsinkelsen i azimut kamfiltereffekten. Viktigere er det at signal/overhøringsforholdet blir uavhengig av sporfeil over et lite områ de (figur 8.24), fordi når hodet beveger seg til en side, balanseres tapet av overhøring fra et tilstøtende spor av økningen av overhøring fra sporet på motsatt side. Da spiller det ingen rolle om sporet ikke er helt rett, og den restfeil som fins i alle sporfølgingsservosystemer gjør heller ingenting. Den azimutvinkel som benyttes må velges med omhu. Jo større azimutvinkel, desto mindre overhøring, men effektiv skrivehastighet er hastigheten hode-til-bånd multiplisert med azimutvinkelens cosinus. En ytterligere mindre virkning er at båndet er anisotropisk på grunn av partikSporbredde Hodebredde
Overlapping
Figur 8.23. / azimutinnspilling kan sporene gjøres smalere enn hodets pol ved å skrive over foregående spor.
146
Hodebredde - Hodefen
। Hodei pol
Overhøring
Ønsket signal (sporbredde)
Sporfeil Overhøring
Figur 8.24. Når hodets pol er bredere enn sporet, plukkes ønsket signal opp sammen med overhøring fra tilstøtende spor. Dersom hodet ikke er på rett linje, blir signal/overhøringsforholdet det samme inntil hodet ikke lenger passer inn i hele det ønskede sporet.
kelorientering. Støy på grunn av medium, hode eller forsterker er så godt som upåvirket av azimutvinkelen, og det er ikke noe vits i å gjøre overhøringen mindre enn støyen. Den valgte verdi på 20 grader reduserer overhøringen til samme nivå som støyen, med et tap på bare 1 dB på grunn av den tydelige reduksjon i skri ve hastighet. Det er stort sett sporbredden og båndets koersitivitet som bestemmer signal/støyforholdet. Det er valgt en sporbredde som gjør signal/overhøringsforholdet dominerende i kassetter beregnet for brukerinnspilling. Ferdiginnspilte bånd lages ved kontakt-mangfoldiggjøring, og denne prosessen virker bare dersom kopiens koersivitet er mindre enn originalens. Utgangssignalet fra ferdiginnspilte bånd med en sporbredde på 13,59 pm er for lavt, og for dominert av støy, noe som forårsaker en økning i feilfrekvensen. Løsningen på dette problemet er at sporbredden i ferdiginnspilte bånd økes til den samme som hodets pol. Både støy og overhøring reduseres i forhold til mediets reduserte utgangsnivå, og samme feilfrekvens oppnås som for normale høykoersivitetsbånd. En økning i sporbredde på 50 % oppnås ved å øke den lineære båndhastigheten fra 8,15 til 12,225 mm pr. sekund, og slik reduseres spilletiden på en ferdiginnspilt kassett til 80 minutter sammenlignet med 120 minutter med vanlig bånd. Egentlig er ikke dette noen begrensning, siden
Figur 8.25. I RDAT’s sporfølgingssystem kommer det signalet som plukkes opp av hodet fra styresignaler som blir spilt inn i tilstøtende spor i forskjellige posisjoner. Disse styresignalene har lav frekvens, og er upåvirket av azimutfeil. Systemet sampler styresignalenes amplitude, og trekker dem fra.
147
de fleste forbrukere ikke ville kjøpe så mye copyright-materiale på en gang allikevel. Mens man tidligere ofte klaget over at det bare var 20 minutters spilletid på hver av sidene på en vinylplate, er det utgitt få Compact Disc’er som utnytter alle de 75 minuttene som er tilgjengelige. Prinsippene for sporfølging er de samme for ferdiginnspilte og normale kassetter, men visse detaljforskjeller fins allikevel. I vanlige videoopptakere oppnås sporfølging ved hjelp av et line ært kontrollspor som inneholder en puls for hvert diagonalt spor. Fasene på de pulsene som blir plukket opp av et fast hode sammenlignes med fasen på pulser som skapes av det roterende hodet, og feilen brukes til å drive kapstanen. Denne metoden passer for de brede sporene i analoge vide oopptakere, men feil i monteringen av det faste hodet og variasjoner i båndstramming utelukker den for høytetthets bruk. I alle tilfelle betyr kontrollsporhodet at mekanikken blir mer innviklet enn ønskelig. I RDAT oppnås sporfølging ved å lese spesielle opprettingsmønstre på selve båndsporene, og ved å bruke den informasjon de inneholder til å kontrollere kapstanen. RDAT benytter en teknikk som kalles områdedelt sporfølging (ATF) hvor separate deler av sporet settes av til sporfølgingsformål. Figur 8.25 viser den grunnleggende måten en sporingsfeil blir utledet på. Sporene på hver side av utgangssporet har stykker av pilottonen spilt inn på to for skjellige steder. Pilottonens frekvens er 130 kHz. Denne er valgt relativt lav, slik at den ikke blir påvirket av azimuttap. Slik vil et B hode etter et B spor være i stand til å påvise pilottonene fra de tilstøtende A-sporene. I figur 8.26a ser vi et hode med korrekt sporfølging. Det er lik mengde sidelesende pilottone fra de to tilstøtende B-sporene. Hvis hodet er utenfor sporet av en eller annen grunn, som vist i figur 8.26b, vil amplituden på pilottonen fra et av de tilstøtende sporene øke, og den andre vil bli mindre. Sporfeilen utledes ved å sample amplituden på hver pilottone halvdel ettersom det opp står, og å holde på resultatet slik at de relative amplitudene kan sammenlignes. Noen praktiske hensyn må tas når man iverksetter dette enkle systemet, og da blir det hele litt vanskeligere. Pilottonenes mønster må være slik at de forekommer til forskjellige tider på hver side av hvert spor. For å oppnå dette må det være stykker av pilottonen i hvert spor, selv om pilot tonen i utgangssporet ikke bidrar til utviklingen av sporfeilen. I tillegg må det finnes tidssty ringssignaler i sporene for å bestemme når samplene av styresignal skal foretas. Siste oppgave er å hindre falsk låsing som kan forekomme dersom båndet går med dobbelt hastighet i forhold til det normale.
(a) (b)
Figur 8.26. a. Et hode med korrekt sporfølging produserer styresignalbrudd med identisk amplitude, b. Hodet er utenfor sporet, og det første bruddet i styresignal blir større, mens det andre blir mindre. Dette forårsaker den sporfeil vi ser i figur 8.25.
Figur 8.27 viser hvordan RDAT’s aktuelle sporfølgingsmønster virker. Pilottonen kommer tid lig på A-spor og sent på B-spor. Selv om dette gir en tospors syklus, er mønsteret laget slik at det gjentar seg over fire spor ved å endre perioden på synkroniseringen som kontrollerer samplingen av pilottonene. Dette kan brukes til å hindre falsk låsing. Når et A-hode kommer inn på sporet, finner det først tilhørende pilottone, deretter piloten fra B-sporet over, og så fra B-sporet under' Sporfeilen utledes av de to siste. Når et B-hode kommer inn på sporet finner det først pilot fra Asporet over, deretter A-sporet under og til slutt tilhørende pilot. I dette tilfellet blir sporfeilen utle det fra de to første. Maskinen kan lett finne hvilken behandlingsmåte den skal benytte fordi synkroniseringssignalene har forskjellig frekvens alt avhengig av om de er i A-spor (522 kHz) eller B-spor (784 kHz). De gjenværende områdene spilles inn med en frekvens på blokkmellomrommene på 1,56 MHz som ikke tjener til noe annet enn å slette tidligere innspillinger. Selv om disse
148
pilot- og synkroniseringsfrekvensene virker merkelige, er de valgt slik at de lett kan oppnås ved å dele den originale kanalbitrate-klokken med enkle faktorer. Kanalbitrate-klokken, Fch, er 9,408 MHz, pilottonen, de to synkroniseringsfrekvensene og sletting oppnås ved å dele den på henholdsvis 72, 18, 12 og 6.
8/10 data pilot 130.67 kHz = -72 synd 522.67 kHz = Æch - 18 sync2 784.00 kHz = Ach - 12 erase 1.568 MHz = Æch - 6 A +Azimuth track B — Azimuth track fy fl f3 ft
Figur 8.27. De områdedelte sporfølgingsmønstrene (ATF) i RDAT. For å gjøre utformingen av mønstre lettere i innspillingen, er mønsterlengdene relatert til dimensjonene på datablokkene og de frekvenser som oppnås ved å dele ned kanalbitklokken F,h. Synkroniseringssignalene brukes til å kontrollere tidsstyringen som pilottonens amplitude blir punktmålt med.
8.10. Innspilling i RDAT Den kanalkode som benyttes i RDAT er konstruert for å fungere bra ved overhøring, den har ingen DC-komponent, slik at man kan bruke en roterende transformator, og forholdet mellom maksi mal og minimal kjørelengde er liten for at sletting ved hjelp av overskriving skal bli enkelt. Den koden som benyttes er en gruppekode hvor åtte databits er representert av ti kanalbits, derav nav net 8/10. Kodens detaljer gis i kapittel 6. Den grunnleggende innspillingsenheten er synkblokken som vi ser i figur 8.28. Denne består av synkordet, en tre bytes leder (begynnelse) og 32 bytes data, til sammen 36 bytes, eller 360 ka-
Blokkadresse MSB
LSB
MSB = 0 —■ PCM audio blokk; resterende 7 bit = blokkadresse MSB = 1 - subkode blokk; 4 LSBs = subkode blokkadresse
Figur 8.28. En synkblokkfor RDAT. 128 av disse samles i en ubrutt sekvens for å danne lydsegmentet i et spor, med et blokkvarsel på begynnelsen og en blokkavslutning etter siste blokk. Den syvbits blokkadressen er tilstrekkelig for å merke de 128 blokkene. Subkodeområdets blokkstruktur er identisk, men bare åtte blokker utgjør et subkodesegment.
149
nalbits. Subkodeområdene består av åtte av disse blokkene, og PCM-lyd består av 128 av dem. Merk at et blokkvarsel bare er nødvendig i begynnelsen av hvert område, slik at dataseparatoren kan faselåse før første synkord. Synkronisme skulle kunne opprettholdes gjennom hele området, men synkmønsteret gjentas på begynnelsen av hver synkblokk i tilfelle synkroniseringen svikter på grunn av dropout. Begynnelsens første byte inneholder en ID-kode som i PCM lydblokkene fastsetter den sam plingsfrekvens som benyttes, antall lydkanaler og om det er noen kopieringsforbud i innspillin gen. Begynnelsens andre byte fastsetter om blokken er subkode eller PCM lyd med den første biten. Dersom den er satt, fastsetter de fire minst signifikante bitene sporets subkode blokkadresse, mens dersom den ikke er satt, fastsetter de syv gjenværende bitene PCM lydblokkadressen i sporet. Den siste byte i begynnelsen er en paritetskontroll og den eksklusive OR-summen av byte ne en og to. Nå kan vi forklare dataformatet innen sporene. Informasjonen på sporet har tre hovedformål, PCM lyd, subkodedata og ATF mønstre. Man må kunne spille inn subkode på et annet tidspunkt enn for PCM lyd i profesjonelle maskiner for å lage originalbånd for Compact Disc eller ferdiginnspilte RDAT-kassetter. Subkoden plasseres i separate områder i begynnelsen og slutten av sporene. Når man spiller inn subkode på et bånd som allerede inneholder en PCM lydinnspilling, må hodene gå i innspillingsposisjon akkurat i rette øyeblikk for å slippe et nytt subkodeområde inn på sporet. Denne tidsstyringen kan være gjenstand for noe avvik, derfor sørger man for en slags avdrift ved hjelp av marginområdet som kommer før subkodeområdet og det mellomrom met mellom blokkene (IBG) som følger. Hvert område har sitt eget blokkvarsel og synkmønster slik at dataseparatoren kan låse til hvert område individuelt selv om de ble spilt inn på forskjellig tidspunkt eller på forskjellige maskiner. Sporfølgingssystemet vil kontrollere kapstanen slik at hodene passerer presist gjennom ATFområdets sentrum. Figur 8.29 viser at når det er en krumning på sporet vil sporfeilen generelt bli mindre dersom ATF-mønsteret er plassert halvveis nede på sporene. Dette forklarer hvorfor ATF-mønstrene ligger mellom subkodeområdene og det sentrale PCM lydområdet.
(b)
Figur 8.29. a. ATF-mønstrene ligger på slutten av sporet, og dersom sporet har en krumning, blir sporfeilen overdrevet, b. ATF-mønstrene er halvveis nede på sporet, noe som gjør sporfeil på grunn av krumning mindre, og som gir et pent skille mellom subkode og lydblokker.
Stokkingen av date er ikke lagvis, men blokkstrukturert. Et par båndspor (et -Fazimut og et -azimut) tilsvarende en trommelomdreining utgjør en stokkingsblokk. Ettersom trommelen dreier med 2000 omdreininger pr. minutt tar en omdreining 30 ms og på denne tiden må 1440 sampler lagres for hver kanal ved 48 kHz. Den første stokkingen gjøres for å dele både venstre og høyre kanals sampler inn i ulike og like. De ulike samplene i høyre kanal etterfulgt av de like venstre samplene blir spilt inn på -Fazimutsporet, og de ulike venstre samplene etterfulgt av de like høyre på -azimutsporet. Figur 8.30 viser at denne stokkingen gjør at feil som ikke kan rettes skjules ved hjelp av interpolering. I b blir et hode tilsmusset og dette resulterer i at annethvert spor får store feil. Skillet mellom høy re og venstre sampler betyr at halvparten av samplene i hver kanal ødelegges i stedet for hvert
150
sample i en kanal. De høyre like samplene som mangler kan interpoleres fra de høyre ulike sam plene, og de venstre ulike samplene som mangler kan interpoleres fra de venstre like samplene. Figur 8.30c viser virkningen av at båndet er litt ødelagt i lengderetningen. En stor gruppefeil fore kommer på samme sted hver gang hodet passerer. Ettersom posisjonene på samplene i høyre og venstre kanal reverseres fra et spor til neste, blir feilene igjen spredt mellom de to kanalene og interpolering kan benyttes også i dette tilfellet.
Båndretning
Figur 8.30. a.Stokking av ulike og like sampler og venstre og høyre kanaler for å kunne skjule store feil. b.Tilsmusset hode mister annethvert spor. Halvparten av samplene i hver kanal er fortsatt tilgjengelige, og interpolering er mulig. c.En lineær båndskramme ødelegger ulike sampler i begge kanaler. Interpolering er igjen mulig.
De samplene som er kommet inn i løpet av en hodeomdreining føres til et par minneområder med en kapasitet på 4 kilobytes, en for hvert spor. Disse minnene er bygget opp som 128 kolonner med 32 bytes hver. Feilkorreksjonen virker ved hjelp av åttebits symboler, og slik blir hver sam pling delt inn i høy byte og lav byte og okkuperer to plasser i minnet. Figur 8.31 viser ett av de to minnene. Innkommende samplinger skrives på tvers av minnet i rader, med unntak av et områYtre kodeord 1
I
Rad nr.
Figur 8.31a. Venstre likt/høyre ulikt stokkingsminne. Innkommende sampler deles i høybyte (h) og lavbyte (l) og skrives tvers over minneradene ved å bruke de første like kolonnene for L 0-830 og R 1-831, deretter de ulike kolonnene for R 832-1438 og R 833-1439. For å oppnå 44,1 kHz reduseres antall sampler fra 1440 til 1323, og færre plasser blir fylt.
151
de i midten som er 24 bytes bredt. Hver datarad i RAM’en brukes som inngang til Reed-Solomonkodeenheten for den ytre koden. Kodeenheten starter ved venstre kolonne, og tar så en byte fra hver fjerde kolonne. Den slutter ved kolonne 124 med totalt 2 bytes. Seks bytes med partiet bereg nes for å utgjøre et 32-bytes ytre kodeord. De overflødige bytene plasseres på toppen av kolonne 52, 56, 60, o.s.v. Kodeenheten passerer så gjennom minnet en gang til, den begynner i andre ko lonne og tar en byte fra hver fjerde kolonne, og slutter ved kolonne 125. Ytterligere en seks-bytes paritet beregnes og plasseres på toppen av kolonne 53, 57, 61, o.s.v. Denne prosessen skjer fire ganger for hver rad i minnet, bortsett fra de siste åtte radene hvor det bare er nødvendig med to passeringer fordi kolonner som er ulikt nummerert har samplingsbytes bare ned til rad 23. Tilsammen blir 112 ytre kodeord dannet.
Figur 8.31b. Kolonnene i minnet leses ut for å danne indre kodeord. Først utgjør like bytes fra de to første kolonnene et kodeord, som også er en synkblokk. Deretter ulike bytes fra de to første kolonnene. Siden det er 128 kolonner, blir det 128 synkroniseringsblokker i et lydsegment.
For å samle de datablokkene som skal spilles inn leses minnet i kolonner. Ved å begynne øverst til venstre, samles bytes fra de seksten likt nummererte radene i andre kolonne, og fra de første tolv likt nummererte radene i andre kolonne, og tilføres den indre kodeenheten. Dette gir fire by tes med paritet som når den blir lagt til de 28 databytes utgjør et indre kodeord som er 32 bytes langt. Av figur 8.28 ser vi at dette kodeordet kan få plass i en synkblokk. Den andre synkblokken samles ved å passere for andre gang gjennom de to første kolonnene i minnet for å lese samplene på ulikt nummererte rader. Fire bytes med paritet legges også til disse dataene. Prosessen gjentas deretter ned de neste to kolonnene i minnet, o.s.v. inntil 128 blokker er skrevet til båndet. Ved avspilling har synkblokkene en kombinasjon av tilfeldige mindre feil og større gruppefeil. Virkningen av stokking er at gruppefeilene blir omdannet til mange enkeltsymbolfeil i forskjellige ytre kodeord. Siden det er fire bytes med paritet i hvert indre kodeord kan en eller to bytes på grunn av tilfeldig feil rettes, noe som hindrer tilfeldige feil i å ødelegge korreksjonen av større gruppefeil i den ytre koden. Sannsynligheten for at korreksjonen skal mislykkes i den indre koden er liten for en enkeltbyte-feil, fordi alle fire syndromer vil godkjenne feilens art, men sannsynlig heten for at korreksjonen skal bli mislykket når det gjelder en dobbelbyte-feil er større. Hvis mer enn to bytes er gale i en synkblokk, vil den indre koden bli «oversvømmet» og kan bare erklære «alle bytes dårlige» ved å flagge dem når de går inn i sorteringsminnet. Etter sortering vil disse flaggene vise seg som enkeltbyte feil i mange forskjellige ytre kodeord med feilflagg. For å passe på at korreksjonen ikke mislykkes i den indre koden vil den ytre koden beregne syndromer selv om det ikke er noen feilflagg i den indre koden. Dersom to eller færre bytes med feil eller færre påvises, vil den ytre koden rette dem selv om de skyldes mislykkede korreksjoner i indre kode.
152
Dette kan gjøres med stor grad av pålitelighet fordi den ytre koden har en tre-bytes påvisningsog korreksjonsevne som aldri brukes fullt ut. Dersom mer enn to bytes er gale i det ytre kodeor det, benytter korreksjonsprosessen feilflaggene fra den indre koden til å rette inntil seks bytes med feil. Grunnene til den tungvinte stokkingsprosessen blir nå klarere. På grunn av den ytre kodens fireveis stokking, kan fire hele synkblokker bli ødelagt, men bare en byte vil bli korrumpert i et gitt ytre kodeord. Siden et ytre kodeord kan rette inntil seks bytes med feil ved hjelp av sletting, betyr det at en gruppefeil på opp til 24 synkblokker kan rettes. Dette tilsvarer en sporlengde på litt over 2,5 mm, og er mer enn tilstrekkelig for å dekke den «telteffekten» som oppstår dersom en ruskpartikkel skulle løfte båndet vekk fra hodet.
8.11. Redigering i RDAT Når det gjelder redigering av et RDAT-bånd gjelder mange av de restriksjoner som også omfatter pseudovideoredigering. Redigering kan bare finne sted ved begynnelsen av en stokkingsblokk som fins i to diagonale spor. Overføringen må foreta en prøverunde som begynner før redige ringspunktet, slik at trommel- og kapstanservoene synkroniseres til båndsporene før man kom mer til redigeringspunktet. Heldigvis gjør den lille trommelen at den mekaniske tregheten er liten til videopptaker å være, og man får rask låsing. En måte å foreta redigering på vil være å bruke en redigeringsmaskin av den typen som er konstruert for PCM-omformere. Dette gjør at man kan redigere på en RDAT-maskin som bare kan spille inn eller av. En bedre løsning når det gjelder profesjonelle maskiner er å montere to sett hoder i trommelen. Standarden tillater at størrelsen på trommelen kan økes og omløpsvinkelen reduseres forutsatt at båndsporene blir spilt inn i samme dimensjoner. Ved normal innspilling er det de første hodene som treffer båndsporene som foretar innspillingen, og det andre settet hoder vil øyeblikkelig kun ne spille av opptaket for avlytting. Når det gjelder redigering blir situasjonen omvendt. De første hodene som treffer et gitt båndspor spiller av eksisterende innspilling, og denne blir sortert og ret tet, og presentert for innspillingskretsen som en samplestrøm. Innspillingskretsen stokker så de samplene som er klare for innspilling. Dersom hodene er montert i passe avstand fra hverandre i søkeren langs rotasjonsaksen, vil den tiden det tar for båndet å gå fra det første settet med hoder til det andre være likt dekodings/kodingsforsinkelsen. Hvis denne prosessen foregår over noen blokker, vil det signalet som går til innspillingshodet være akkurat det samme som det mønsteret som allerede er på båndet, slik at innspillingshodet kan skrus på i begynnelsen av en stokkings blokk. Når dette er gjort kan nytt materiale kryssfades inn i samplestrømmen fra det avspillingshodet som ligger først, og redigering vil finne sted. Dersom man overveier «insert» redigering etter ovenstående prosess, må man kryssfade tilbake til de avspillingssamplene som er gjort på forskudd før man avslutter gjeninnspilling ved en stokkings blokkgrense. Bruken av overskriving for å gi smale spor forårsaker et problem på slutten av en slik innsetting. Figur 8.32 viser at dette gir et spor som bare er halvparten så bredt som det skulle. Normalt vil feilkorreksjonssystemet ta seg av dette, men dersom en serie «inserts» blir
Halv sporbredde
Figur 8.32. Når man redigerer en innspilling med lite mellomrom mellom sporene, vil det siste sporet som skrives være 1,5 ganger normal sporbredde, siden det er hodets bredde. Dette sletter halvparten av det neste sporet i den eksisterende innspilling.
153
gjort på samme punkt i et forsøk på å lage fine overganger i en redigering, kan resultatet bli et svært svakt signal med en varighet på ett spor. En løsning vil være å bruke spormellomrommene i ferdiginnspilte bånd for redigeringsbruk, en annen løsning vil være å bygge inn en tilfeldiggjørende algoritme i redigerinsmaskinen, slik at opptakeren etter kryssfadingen tilbake til samplene fra avspillingshodet ved slutten av innsettingen fortsetter å gjeninnspille de originale samplene med en tidsforskjell mellom for hvert redigeringsforsøk.
8.12. Kvarttomme roterende Kudelski har foreslått et format for %-tommes bånd som benytter roterende hode. Det er fore slått at formatet skal ha muligheten for lavtetthetsinnspilling på åpne spoler for å støtte redigering med manuell skjøting, og høytetthetsinnspilling på kassett for beskyttelse av bånd og enkel lag ring, noe som vil støtte elektronisk redigering. Et felles overføringssystem vil godta begge bånd. Mange av de forslag og trekk ved opptakere med fast hode er inkludert, slik som «jump-editing» ved hjelp av kontrollspor, hvor man benytter et internt minne, og dobbel innspilling for å øke skjøtetoleransene. Disse emnene behandles i detalj i kapittel 9.
KAPITTEL 9
Digitale båndopptakere med stasjonære hoder
9.1. DASH-formatet En analog opptakers yteevne bestemmes av mediet og den mekaniske kvaliteten på båndføringssystemet. Signal/støyforholdet bestemmes av båndkvalitet og sporbredde, og kan forbedres ved hjelp av forskjellige enheter, som f.eks. kompanderingsenheter etc. Disse har ingen virkning på modulasjonsstøy, som frembringer nye frekvenser forårsaket av raske variasjoner i avspillingsamplityde. Wow, flutter og dropout er kjente begreper som vi ikke trenger å gjenta her. Lydbølgeformen i en digital opptaker betegnes som en rekke tall som opptakeren lagrer for se nere å føre til en DAC. Med et habilt feilkorreksjonssystem blir de tallene som spilles av nøyaktig de samme som spilles inn. Kvaliteten påvirkes ikke på noen måte av opptakeren - den digitale lyd kvalitet bestemmes nemlig utelukkende i konverteringsprosessen. Signal/støyforholdet i digitale spor kan være meget lavt - det meste av tiden er det bare nødvendig å kunne skille mellom enere og nuller, feilkorreksjonssystemet tar seg av resten. Derfor kan sporene være smalere og forbru ket av bånd reduseres. Wow og flutter fjernes ved hjelp av digitale tidsbasisrettere. Kvaliteten på en digital innspilling er nødvendigvis ikke så mye bedre enn hva man oppnår med en godt vedlike holdt analog kvalitetsopptaker - den egentlige styrke ligger i evnen til digitalt å dubbe et ubestemt antall kopier uten at det påvirker kvaliteten. DASH-formatet er spesielt konstruert med tanke på innspillingsproduksjon og originalopptak, og må derfor kunne tilby alle de egenskaper som en analog flersporopptaker har. Det vil si: uav hengig styring av sporinnspilling/avspilling, synkron innspilling, punch inn/punch ut redigering, lim- og klippredigering, avspilling med variabel hastighet, lytting under innspilling, forskjellige båndhastigheter og lydbåndbredder samt synkronisering og automatisk gjenfinning. Dette er en rekke langt strengere begrensninger enn de som gjelder for en datamaskin eller instrumenteringsopptaker, og det er nettopp disse begrensningene som stort sett har vært avgjøren de for utviklingen av formatet. Roterende eller faste hoder? Både i teori og praksis er det slik at en opptaker med roterende hode kan oppnå høyere lagringstet thet ved bruk av mindre bånd. Dette har to årsaker. For det første er avspillingssignalet proporsjo nalt med hastigheten hode/bånd, og den høye hastigheten på roterende hoder gjør at avspillingssignalet blir høyere enn støyen fra hodet med smalere spor enn hva som er tilfelle med et fast hode. For det andre er det båndhastigheten som avgjør avstanden mellom sporene i en maskin med roterende hode, og denne kan gjøres meget liten. I en flersporopptaker må lydsporene kunne utføre uavhengig innspilling, så det å multiplekse flere spor til et enkelt hode med høy hastighet blir svært vanskelig når noen spor spiller inn og noen av. En maskin med roterende hode skaper også vanskeligheter når det gjelder synkron inn spilling og lim- og klippredigering. Formatet har fått sitt navn etter hva slags hode som ble valgt, altså stasjonært.
Sporløsning DASH-formatet er ikke ett format som sådan, men snarere en familie formater som alle ligner hverandre, og har derfor flere forskjellige løsninger når det gjelder spor. Med dagens ferritthoder kan man få et passende signal/støyforhold med 24 spor på 'A-tomme bånd (H) og åtte spor på 'A-tomme bånd (Q). Årsaken til at disse tallene ikke er forholdsmessige er at begge alternativer krever samme antall analoge spor og kontrollspor, og disse opptar forholdsmessig mer plass på det smaleste båndet. Dette førte til at DASH 1 oppsto, en familie formater med enkel lagringstett het. Sporløsningene ser vi i figur 9.1. 155
Figur. 9.1.
156
Merk at de analoge sporene ligger ved kantene, hvor de har som oppgave å være vernebånd for de digitale sporene og hindre dem i å løfte seg i kantene. I tillegg er det stor avstand mellom de analoge og digitale sporene. Dette hindrer at biasstrømmen fra de analoge hodene får en altfor stor sletteeffekt på de digitale sporene som ligger ved siden av. Av samme grunn må kanskje ACsletting utelukkes på de analoge sporene. I PCM 3324 skjer f.eks. analog sletting ved hjelp av to DC-hoder etter hverandre. Det første metter båndet, det andre spoler båndet motsatt, slik at bån det nesten blir avmagnetisert. Når det gjelder tø-tomme formatet er tidskoden og kontrollsporene plassert på midten av båndet hvor de ikke får mer vridning med hensyn til digitale spor enn de ved kanten av et %-tomme bånd med båndvevning. I figur 9.2a ser vi et flersporhode av ferritt, og vi ser at det må være et mellomrom mellom de magnetiske kretsene for å få plass til vindingene. Man får større mellomrom mellom sporene ved å plassere vindingene på annenhver side av mellomrommet. Ved å benytte tynnfilmhoder frembringes de magnetiske kretsene og vindingene ved av leiring på et underlag med rette vinkler på båndplanet, og de kan gjøres nøyaktige i svært små spormellomrom. Kanskje ennå viktigere er det at krysstale mellom sporene reduseres til et mini mum på grunn av hodets oppbygning, se figur 9.2b. Den såkalte dobbeltetthetsversjonen, DASH II, benytter tynnfilmhoder for å gi 48 digitale spor på 'A-tomme bånd og 16 spor på %-tomme bånd. I figur 9.3 ser vi sporløsningene i DASH II, og vi ser at størrelsen gjør at en DASH II-maskin også kan spille DASH I-bånd. DASH II’s kanalnummerering viser også at disse to typene er for enlige. DASHEH
DASHICQ
CUE 2 DIGITAL 40 DIGITAL 47 DIGITAL 46
DIGITAL 45 DIGITAL 44
DIGITAL 28 DIGITAL 27
DIGITAL 26 DIGITAL 25 ■REFERANSE
oo
$
(TIDSKODE)
SPOR
DIGITAL 24
DIGITAL 23 DIGITAL 22
DIGITAL 6 DIGITAL 5 DIGITAL 4 DIGITAL 3 DIGITAL 2 DIGITAL 1
CUE 1
Figur 9.3.
157
Samplingsfrekvens og båndhastighet DASH kan ha tre samplingsfrekvenser og båndhastigheten er standardisert til 30 tommer pr. se kund ved høyeste hastighet. Disse er: 32 kHz, som benyttes til kringkasting av stereo ved FMstasjoner på land, 44,1 kHz som benyttes av 525/60 VCR baserte PCM-lydopptakere med rote rende hode, som f.eks. PCM FI-701, PCM 1610 og compact disc. Den tredje frekvensen var opp rinnelig 50,4 kHz, ettersom det er det man får ved å multiplisere 44,1 med en enkel brøk. Da det viste seg at vilkårlig konvertering av samplingsfrekvens var mulig, droppet man denne til fordel for 48 kHz. Selv om de første maskiner av typen PCM 3324 kunne tilby 48 kHz ble de fortsatt standardisert for 30 tommer pr. sekund ved 50,4 kHz, og da man til slutt fastslo standarden til 30 tommer pr. sekund ved 48 kHz ble de modifisert med nye kapstaner og hodeblokker. Båndhastigheten ved 44,1 kHz gis ut fra følgende formel:
30 x
44,1 tommer pr. sekund = 27,56 tommer pr. sekund og tilsvarende for 32 kHz. "48”
Faktisk kan DASH-opptakere spille inn ved nesten enhver rimelig samplingsfrekvens bare ved å velge ut en ekstern referanse med ønsket frekvens. I slike tilfeller genererer bare maskinens egen valgbryter for samplingsfrekvens data for statusbitene i innspillingen. Årsaken til at valget falt på den tilsynelatende høye frekvens på 48 kHz er at denne muliggjør avspilling med variabel hastighet. Figur 9.4 viser signalspekteret ved 44,1 kHz, resultatet av å redusere båndhastigheten med 12,5 % (to halvtoner). Lavere sidebånd av samplingsfrekvensen kan nå passere rekonstruksjonsfilteret: Spekteret på 48 kHz og resultatet ved 12,5 % hastighetsreduksjon er at filteret fortsatt av viser samplingssidebåndene. Dersom man benytter et filter med en respons som er proporsjonal med hastigheten, vil 48 kHz ikke være nødvendig. De digitale filterne i oversamplings-DACen har denne egenskapen.
Spektrum ved 44.1 kHz samplingsfrekvens
Hastighet redusert med 12,5 °/o
Spektrum ved 48 kHz samplingsfrekvens
Hastighet redusert med 12,5 °/o
Kontrollspor Kontrollsporet har en diskret blokkstruktur, hvor hver «post» refereres til som en sektor - et ut trykk som er lånt fra dataplateterminologien. En sektors lengde er lik lengden av fire datablokker på de digitale sporene. Ettersom hver datablokk inneholder 12 lydsamplinger, tilsvarer en sektor 48 samplinger, og sektorfrekvensen blir 1 kHz når man bruker DASH-F ved 48 kHz. En del av kontrollsporblokken er et statusord som spesifiserer formattype og den samplingsfre kvens som benyttes, ettersom dette må være likt for alle sporene over hele båndet. Sektoren inne holder også en unik 28-bits binær sektoradresse som benyttes til absolutt automatisk gjenfinning og synkronisering mellom flere maskiner. Kontrollsporet må kunne lese over et stort hastighetsområde og benytter derfor lav lagringstett het og en enkel FM kanalkode. Før sektordataene finner vi et synkroniseringsmønster som skal hjelpe til med variabel hastighetsdrift. Ved slutten av sektoren avdekker en CRCC om statusbitene 158
eller sektoradressen er blitt forvansket. Vanligvis teller sektoradressen oppover, og ved en sam mensetting fortsetter sektoradressene umiddelbart på. Dersom båndet blir skjøtet, blir det et hopp i sektoradresse. Oppbygningen av kontrollsporet er vist i figur 9.5. CRC CODE WORD*
15 4 BITS
0 27
16 BITS
015
O
20 BITS
I
/SYNC
CONTROL WORD
SEC TOR ADDRESS PURE BINARY CONTIGUOUSLY RECORDED
159
PCM 3202 og Studer D820X er begge Twin DASH-MIQ-maskiner: M = mellomformat, to spor pr. kanal I = enkel lagringstetthet Q = % tomme bånd 2 spor med lyd innspilt to ganger
8 båndspor
Sporfordelingssystemene for S, M og F er vist i figur 9.6, som også skildrer forholdet til kontrollsporet. a. Rask versjon (Cn*C>()«C| >0)
Datablokksekvens Blokkadresse
n 0
Kontrollspor (sektoradresse)
n»1 1
n»2 n. 3 n .4 n«5 n. 6 n«7 n.a n.9 n.lO n*n n.12 n.13 n.14 n»l5 2 3 0 1 2 o 1 3 2 0 3 1 2 3 4m»O 4m* 1 4