Vad är kraften i alfabetsinformation. Textens informationsvolym och måttenheter för information. Metoder för att mäta information i elektronisk form

PROBLEMLÖSNING

Vid lagring och överföring av information med hjälp av tekniska anordningar information bör betraktas som en sekvens av symboler - tecken (bokstäver, siffror, färgkoder för bildpunkter, etc.).

Teckenuppsättningen i ett teckensystem (alfabet) kan ses som olika möjliga tillstånd (händelser).
Sedan, om vi antar att förekomsten av tecken i meddelandet är lika sannolikt, antalet möjliga händelser N kan beräknas som N=2 i
Mängden information i meddelandet jag kan beräknas genom att multiplicera antalet tecken K per informationsvikt på ett tecken i
Så vi har formlerna som behövs för att bestämma mängden information i den alfabetiska metoden:

Följande kombinationer av kända (givna) och obligatoriska (Find) värden är möjliga:

TypGivenHittaFormel
1 i N N=2 i
2 N i
3 i,K jag I=K*i
4 jag, jag K
5 Jag, K i
6 N, K jag Båda formlerna
7 N,I K
8 Jag, K N

Om vi ​​till dessa uppgifter lägger till uppgifter om förhållandet mellan kvantiteter skrivna i olika måttenheter, med hjälp av representationen av kvantiteter i form av två potenser, får vi 9 typer av problem.
Tänk på uppgifter för alla typer. Låt oss komma överens om att i övergången från en måttenhet för information till en annan kommer vi att bygga en värdekedja. Då minskar sannolikheten för ett beräkningsfel.

Uppgift 1. Ett meddelande har tagits emot med en datastorlek på 32 bitar. vad är denna storlek i byte?

Lösning: Det finns 8 bitar i en byte. 32:8=4
Svar: 4 byte.

Uppgift 2. Volymen på informationsmeddelandet är 12582912 bitar uttryckt i kilobyte och megabyte.

Lösning: Eftersom 1KB=1024 byte=1024*8 bitar, sedan 12582912:(1024*8)=1536KB och
eftersom 1 MB = 1024 KB, sedan 1536:1024 = 1,5 MB
Svar: 1536KB och 1,5MB.

Uppgift 3. Datorn har Bagge 512 MB. Antalet bitar som motsvarar detta värde är större:

1) 10 000 000 000 bitar 2) 8 000 000 000 bitar 3) 6 000 000 000 bitar 4) 4 000 000 000 bitar Lösning: 512*1024*1024*94 bitar=1024*94 bitar.
Svar: 4.

Uppgift 4. Bestäm antalet bitar i två megabyte, använd endast 2 potenser för siffror.
Lösning: Eftersom 1byte=8bitar=2 3 bitar och 1MB=2 10Kbyte=2 20 byte=2 23 bitar. Därför är 2MB = 2 24 bitar.
Svar: 2 24 bitar.

Uppgift 5. Hur många megabyte information innehåller ett 2 23-bitars meddelande?
Lösning: Eftersom 1 byte = 8 bitar = 2 3 bitar, alltså
2 23 bitar=2 23 *2 23 *2 3 bitar=2 10 2 10 byte=2 10 KB=1MB.
Svar: 1MB

Uppgift 6. Ett tecken i alfabetet "väger" 4 bitar. Hur många tecken finns i det här alfabetet?
Beslut:
Given:


Svar: 16

Uppgift 7. Varje tecken i alfabetet skrivs med 8 siffror i en binär kod. Hur många tecken finns i det här alfabetet?
Beslut:
Given:


Svar: 256

Uppgift 8. Det ryska alfabetet uppskattas ibland till 32 bokstäver. Vad är informationsvikten för en bokstav i ett sådant förkortat ryskt alfabet?
Beslut:
Given:


Svar: 5

Uppgift 9. Alfabetet består av 100 tecken. Hur mycket information har en karaktär i detta alfabet?
Beslut:
Given:


Svar: 5

Uppgift 10. Chichevok-stammen har 24 bokstäver och 8 siffror i alfabetet. Det finns inga skiljetecken eller aritmetiska tecken. Vad är det minsta antalet bitar de behöver för att koda alla tecken? Observera att ord måste skiljas från varandra!
Beslut:
Given:


Svar: 5

Uppgift 11. Boken, maskinskriven med hjälp av en dator, innehåller 150 sidor. Varje sida har 40 rader, varje rad har 60 tecken. Hur mycket information finns i boken? Ge ditt svar i kilobyte och megabyte.
Beslut:
Given:


Svar: 351KB eller 0,4MB

Uppgift 12. Informationsvolymen för texten i en bok som skrivits på en dator med Unicode-kodning är 128 kilobyte. Bestäm antalet tecken i bokens text.
Beslut:
Given:


Svar: 65536

Uppgift 13. Ett informationsmeddelande på 1,5 Kb innehåller 3072 tecken. Bestäm informationsvikten för ett tecken i det använda alfabetet
Beslut:
Given:


Svar: 4

Uppgift 14. Ett meddelande skrivet med bokstäver från alfabetet med 64 tecken innehåller 20 tecken. Hur mycket information innehåller den?
Beslut:
Given:


Svar: 120bit

Uppgift 15. Hur många tecken innehåller ett meddelande skrivet med alfabetet med 16 tecken om dess volym var 1/16 av en megabyte?
Beslut:
Given:


Svar: 131072

Uppgift 16. Volymen på meddelandet som innehöll 2048 tecken var 1/512 megabyte. Hur stor är alfabetet som meddelandet är skrivet med?
Beslut:
Given:


Svar: 256

Uppgifter för oberoende lösning:

  1. Varje tecken i alfabetet skrivs med fyra binära siffror. Hur många tecken finns i det här alfabetet?
  2. Alfabetet för att skriva meddelanden består av 32 tecken, vad är informationsvikten för ett tecken? Glöm inte att ange måttenheten.
  3. Informationsvolymen för text som skrivs på en dator med Unicode-kodning (varje tecken är kodat i 16 bitar) är 4 KB. Bestäm antalet tecken i texten.
  4. Storleken på informationsmeddelandet är 8192 bitar. Uttryck det i kilobyte.
  5. Hur många bitar av information innehåller ett meddelande på 4 MB? Ge ditt svar i potenserna 2.
  6. Ett meddelande skrivet med bokstäver från ett alfabet med 256 tecken innehåller 256 tecken. Hur mycket information bär den i kilobyte?
  7. Hur många olika ljudsignaler, bestående av sekvenser av korta och långa samtal. Längden på varje signal är 6 ringar.
  8. Den meteorologiska stationen övervakar luftfuktigheten. Resultatet av en mätning är ett heltal från 20 till 100 %, vilket skrivs med minsta möjliga antal bitar. Stationen gjorde 80 mätningar. Bestäm informationsvolymen för observationsresultatet.
  9. Dataöverföringshastigheten över en ADSL-anslutning är 512 000 bps. Genom denna förening skicka en 1500 KB fil. Ange filöverföringstiden i sekunder.
  10. Bestäm hastigheten på modemet om det kan sända en bitmapp på 640x480 pixlar på 256 sekunder. Det finns 3 byte per pixel. Och om det finns 16 miljoner färger i paletten?
Ämnet att bestämma mängden information baserat på den alfabetiska metoden används i uppgifter A1, A2, A3, A13, B5 i USE-testet och mätmaterial.

Det finns flera sätt att mäta mängden information. En av dem heter alfabetisk.

Alfabetiskt förhållningssätt låter dig mäta mängden information i en text (symboliskt meddelande) som består av tecken i något alfabet.

Alfabetär en uppsättning bokstäver, tecken, siffror, parenteser, etc.
Antalet tecken i ett alfabet kallas dess kraft.

I den alfabetiska metoden anses det att varje tecken i texten har en viss informationsvikt. Informationsvikten för en symbol beror på alfabetets kraft.

Vad är den lägsta kardinalitet för ett alfabet som kan användas för att skriva (koda) information?



Låt oss kalla en kombination av 2, 3 osv. bit binär kod.

Hur många tecken kan kodas med två bitar?

Symbolsekvensnummer

1

2

3

4

Tvåsiffrig binär kod

00

01

10

11

4 tecken 2 bitar.

Hur många tecken kan kodas med tre bitar?

Symbolsekvensnummer

1

2

3

4

5

6

7

8

Tresiffrig binär kod

000

001

010

011

100

101

110

111


Av detta följer att i kardinalitetens alfabet 8 tecken informationsvikt för varje tecken - 3 bitar.

Man kan dra slutsatsen att i alfabetet med makt 16 tecken informationsvikten för varje tecken kommer att vara 4 bitar.

Ange alfabetets kardinalitet med bokstaven N, och symbolens informationsvikt är bokstaven b.

Förhållandet mellan kraften i alfabetet N och symbolinformationsvikt b.

N

2

4

8

16

b

1 bit

Mätning av information.

Alfabetisk metod för att mäta information.

Samma meddelande kan innehålla mycket information för en person och inte alls för en annan person. Med detta tillvägagångssätt är det svårt att entydigt fastställa mängden information.

Den alfabetiska metoden gör det möjligt att mäta informationsvolymen för ett meddelande som presenteras på ett visst språk (naturligt eller formellt), oavsett dess innehåll.

För det kvantitativa uttrycket av vilket värde som helst är först och främst en måttenhet nödvändig. Mätningen utförs genom att jämföra det uppmätta värdet med måttenheten. Hur många gånger måttenheten "passar" i det uppmätta värdet, så är resultatet av mätningen.

I den alfabetiska metoden anses det att varje tecken i ett visst meddelande har en viss informationsvikt- bär en fast mängd information. Alla tecken i samma alfabet har samma vikt, beroende på alfabetets kardinalitet. Informationsvikten för ett binärt alfabet tas som den minsta informationsenheten och kallas 1 bit

Observera att namnet på informationsenheten "bit" (bit) kommer från den engelska frasen binär siffra - "binär siffra".

1 bit tas som minsta måttenhet för information. Man tror att detta är informationsvikten för symbolen för det binära alfabetet.

1.6.2. Informationsvikt av ett godtyckligt alfabet

Tidigare fick vi reda på att alfabetet för vilket naturligt eller formellt språk som helst kan ersättas med ett binärt alfabet. I detta fall är styrkan för det ursprungliga alfabetet N relaterad till bitdjupet för den binära koden i, som krävs för att koda alla tecken i det ursprungliga alfabetet, genom relationen: N = 2 i.

Informationsvikten för tecknet i alfabetet i och kraften för alfabetet N hänger samman med relationen: N = 2 i.

Uppgift 1. Pulti-stammens alfabet innehåller 8 tecken. Vad är informationsvikten för ett tecken i detta alfabet?

Beslut. Låt oss göra en kort beskrivning av problemets tillstånd.

En relation är känd som förbinder värdena av i och N: N = 2 i.

Med hänsyn till initialdata: 8 = 2 i. Alltså: i = 3.

En fullständig förteckning över lösningen i en anteckningsbok kan se ut så här:

Svar: 3 bitar.

1.6.3. Informationsvolymen för meddelandet

Informationsvolym ett meddelande (mängden information i ett meddelande) som representeras av symbolerna för ett naturligt eller formellt språk består av informationsvikterna för dess ingående symboler.

Informationsvolymen för meddelandet I är lika med produkten av antalet tecken i meddelandet K och informationsvikten för alfabetet i: I = K * i.

Uppgift 2. Ett meddelande skrivet med alfabetet med 32 tecken innehåller 140 tecken. Hur mycket information innehåller den?

Uppgift 3. Ett informationsmeddelande på 720 bitar består av 180 tecken. Vilken kraft har alfabetet som detta meddelande är skrivet med?

1.6.4. Informationsenheter

Numera sker utarbetandet av texter huvudsakligen med hjälp av datorer. Vi kan prata om ett "datoralfabet" som innehåller följande tecken: gemener och versaler ryska och brev, siffror, skiljetecken, tecken på aritmetiska operationer, parenteser, etc. Detta alfabet innehåller 256 tecken. Eftersom 256 = 28 är informationsvikten för varje tecken i detta alfabet 8 bitar. Ett värde lika med åtta bitar kallas en byte. 1 byte - informationsvikt av ett alfabet med en kapacitet på 256.

1 byte = 8 bitar

Bit och byte är "små" måttenheter. I praktiken används större enheter för att mäta informationsvolymer:

1 kilobyte = 1 KB = 1024 byte = 210 byte

1 megabyte = 1 MB = 1024 KB = 210 KB = 220 byte

1 gigabyte = 1 GB = 1024 MB = 210 MB = 220 KB = 230 byte

1 terabyte = 1 TB = 1024 GB = 210 GB = 220 MB = 230 KB = 240 byte

Uppgift 4. Ett informationsmeddelande med en volym på 4 KB består av 4096 tecken. Vad är informationsvikten för ett tecken i alfabetet som används? Hur många tecken finns i alfabetet där detta meddelande är skrivet?

Uppgift 5. 128 idrottare deltar i cyclocross. En speciell enhet registrerar passagen av var och en av deltagarna i mellanmålet och skriver ner dess nummer som en kedja av nollor och ettor med minsta längd, samma för varje idrottare. Vilken informationsvolym blir meddelandet som registreras av enheten efter att 80 cyklister passerat mellanmållinjen?

Beslut. Numren på de 128 deltagarna är kodade med det binära alfabetet. Det erforderliga bitdjupet för den binära koden (kedjelängden) är 7, eftersom 128 = 27. Med andra ord, meddelandet som registrerats av enheten att en cyklist passerade mellanmålet innehåller 7 bitar med information. När 80 idrottare passerar mellanmålet kommer enheten att spela in 80 7 = 560 bitar, eller 70 byte information.

Kom ihåg att, ur ett subjektivt förhållningssätt till definitionen av information, är information innehållet i meddelanden som en person får från olika källor. Samma meddelande kan innehålla mycket information för en person och inte alls för en annan person. Med detta tillvägagångssätt är det svårt att entydigt fastställa mängden information.

Den alfabetiska metoden gör det möjligt att mäta informationsvolymen för ett meddelande som presenteras på ett visst språk (naturligt eller formellt), oavsett dess innehåll.

För det kvantitativa uttrycket av vilket värde som helst är först och främst en måttenhet nödvändig. Mätningen utförs genom att jämföra det uppmätta värdet med måttenheten. Hur många gånger måttenheten "passar" i det uppmätta värdet, så är resultatet av mätningen.

I det alfabetiska tillvägagångssättet anses det att varje symbol för ett visst meddelande har en viss informationsvikt - den bär en fast mängd information. Alla tecken i samma alfabet har samma vikt, beroende på alfabetets kardinalitet. Informationsvikten för en symbol i det binära alfabetet tas som minsta måttenhet för information och kallas 1 bit. Observera att namnet på informationsenheten "bit" (bit) kommer från den engelska frasen "binary digit" - "binary digit".

1.4.2. Informationsvikt av ett godtyckligt alfabet

Tidigare fick vi reda på att alfabetet för vilket naturligt eller formellt språk som helst kan ersättas med ett binärt alfabet. I detta fall är styrkan för det ursprungliga alfabetet N relaterad till bitdjupet för den binära koden i, som krävs för att koda alla tecken i det ursprungliga alfabetet, genom relationen: N = 2 i.

Uppgift 1. Pulti-stammens alfabet innehåller 8 tecken. Vad är informationsvikten för ett tecken i detta alfabet?

Beslut. Låt oss göra en kort beskrivning av problemets tillstånd.

En relation är känd som förbinder värdena av i och N: N = 2 i .

Givet initialdata: 8 = 2 i . Alltså: i = 3.

En fullständig förteckning över lösningen i en anteckningsbok kan se ut så här:

Svar: 3 bitar

1.4.3. Informationsvolymen för meddelandet

Informationsvolymen för ett meddelande (mängden information i ett meddelande) som representeras av symbolerna för ett naturligt eller formellt språk är summan av informationsvikterna för dess ingående symboler.

Uppgift 2. Ett meddelande skrivet med alfabetet med 32 tecken innehåller 140 tecken. Hur mycket information innehåller den?

Beslut.

Svar": 700 bitar.

Uppgift 3. Ett informationsmeddelande på 720 bitar består av 180 tecken. Vilken kraft har alfabetet som detta meddelande är skrivet med?

Beslut.

Svar: 16 tecken.

1.4.4. Informationsenheter

Numera sker utarbetandet av texter huvudsakligen med hjälp av datorer. Vi kan tala om ett "datoralfabet" som innehåller följande tecken: gemener och versaler ryska och latinska bokstäver, siffror, skiljetecken, aritmetiska symboler, parenteser, etc. Detta alfabet innehåller 256 tecken. Eftersom 256 = 2 8 är informationsvikten för varje tecken i detta alfabet 8 bitar. Ett värde lika med åtta bitar kallas en byte. 1 byte - informationsvikt av ett alfabet med en kapacitet på 256.

Uppgift 4. Ett informationsmeddelande med en volym på 4 KB består av 4096 tecken. Vilken informationstyngd har karaktären av detta meddelande? Hur många tecken finns i alfabetet där detta meddelande är skrivet? Beslut.

Svar: 256 tecken.

Det viktigaste

Med den alfabetiska metoden anses det att varje symbol i ett meddelande har en viss informationsvikt - den bär en fast mängd information.

1 bit är den minsta informationsenheten.

Informationsvikten för alfabetets i-tecken och kraften N för alfabetet hänger samman med relationen: N = 2 i . Informationsvolymen I för meddelandet är lika med produkten av antalet K tecken i meddelandet och informationsvikten i för alfabetet: I = K i.

1 byte = 8 bitar.

Byte, kilobyte, megabyte, gigabyte, terabyte - informationsenheter. Varje nästa enhet är 1024 (2 10) gånger större än den föregående.

Frågor och uppgifter


Alfabetet i datavetenskap är ett system av tecken med vilket du kan skicka ett informationsmeddelande. För att förstå kärnan i denna definition, här är några ytterligare teoretiska fakta:

  1. Alla meddelanden består av alfabetet. Till exempel är den här artikeln ett meddelande. Sedan består den av symboler för det ryska alfabetet.
  2. Under symbolen kan vi förstå den minsta signifikanta partikeln i alfabetet. Odelbara partiklar kallas också atomer. Tecknen i det ryska alfabetet är "a", sedan "b", "c" och så vidare.
  3. I teorin behöver alfabetet inte vara kodat på något sätt. Till exempel i en tryckt bok betyder alfabetets tecken sig själva, vilket betyder att de inte har någon kodning.

Men i praktiken har vi följande: datorn förstår inte vad bokstäver är. Därför, för att sända ett informationsmeddelande, måste det först kodas på ett språk som är förståeligt för datorn. För att komma vidare måste ytterligare villkor införas.

Vad är kraften i alfabetet

Med ett alfabets kardinalitet menar vi det totala antalet tecken i det. För att ta reda på vad som är kraften i alfabetet behöver du bara räkna antalet tecken i det. Låt oss ta reda på det. För det ryska alfabetet är kraften i alfabetet 33 eller 32 tecken om "ё" inte används.

Låt oss anta att alla tecken i vårt alfabet förekommer med lika stor sannolikhet. Detta antagande kan förstås på följande sätt: låt oss säga att vi har en påse med signerade tärningar. Antalet kuber i den är oändligt, och var och en är signerad med endast en symbol. Sedan, med en enhetlig fördelning, oavsett hur många kuber vi tar ur påsen, kommer antalet kuber med olika symboler att vara detsamma, eller kommer att tendera till detta med en ökning av antalet kuber som vi tar ut ur väska.

Uppskattning av vikten av informationsmeddelanden

För nästan hundra år sedan utvecklade den amerikanske ingenjören Ralph Hartley en formel som kan användas för att uppskatta mängden information i ett meddelande. Hans formel fungerar för likvärdiga händelser och ser ut så här:

i = log 2 M

Där "i" är antalet odelbara informationsatomer (bitar) i meddelandet, är "M" kraften i alfabetet. Vi följer vidare. Med hjälp av matematiska transformationer kan vi fastställa att kraften i alfabetet kan beräknas enligt följande:

Denna formel definierar generellt förhållandet mellan antalet lika sannolika händelser "M" och mängden information "i".

Vi beräknar effekten

Troligtvis vet du redan från en skolkurs i datavetenskap att moderna datorsystem byggda på von Neumann-arkitekturen använder ett binärt informationskodningssystem. Så här kodas program och data.

För att representera text i ett datorsystem används en enhetlig kod på åtta bitar. En kod anses vara enhetlig eftersom den innehåller en fast uppsättning element - 0 och 1. Värdena i en sådan kod ges av en viss ordning av dessa element. Med hjälp av en åttabitars kod kan vi koda meddelanden som väger 256 bitar, eftersom enligt Hartley-formeln: M 8 \u003d 2 8 \u003d 256 bitar av information.

Denna situation med teckenkodning i binär kod har utvecklats historiskt. Men teoretiskt sett skulle vi kunna använda andra alfabet för att representera data. Så, till exempel, i ett alfabet med fyra tecken skulle varje tecken ha en vikt av inte en, utan två bitar, i ett alfabet med åtta tecken - 3 bitar, och så vidare. Detta beräknas med den binära logaritmen som gavs ovan ( i = log 2 M).

Eftersom i ett alfabet med en kapacitet på 256 bitar tilldelas åtta binära siffror för att beteckna ett tecken, beslutades det att införa ytterligare ett informationsmått - en byte. En byte innehåller ett tecken i ASCII-kodtabellen och innehåller åtta bitar.

Hur information mäts

8 bitars kodning textmeddelanden, som används i ASCII-kodtabellen, låter dig passa grunduppsättning Latinska och kyrilliska tecken med stora och små bokstäver, siffror, skiljetecken och andra grundläggande tecken.

För att mäta större datamängder används speciella prefix för orden bytes och bitar. Sådana prefix visas i tabellen nedan:

Många som har studerat fysik kommer att invända att det skulle vara rationellt att använda klassiska prefix för att beteckna informationsenheter (som kilo- och mega-), men i själva verket är detta inte helt korrekt, eftersom sådana prefix till kvantiteter betecknar multiplikation med en eller ytterligare en tiopotens när det binära mätsystemet används överallt inom datavetenskap.

Rätt namn på dataenheter

För att eliminera felaktigheter och olägenheter godkände Internationella kommissionen inom elektroteknik i mars 1999 nya prefix till enheter som används för att fastställa mängden information i elektronisk datavetenskap. Sådana prefix var "mebi", "kibi", "gibi", "tebi", "exbi", "peti". Även om dessa enheter ännu inte har slagit rot, så kommer det troligtvis att ta tid för införandet av denna standard och början av utbredd användning. Hur man gör övergången från klassiska enheter till nyligen godkända, kan du bestämma från följande tabell:

Anta att vi har en text som innehåller K tecken. Sedan kan vi, med hjälp av den alfabetiska metoden, beräkna mängden information V som den innehåller. Det kommer att vara lika med produkten av kraften i alfabetet och informationsvikten för ett tecken i det.

Enligt Hartley-formeln vet vi hur man beräknar mängden information i termer av den binära logaritmen. Om vi ​​antar att antalet tecken i alfabetet är N och antalet tecken i informationsmeddelandeposten är K, får vi följande formel för att beräkna informationsinnehållet i meddelandet:

V = K ⋅ log 2 N

Det alfabetiska tillvägagångssättet antyder att informationsvolymen endast kommer att bero på kraften i alfabetet och storleken på meddelanden (det vill säga antalet tecken i det), men kommer inte att vara relaterat till det semantiska innehållet för en person.

Effektberäkningsexempel

På lektioner i datavetenskap ger de ofta uppgifter för att hitta kraften i alfabetet, längden på meddelandet eller informationsvolymen. Här är en av dessa uppgifter:

"Textfilen upptar 11 KB diskutrymme och innehåller 11264 tecken. Bestäm kardinaliteten för alfabetet för denna textfil."

Vad som blir lösningen kan du se på bilden nedan.

Således bär ett alfabet med en kapacitet på 256 tecken endast 8 bitar av information, vilket inom datavetenskap kallas en byte. En byte beskriver 1 tecken i ASCII-tabellen, vilket, om du tänker efter, inte är mycket alls.

Är en byte mycket eller lite?

Moderna datalager som Googles och Facebooks datacenter innehåller inte mindre än tiotals petabyte med information. Den exakta mängden data kommer dock att vara svår att beräkna ens av sig själva, eftersom det då kommer att bli nödvändigt att stoppa alla processer på servrarna och neka användare tillgång till att registrera och redigera sin personliga information.

Men för att föreställa sig sådana otänkbara mängder data är det nödvändigt att tydligt förstå att allt består av små detaljer. Det är nödvändigt att förstå vad kraften i alfabetet är (256) och hur många bitar som innehåller 1 byte med information (som du kommer ihåg, 8).




Topp