알파벳 정보의 힘은 무엇일까. 텍스트의 정보량과 정보 측정 단위. 전자 형태의 정보를 측정하는 방법

문제 해결

정보를 저장하고 전송할 때 기술 장치정보는 기호(문자, 숫자, 이미지 포인트의 색상 코드 등)의 일련의 기호로 간주되어야 합니다.

기호 체계의 기호 집합(알파벳)은 다양한 가능한 상태(사건)로 간주될 수 있습니다.
그런 다음 메시지에 기호가 나타날 확률이 동일하다고 가정하면 가능한 이벤트의 수는 N다음과 같이 계산할 수 있습니다. N=2 나는
메시지에 포함된 정보의 양 문자 수를 곱하여 계산할 수 있습니다. 케이정보당 한 문자의 가중치
따라서 알파벳순 접근 방식에서 정보의 양을 결정하는 데 필요한 공식이 있습니다.

알려진(주어진) 수량과 원하는(찾기) 수량의 다음 조합이 가능합니다.

유형주어진찾다공식
1 N N=2 나는
2 N
3 나,K 나=K*i
4 나,나 케이
5 나, 케이
6 엔, 케이 두 수식 모두
7 엔, 나 케이
8 나, 케이 N

이러한 문제에 2의 거듭제곱 형태로 수량을 표현하여 다양한 측정 단위로 작성된 수량의 비율에 대한 문제를 추가하면 9가지 유형의 문제가 발생합니다.
모든 유형의 작업을 고려해 봅시다. 한 정보 측정 단위에서 다른 단위로 이동할 때 가치 사슬을 구축한다는 데 동의합시다. 그러면 계산 오류가 발생할 확률이 감소합니다.

문제 1. 32비트 정보량의 메시지가 수신되었습니다. 이 볼륨은 바이트 단위로 얼마입니까?

해결 방법: 1바이트에는 8비트가 있습니다. 32:8=4
답: 4바이트입니다.

문제 2. 정보 메시지의 양은 12582912비트이며 킬로바이트와 메가바이트로 표시됩니다.

해결 방법: 1Kbyte=1024바이트=1024*8비트이므로 12582912:(1024*8)=1536KB이고
1MB = 1024KB이므로 1536: 1024 = 1.5MB
답변: 1536KB 및 1.5MB.

작업 3.컴퓨터는 512MB. 이 값에 해당하는 비트 수가 더 큽니다.

1) 10,000,000,000비트 2) 8,000,000,000비트 3) 6,000,000,000비트 4) 4,000,000,000비트 솔루션: 512*1024*1024*8비트=4294967296비트.
답: 4.

작업 4.숫자에 대해 2의 거듭제곱만을 사용하여 2MB 단위의 비트 수를 결정합니다.
해결 방법: 1바이트 = 8비트 = 2 3비트이고 1MB = 2 10KB = 2 20바이트 = 2 23비트이기 때문입니다. 따라서 2MB = 2 24비트입니다.
답: 2 24비트.

작업 5. 2 23비트 메시지에는 몇 메가바이트의 정보가 포함되어 있습니까?
해결 방법: 1바이트 = 8비트 = 2 3비트이므로
2 23비트=2 23 *2 23 *2 3비트=2 10 2 10바이트=2 10KB=1MB.
답: 1MB

작업 6.알파벳의 한 문자의 무게는 4비트입니다. 이 알파벳에는 몇 개의 문자가 있나요?
해결책:
주어진:


답: 16

작업 7.알파벳의 각 문자는 8자리의 이진 코드를 사용하여 작성됩니다. 이 알파벳에는 몇 개의 문자가 있나요?
해결책:
주어진:


답: 256

작업 8.러시아 알파벳은 때때로 32자로 추정됩니다. 이러한 축약된 러시아어 알파벳 한 글자의 정보 가중치는 얼마입니까?
해결책:
주어진:


답: 5

작업 9.알파벳은 100자로 구성됩니다. 이 알파벳의 한 문자에는 얼마나 많은 정보가 담겨 있습니까?
해결책:
주어진:


답: 5

문제 10.치체보크 부족의 알파벳은 24개의 문자와 8개의 숫자로 이루어져 있습니다. 구두점이나 산술 기호가 없습니다. 모든 문자를 인코딩하는 데 필요한 최소 이진수는 얼마입니까? 단어는 서로 분리되어야 한다는 점에 유의하세요!
해결책:
주어진:


답: 5

문제 11.컴퓨터를 사용하여 타이핑한 이 책은 150페이지로 구성되어 있습니다. 각 페이지에는 40줄이 있고 각 줄에는 60자가 있습니다. 책에는 얼마나 많은 정보가 담겨 있나요? 답변을 킬로바이트와 메가바이트 단위로 입력하세요.
해결책:
주어진:


답: 351KB 또는 0.4MB

문제 12.유니코드 인코딩을 사용하여 컴퓨터에 입력된 책 텍스트의 정보량은 128킬로바이트입니다. 책 본문의 문자 수를 결정합니다.
해결책:
주어진:


답: 65536

문제 13. 1.5KB 정보 메시지에는 3072자가 포함됩니다. 사용된 알파벳 한 문자의 정보 가중치를 결정합니다.
해결책:
주어진:


답: 4

문제 14. 64자 알파벳으로 작성된 메시지에는 20자가 포함됩니다. 얼마나 많은 정보를 담고 있나요?
해결책:
주어진:


답: 120비트

문제 15. 16자 알파벳을 사용하여 작성된 메시지의 크기가 1/16MB라면 몇 문자가 포함됩니까?
해결책:
주어진:


답: 131072

문제 16. 2048자를 포함하는 메시지 크기는 1MB의 1/512입니다. 메시지를 쓰는 알파벳의 크기는 얼마입니까?
해결책:
주어진:


답: 256

독립적인 솔루션을 위한 작업:

  1. 알파벳의 각 문자는 4자리의 이진 코드를 사용하여 작성됩니다. 이 알파벳에는 몇 개의 문자가 있나요?
  2. 메시지를 작성하는 알파벳은 32자로 구성되는데, 한 문자의 정보 가중치는 얼마인가? 측정 단위를 표시하는 것을 잊지 마십시오.
  3. 유니코드 인코딩(각 문자는 16비트로 인코딩됨)을 사용하여 컴퓨터에 입력된 텍스트의 정보량은 4KB입니다. 텍스트의 문자 수를 결정합니다.
  4. 정보 메시지의 크기는 8192비트입니다. 킬로바이트로 표현합니다.
  5. 4MB 메시지에는 몇 비트의 정보가 포함되어 있습니까? 2의 거듭제곱으로 답하세요.
  6. 256자의 알파벳으로 작성된 메시지에는 256자가 포함됩니다. 킬로바이트 단위로 얼마나 많은 정보를 담고 있나요?
  7. 서로 다른 것이 몇 개 있나요? 소리 신호, 짧은 통화와 긴 통화의 시퀀스로 구성됩니다. 각 신호의 길이는 6개 호출입니다.
  8. 기상 관측소는 공기 습도를 모니터링합니다. 한 번의 측정 결과는 20~100%의 정수이며, 가능한 가장 작은 비트 수를 사용하여 기록됩니다. 스테이션은 80번의 측정을 수행했습니다. 관찰 결과에 따라 정보량을 결정합니다.
  9. ADSL 연결을 통한 데이터 전송 속도는 512,000bps입니다. 을 통해 이 연결 1500KB 크기의 파일을 전송합니다. 파일 전송 시간을 초 단위로 결정합니다.
  10. 256초 안에 640x480 픽셀의 래스터 이미지를 전송할 수 있는 경우 모뎀의 속도를 결정합니다. 각 픽셀에는 3바이트가 있습니다. 팔레트에 1600만 가지 색상이 있다면 어떨까요?
알파벳순 접근 방식을 기반으로 정보의 양을 결정하는 주제는 통합 상태 시험 시험 자료의 작업 A1, A2, A3, A13, B5에 사용됩니다.

정보의 양을 측정하는 방법에는 여러 가지가 있습니다. 그 중 하나가 호출됩니다. 알파벳순.

알파벳순 접근 방식특정 알파벳 문자로 구성된 텍스트(기호 메시지)의 정보량을 측정할 수 있습니다.

알파벳문자, 기호, 숫자, 괄호 등의 집합입니다.
알파벳의 문자 수를 숫자라고 합니다. .

알파벳순 접근 방식을 사용하면 텍스트의 각 문자에 특정 특성이 있다고 믿어집니다. 정보 가중치. 기호의 정보 가중치는 알파벳의 힘에 따라 달라집니다.

정보를 기록(인코딩)하는 데 사용할 수 있는 알파벳의 최소 파워는 얼마입니까?



2, 3 등의 조합을 호출해 보겠습니다. 조금 바이너리 코드.

2비트로 인코딩할 수 있는 문자 수는 몇 개입니까?

기호 일련 번호

1

2

3

4

두 자리 바이너리 코드

00

01

10

11

4자 2비트.

3비트로 인코딩할 수 있는 문자 수는 몇 개입니까?

기호 일련 번호

1

2

3

4

5

6

7

8

세 자리 바이너리 코드

000

001

010

011

100

101

110

111


카디널리티가 있는 알파벳에서는 다음과 같습니다. 8자각 캐릭터의 정보 가중치 - 3비트.

용량이 있는 알파벳으로 결론을 내릴 수 있습니다. 16자각 캐릭터의 정보 가중치는 4비트.

알파벳의 힘을 문자로 표시합시다 N, 기호의 정보 가중치는 문자이다. .

알파벳의 힘 사이의 관계 N심볼의 정보 가중치 .

N

2

4

8

16

1비트

정보를 측정합니다.

정보 측정에 대한 알파벳순 접근 방식.

동일한 메시지가 한 사람에게는 많은 정보를 전달할 수 있지만 다른 사람에게는 전혀 전달되지 않을 수 있습니다. 이 접근 방식을 사용하면 정보의 양을 명확하게 결정하기가 어렵습니다.

알파벳 접근 방식을 사용하면 내용에 관계없이 일부 언어(자연어 또는 형식)로 표시되는 메시지의 정보량을 측정할 수 있습니다.

어떤 양을 정량적으로 표현하려면 우선 측정 단위가 필요합니다. 측정은 측정값을 측정 단위와 비교하여 수행됩니다. 측정 단위가 측정된 값에 "맞는" 횟수가 측정 결과입니다.

알파벳순 접근 방식에서는 특정 메시지의 각 문자에 특정 특성이 있다고 믿어집니다. 정보 가중치- 고정된 것을 운반한다 정보의 양. 같은 알파벳의 모든 문자는 알파벳의 힘에 따라 동일한 가중치를 갖습니다. 이진 알파벳 기호의 정보 가중치는 정보의 최소 단위로 간주되며 1비트.

정보 단위 "비트"의 이름은 영어 구문 이진수 - "이진수"에서 유래되었습니다.

1비트는 정보의 최소 단위로 사용됩니다. 이는 이진 알파벳 기호의 정보 가중치라고 믿어집니다.

1.6.2. 임의의 알파벳 문자의 정보 가중치

앞서 우리는 모든 자연어 또는 형식 언어의 알파벳이 이진 알파벳으로 대체될 수 있다는 것을 알아냈습니다. 이 경우, 원본 알파벳 N의 거듭제곱은 원본 알파벳의 모든 문자를 인코딩하는 데 필요한 이진 코드 i의 비트 용량과 관련되며, 관계: N = 2 i.

알파벳 기호 i의 정보 가중치와 알파벳 N의 거듭제곱은 N = 2 i의 관계에 의해 서로 관련됩니다.

작업 1. Pulti 알파벳은 8자로 구성됩니다. 이 알파벳 기호의 정보 가중치는 얼마입니까?

해결책.문제의 조건을 간략하게 설명하겠습니다.

i와 N 사이의 관계는 다음과 같이 알려져 있습니다. N = 2 i.

초기 데이터를 고려하면: 8 = 2 i. 따라서 i = 3입니다.

노트북의 전체 솔루션은 다음과 같습니다.

답: 3비트.

1.6.3. 메시지의 정보량

정보량자연어 또는 형식 언어의 기호로 표현되는 메시지(메시지에 포함된 정보의 양)는 구성 기호의 정보 가중치로 구성됩니다.

메시지 I의 정보량은 메시지 K의 문자 수와 알파벳 문자 i의 정보 가중치를 곱한 것과 같습니다: I = K * i.

문제 2. 32자의 알파벳으로 작성된 메시지에는 140자가 포함됩니다. 얼마나 많은 정보를 담고 있나요?

작업 3. 720비트 정보 메시지는 180자로 구성됩니다. 이 메시지를 쓴 알파벳의 힘은 무엇입니까?

1.6.4. 정보 단위

요즘에는 주로 컴퓨터를 사용하여 텍스트 준비를 수행합니다. 다음 문자를 포함하는 "컴퓨터 알파벳"에 대해 이야기할 수 있습니다. 러시아어 소문자 및 대문자 편지, 숫자, 구두점, 산술 기호, 괄호 등. 이 알파벳은 256자를 포함합니다. 256 = 28이므로 이 알파벳의 각 문자의 정보 가중치는 8비트입니다. 8비트에 해당하는 값을 바이트라고 합니다. 1바이트는 256 용량의 알파벳 기호의 정보 가중치이다.

1바이트 = 8비트

비트와 바이트는 "작은" 측정 단위입니다. 실제로는 정보량을 측정하는 데 더 큰 단위가 사용됩니다.

1킬로바이트 = 1KB = 1024바이트 = 210바이트

1MB = 1MB = 1024KB = 210KB = 220바이트

1기가바이트 = 1GB = 1024MB = 210MB = 220KB = 230바이트

1테라바이트 = 1TB = 1024GB = 210GB = 220MB = 230KB = 240바이트

작업 4. 4KB 정보 메시지는 4096자로 구성됩니다. 사용된 알파벳 기호의 정보가중치는 얼마인가? 이 메시지에 쓰여진 알파벳은 몇 글자입니까?

문제 5. 사이클로크로스에는 128명의 선수가 참가한다. 특수 장치는 각 참가자의 중간 결승점 통과를 등록하고 각 선수에 대해 동일한 최소 길이의 0과 1 체인에 번호를 기록합니다. 80명의 자전거 이용자가 중간 완주를 완료한 후 장치에 기록된 메시지의 정보량은 얼마입니까?

해결책. 128명의 참가자 번호는 이진 알파벳을 사용하여 인코딩됩니다. 128 = 27이므로 바이너리 코드(체인 길이)에 필요한 비트 깊이는 7입니다. 즉, 한 사이클리스트가 중간 결승점을 통과했다는 장치에 기록된 메시지는 7비트의 정보를 전달합니다. 80명의 선수가 중간 완주를 완료하면 장치는 80 7 = 560비트, 즉 70바이트의 정보를 기록합니다.

정보 정의에 대한 주관적인 접근 방식의 관점에서 볼 때 정보는 사람이 다양한 소스에서 받는 메시지의 내용이라는 점을 기억하십시오. 동일한 메시지가 한 사람에게는 많은 정보를 전달할 수 있지만 다른 사람에게는 전혀 전달되지 않을 수 있습니다. 이 접근 방식을 사용하면 정보의 양을 명확하게 결정하기가 어렵습니다.

알파벳 접근 방식을 사용하면 내용에 관계없이 일부 언어(자연어 또는 형식)로 표시되는 메시지의 정보량을 측정할 수 있습니다.

어떤 양을 정량적으로 표현하려면 우선 측정 단위가 필요합니다. 측정은 측정값을 측정 단위와 비교하여 수행됩니다. 측정 단위가 측정된 값에 "맞는" 횟수가 측정 결과입니다.

알파벳순 접근 방식을 사용하면 메시지의 각 문자가 특정 정보 가중치를 갖고 있다고 믿어집니다. 이는 고정된 양의 정보를 전달합니다. 같은 알파벳의 모든 문자는 알파벳의 힘에 따라 동일한 가중치를 갖습니다. 이진 알파벳 기호의 정보 가중치를 정보의 최소 단위로 하여 1비트라고 한다. 정보 단위의 이름인 비트(bit)는 영어의 이진수(binary digit)에서 유래되었음을 참고하시기 바랍니다.

1.4.2. 임의의 알파벳 문자의 정보 가중치

앞서 우리는 모든 자연어 또는 형식 언어의 알파벳이 이진 알파벳으로 대체될 수 있다는 것을 알아냈습니다. 이 경우, 원본 알파벳 N의 거듭제곱은 원본 알파벳의 모든 문자를 인코딩하는 데 필요한 이진 코드 i의 비트 용량과 관련되며, 관계: N = 2 i.

문제 1. Pulti 알파벳은 8자로 구성됩니다. 이 알파벳 기호의 정보 가중치는 얼마입니까?

해결책. 문제의 조건을 간략하게 설명하겠습니다.

i와 N 사이의 관계는 다음과 같이 알려져 있습니다. N = 2 i.

초기 데이터를 고려하면: 8 = 2 i. 따라서 i = 3입니다.

노트북의 전체 솔루션은 다음과 같습니다.

답: 3비트

1.4.3. 메시지의 정보량

자연어 또는 형식 언어의 기호로 표현되는 메시지의 정보량(메시지에 포함된 정보의 양)은 해당 기호의 정보 가중치로 구성됩니다.

문제 2. 32자의 알파벳으로 작성된 메시지에는 140자가 포함됩니다. 얼마나 많은 정보를 담고 있나요?

해결책.

답변": 700비트.

문제 3. 720비트 정보 메시지는 180자로 구성됩니다. 이 메시지를 쓴 알파벳의 힘은 무엇입니까?

해결책.

답변: 16자입니다.

1.4.4. 정보 단위

요즘에는 주로 컴퓨터를 사용하여 텍스트 준비를 수행합니다. 소문자 및 대문자 러시아어 및 라틴 문자, 숫자, 문장 부호, 산술 연산 기호, 괄호 등을 포함하는 "컴퓨터 알파벳"에 대해 이야기할 수 있습니다. 이 알파벳에는 256자가 포함됩니다. 256 = 2 8 이므로 이 알파벳의 각 문자의 정보 가중치는 8비트입니다. 8비트에 해당하는 값을 바이트라고 합니다. 1바이트는 256 용량의 알파벳 기호의 정보 가중치이다.

문제 4. 4KB 정보 메시지는 4096자로 구성됩니다. 이 메시지 기호의 정보 가중치는 무엇입니까? 이 메시지에 쓰여진 알파벳은 몇 글자입니까? 해결책.

답변: 256자.

가장 중요한

알파벳순 접근 방식을 사용하면 특정 메시지의 각 문자에 특정 정보 가중치가 있다고 믿어집니다. 이는 고정된 양의 정보를 전달합니다.

1비트는 정보의 최소 단위이다.

알파벳 기호의 정보 가중치 i와 알파벳의 거듭제곱 N은 N = 2 i 의 관계에 의해 서로 관련됩니다. 메시지의 정보량 I는 메시지의 문자 수 K와 알파벳 i번째 문자의 정보 가중치를 곱한 것과 같습니다. I = K i.

1바이트 = 8비트.

바이트, 킬로바이트, 메가바이트, 기가바이트, 테라바이트는 정보 측정 단위입니다. 각 후속 단위는 이전 단위보다 1024(2 10)배 더 큽니다.

질문 및 작업


컴퓨터 과학에서 알파벳은 정보 메시지를 전달하는 데 사용할 수 있는 기호 체계입니다. 이 정의의 본질을 이해하기 위해 다음과 같은 몇 가지 추가 이론적 사실이 있습니다.

  1. 모든 메시지는 알파벳으로 구성됩니다. 예를 들어 이 글은 메시지입니다. 그런 다음 러시아 알파벳의 문자로 구성됩니다.
  2. 기호를 통해 우리는 알파벳의 최소 중요 입자를 이해할 수 있습니다. 분할할 수 없는 입자를 원자라고도 합니다. 러시아어 알파벳의 문자는 "a", "b", "c" 등입니다.
  3. 이론적으로는 알파벳을 어떤 방식으로든 인코딩할 필요가 없습니다. 예를 들어, 인쇄된 책에서 알파벳 문자는 그 자체를 의미하며, 이는 인코딩이 없음을 의미합니다.

그러나 실제로는 다음과 같은 문제가 있습니다. 컴퓨터는 문자가 무엇인지 이해하지 못합니다. 따라서 정보 메시지를 전송하려면 먼저 컴퓨터가 이해할 수 있는 언어로 인코딩되어야 합니다. 더 나아가기 위해서는 추가적인 용어의 도입이 필요하다.

알파벳의 힘은 무엇입니까

알파벳의 힘이란 그 안에 있는 문자의 총 수를 의미합니다. 알파벳이 얼마나 강력한지 알아보려면, 그 안에 들어 있는 문자 수를 세어보면 됩니다. 그것을 알아 봅시다. 러시아어 알파벳의 경우 알파벳의 거듭제곱은 33자이며 "ё"를 사용하지 않으면 32자입니다.

알파벳의 모든 문자가 동일한 확률로 발생한다고 가정해 보겠습니다. 이 가정은 다음과 같이 이해될 수 있습니다. 라벨이 붙은 큐브 가방이 있다고 가정해 보겠습니다. 그 안에 있는 큐브의 수는 무한하며 각 큐브는 하나의 기호로만 서명됩니다. 그런 다음 균일한 분포를 사용하면 가방에서 얼마나 많은 큐브를 꺼내더라도 서로 다른 기호가 있는 큐브의 수는 동일하거나 가방에서 꺼내는 큐브의 수가 증가함에 따라 이러한 경향이 있습니다.

정보 메시지의 가중치 추정

거의 100년 전에 미국 엔지니어인 Ralph Hartley는 메시지에 포함된 정보의 양을 추정하는 데 사용할 수 있는 공식을 개발했습니다. 그의 공식은 동일한 확률의 사건에 적용되며 다음과 같습니다.

나는 = 로그 2M

여기서 "i"는 메시지에 포함된 분할할 수 없는 정보 원자(비트)의 수이고 "M"은 알파벳의 거듭제곱입니다. 계속 진행합시다. 수학적 변환을 사용하여 알파벳의 거듭제곱을 다음과 같이 계산할 수 있음을 확인할 수 있습니다.

일반적으로 이 공식은 동일하게 일어날 수 있는 사건 "M"의 수와 정보 "i"의 양 사이의 관계를 정의합니다.

검정력 계산

아마도 학교 컴퓨터 공학 과정을 통해 von Neumann 아키텍처를 기반으로 구축된 최신 컴퓨팅 시스템이 이진 정보 인코딩 시스템을 사용한다는 사실을 이미 알고 계실 것입니다. 이것이 프로그램과 데이터가 모두 인코딩되는 방식입니다.

컴퓨팅 시스템에서 텍스트를 표현하기 위해서는 8자리의 통일된 코드가 사용된다. 코드는 고정된 요소 집합(0과 1)을 포함하기 때문에 균일한 것으로 간주됩니다. 이러한 코드의 값은 이러한 요소의 특정 순서에 따라 지정됩니다. 8비트 코드를 사용하면 Hartley의 공식에 따르면 M 8 = 2 8 = 256비트 정보이기 때문에 256비트의 메시지를 인코딩할 수 있습니다.

이진 문자 인코딩과 관련된 이러한 상황은 역사적으로 발전해 왔습니다. 그러나 이론적으로는 다른 알파벳을 사용하여 데이터를 나타낼 수 있습니다. 예를 들어, 4자 알파벳에서 각 문자의 가중치는 1이 아니라 2비트이고, 8자 알파벳에서는 3비트 등입니다. 이는 위에 주어진 이진 로그를 사용하여 계산됩니다( 나는 = 로그 2M).

256비트의 거듭제곱을 가진 알파벳에서는 하나의 문자를 지정하기 위해 8개의 이진수가 할당되므로 추가 정보 측정 단위인 바이트를 도입하기로 결정되었습니다. 1바이트는 하나의 ASCII 문자와 8비트를 포함합니다.

정보 측정 방법

8비트 인코딩 문자 메시지는 ASCII 문자 테이블에 사용되며 다음을 수용할 수 있습니다. 기본 세트대문자와 소문자의 라틴 및 키릴 문자, 숫자, 구두점 기호 및 기타 기본 문자입니다.

더 많은 양의 데이터를 측정하기 위해 바이트 및 비트라는 단어에 특수 접두사가 사용됩니다. 이러한 접두사는 아래 표에 나와 있습니다.

물리학을 공부한 많은 사람들은 정보 단위(킬로 및 메가와 같은)를 표시하기 위해 고전적인 접두사를 사용하는 것이 합리적이라고 주장할 것입니다. 그러나 실제로 이것은 완전히 정확하지는 않습니다. 숫자 10의 또 다른 거듭제곱인 컴퓨터 과학에서는 이진 측정 시스템이 모든 곳에서 사용됩니다.

데이터 단위의 올바른 이름

부정확성과 불편함을 없애기 위해 1999년 3월 전기 공학 분야의 국제 위원회는 전자 정보의 양을 결정하는 데 사용되는 단위에 대한 새로운 접두어를 승인했습니다. 컴퓨터 기술. 이러한 접두사는 "mebi", "kibi", "gibi", "tebi", "exbi", "peti"였습니다. 이러한 단위는 아직 뿌리를 내리지 않았으므로 이 표준을 도입하고 널리 사용되기까지는 시간이 걸릴 가능성이 높습니다. 다음 표를 사용하여 클래식 장치에서 새로 승인된 장치로 전환하는 방법을 결정할 수 있습니다.

K개의 문자가 포함된 텍스트가 있다고 가정해 보겠습니다. 그런 다음 알파벳순 접근 방식을 사용하여 포함된 정보 V의 양을 계산할 수 있습니다. 이는 알파벳의 힘과 그 안에 있는 한 문자의 정보 가중치를 곱한 것과 같습니다.

Hartley의 공식을 사용하면 이진 로그를 통해 정보의 양을 계산하는 방법을 알 수 있습니다. 알파벳 문자 수를 N, 정보 메시지 레코드의 문자 수를 K라고 가정하면 메시지의 정보량을 계산하는 공식은 다음과 같습니다.

V = K ⋅ log 2 N

알파벳 접근 방식은 정보의 양이 알파벳의 힘과 메시지의 크기(즉, 메시지에 포함된 문자 수)에만 의존하지만 사람의 의미론적 내용과는 전혀 관련이 없음을 나타냅니다. .

전력 계산 예

컴퓨터 과학 수업에서는 알파벳의 힘, 메시지의 길이, 정보의 양을 찾는 문제를 자주 내기도 합니다. 다음은 그러한 작업 중 하나입니다.

"텍스트 파일은 11KB의 디스크 공간을 차지하고 11264자를 포함합니다. 이 텍스트 파일의 알파벳 용량을 결정하십시오."

해결책은 아래 그림에서 확인할 수 있습니다.

따라서 256자 용량의 알파벳은 8비트의 정보만을 전달하며, 컴퓨터 과학에서는 이를 1바이트라고 합니다. 바이트는 ASCII 테이블의 한 문자를 설명하는데, 생각해 보면 전혀 많지 않습니다.

1바이트는 많나요, 적나요?

Google 및 Facebook 데이터 센터와 같은 최신 데이터 웨어하우스에는 수십 페타바이트 이상의 정보가 포함되어 있습니다. 그러나 정확한 데이터 양은 그들 스스로도 계산하기 어려울 것입니다. 왜냐하면 서버의 모든 프로세스를 중단하고 사용자가 개인 정보를 기록하고 편집하는 데 접근하는 것을 거부해야 하기 때문입니다.

하지만 이렇게 엄청난 양의 데이터를 상상하려면 모든 것이 작은 세부 사항으로 구성되어 있다는 점을 분명히 이해해야 합니다. 알파벳의 힘(256)이 무엇인지, 정보 1바이트에 몇 비트가 포함되어 있는지(기억하는 대로 8)를 이해하는 것이 필요합니다.




맨 위