bestsource

클래스별 유니코드 문자 목록은 어디서 얻을 수 있나요?

bestsource 2023. 4. 24. 23:40
반응형

클래스별 유니코드 문자 목록은 어디서 얻을 수 있나요?

유니코드를 처음 배우는 사람이라 ASCII의 배경을 바탕으로 얼마나 배워야 하는지 잘 모르겠습니다만, Azure 테이블(C# 사양에 직접 근거) 내에서 허용되는 문자를 결정하기 위해 식별자 규칙에 대한 C# 사양을 읽고 있습니다.

다음 카테고리에 속하는 Unicode 문자 목록은 어디서 찾을 수 있습니까?

  • letter-character: 클래스 Lu, Ll, Lt, Lm, Lo 또는 Nl의 Unicode 문자
  • combining-character: 클래스 Mn 또는 Mc의 Unicode 문자
  • decimal-digit-character: 클래스 Nd의 Unicode 문자
  • connecting-character: 클래스 PC의 Unicode 문자
  • formatting-character: 클래스 Cf의 Unicode 문자

이 정보는 Unicode 공식 데이터 파일에서 자동으로 검색할 수 있습니다.UnicodeData.txt다음 URL에서 공개됩니다.

각 행에 세미콜론으로 구분된 값이 있는 파일입니다.세 번째 열에는 각 문자의 문자 클래스가 표시됩니다.

그 장점은 각 캐릭터의 이름을 알 수 있기 때문에, 그 캐릭터 자체를 보는 것만으로 알 수 있는 것이 아닙니다(예를 들면, ★가 무엇인지 알 수 있습니까).맞아요, 반이에요.그루지야어로. :-))

FileFormat.info 에는 카테고리별 Unicode 문자 목록이 있습니다.

http://www.fileformat.info/info/unicode/category/index.htm

물론 LINQ를 사용할 수 있습니다.

var charInfo = Enumerable.Range(0, 0x110000)
                         .Where(x => x < 0x00d800 || x > 0x00dfff)
                         .Select(char.ConvertFromUtf32)
                         .GroupBy(s => char.GetUnicodeCategory(s, 0))
                         .ToDictionary(g => g.Key);

foreach (var ch in charInfo[UnicodeCategory.LowercaseLetter])
{
    Console.Write(ch);
}

MSDN에서 Unicode 카테고리와 그 짧은 이름의 목록을 찾을 수 있습니다. 예를 들어, "Ll"은 Unicode Category의 줄임말입니다.소문자편지.

ANTLR 렉서에서는 Unicode 문자 세트(LU, LL, LT, LM 및 LO)를 편리한 범위 형식으로 찾을 수 있습니다.

https://www.compart.com/en/unicode/category은 카테고리를 참조하기 위한 매우 유용하고 알기 쉬운 사이트입니다.검색 가능하며 개별 유니코드 문자에 대한 많은 정보가 나열됩니다.

언급URL : https://stackoverflow.com/questions/3742495/where-can-i-get-a-list-of-unicode-chars-by-class

반응형