C++中的字符串編碼處理

今天由于在項目中用到一些與C++混合開發的東西，需要通過socket與C++那邊交換數據，沒啥特別的，字節碼而已，兩邊確定一種編碼規則就行了。我們確定的UTF-8。關于C++的這種又是寬字節又是MessageBoxW 又是MessageBoxA 的，說實話相比C#而言搞的確實非常的和稀泥搞的非常的糊，別說新手有些不是新手的都搞不明白。

字符串字面量怎么被編碼成字節的

首先源碼文件只不過是一個文本文件，你編輯器里打字輸入中文然后用編輯器打開能正常顯示中文，那么在硬盤上源碼文本肯定是以中文編碼進行存儲編輯器也是以對應中文編碼進行解析的比如gb2312 比如Unicode 這個就不細說了。什么是字符串？C#里的 string？C++里的char* ? 字符串的本質是什么？字符串不過是一個特殊的數據字節包裝帶有編碼信息，特別是C++的更原始更便于我們想清楚這個底層，其實其他的已經迎刃而解了。首先我們無論如何確定一個東西那就是交換的東西是字節碼 ,說白了也就是C++ 里的char [ ] 也就是char *，在我不管你編碼的情況下我新建VC++項目在代碼里這樣寫：

1 char str1[] = "中a";
2 printf("%s\r\n", str1);

能不能輸出東西？能不能輸出中文當然能，那這個str1 字節碼到底是什么字節碼，只要我們把這個搞明白就可以了。一切未知的恐懼源于不明白。我們先調試C++代碼取到字節碼，然后編寫下面這兩句C#代碼：

1 byte[] bts2 = new byte[] { 0xd6, 0xd0, 0x61 };
2 Console.WriteLine(Encoding.GetEncoding("gb2312").GetString(bts2));

正常輸出了C++代碼里的中文由此可見C++里默認代碼到字節的字面量轉換就是gb2312 ，就這樣而已。就這樣而已，真的就這么點東西，不要探究是什么機制驅使VC++默認把字符串轉換到了gb2312編碼，事情不要歪呀歪的想想復雜了，人的精力是有限的要放在有作用的地方。你看C++里是char [ ] 還不像C#的string經過包裝的更便于你想明白這個過程。不是說C++有std庫么不是有string 么還沒講呢，C++這門語言呢又好又不好設計特點是暴露的細節多各個細節你都可以自己控制讓會用的人知道自己在做什么，但是也有些坑，其實string 就是char[] 的變種而已。你看C++里在你琢磨不透的情況下悄然在你不知情編碼的情況下轉換成了字節碼，C#的string 封裝的不會給你這個機會有明確的Encoding庫調用指定編碼。

窄字符和寬字符，怎么個寬法

C++里字符串的字面量分為兩種一種是普通的窄字符，也就是普通的char [ ] 一個元素占1字節，另一種是寬字符 wchar_t [ ] 一個元素占2字節，_T("中a") 或者L"中a" 這種就是強行表示Unicode寬字符字面量。寬字符怎么個寬法呢，我們說他是Unicode 也就是utf-16，我們用C#進行驗證：

1 byte[] bts3 = new byte[] {  0x2d,0x4e, 0x61,0x00, };
2 Console.WriteLine(Encoding.Unicode.GetString(bts3));

好了，這就明朗了，C++這玩意兒由于歷史遺留原因，直接在代碼書寫字符串字面量搞了兩套標準窄字符和寬字符 ,你看上面的同字符里面的字節碼整的兩套標準這就很扯，整的被迫大多數C++的函數或者接口都要按照這個套路玩。就有了看到的MessageBoxA ()接受char[]窄字符參數,MessageBoxW()接受寬字符參數 ,不要有誤區哈覺得char[ ] 就不能輸出中文，能不能是由對應的地方能不能解析這個字節碼決定的而不是其他。

關于UTF-8

utf-8的現實意義更大于編程的字面量意義，為什么這么說，現在網絡數據交換都是UTF-8 編碼，C++編程字面量沒有所謂UTF-8這個說法，UTF-8是一種落地編碼，落地編碼懂嗎？就像圖像編程保存最終格式有.jpg .png,utf-8 他是變長的對于字符串處理會出現很多問題不利于程序處理，圖像編程中不管你jpg png格式也好載入到內存中最后都是易于處理的BMP內存映像。編程中都是Unicode因為2字節代表一個字符標標準準的是對齊的，利于編程處理。還有 utf-8 一個中文3字節其實比utf-16 一個中文2字節多，但是如果是英文的話就是1字節可以實現Unicode到ASCII的無縫轉換可以處理一些老舊系統的兼容問題。 C++里Unicode可以通過手段轉換為UTF-8：

1 void UnicodeToUtf8(const wchar_t* unicode,char  utf82[],int * lenout)
2 {
3     int len;
4     len = WideCharToMultiByte(CP_UTF8, 0, unicode, -1, NULL, 0, NULL, NULL);
5     char szUtf82[50] = { 0 };
6     *lenout = len;
7     WideCharToMultiByte(CP_UTF8, 0, unicode, -1, utf82, len, NULL, NULL);
8     
9 }

關于VC++項目屬性里的設置字符集

什么意思呢：

當選擇“使用Unicode字符集”時，編譯器會增加宏定義——UNICODE；而選擇“使用多字節字符集”時，編譯器則不會增加宏定義——UNICODE。https://blog.csdn.net/huashuolin001/article/details/95620424
當選用“使用Unicode字符集”時，調用函數MessageBox，實際使用的是MessageBoxW，MessageBoxW關于字符串的入參類型是LPCWSTR，使用MessageBox時，字符串前需加L::MessageBox(NULL, L"這是一個測試程序!", L"Title", MB_OK);

多字節，默認的窄字符char[]帶中文就是典型的多字節，接上面章節說明多字節+中文對于字符串處理分割會帶來很多問題，所以帶中文請盡量使用寬字符。然后另一個基于gb2312和Unicode編碼我就不細說了哈，如果你想你的程序能夠賣到國外在世界范圍內使用，那么請使用Unicode，也就是 L" " 寬字符。C++里這些概念搞的比較糊，我描述的這些也是個意會，也許某些細節部分說錯了像原來文章里那些評論里那樣尖銳的指出來不怕批評。

最后，一些測試的大雜燴代碼：

  1 // ConsoleApplication1.cpp : 定義控制臺應用程序的入口點。
  2 //
  3 
  4 #include "stdafx.h"
  5 #include <iostream>
  6 #include "h1.h"
  7 #include "FqTabData.h"
  8 #include "test1.h"
  9 
 10 #include <windows.h>
 11 #include <string>
 12 #include <iomanip>
 13 #include <type_traits>
 14 
 15 using namespace std;
 16 
 17 
 18 //引用的使用方式
 19 void test1(int &r){
 20     r = r+1;
 21 }
 22 
 23 void UnicodeToUtf8(const wchar_t* unicode,char  utf82[],int * lenout)
 24 {
 25     int len;
 26     len = WideCharToMultiByte(CP_UTF8, 0, unicode, -1, NULL, 0, NULL, NULL);
 27     char szUtf82[50] = { 0 };
 28     *lenout = len;
 29     WideCharToMultiByte(CP_UTF8, 0, unicode, -1, utf82, len, NULL, NULL);
 30     
 31 }
 32 int _tmain(int argc, _TCHAR* argv[])
 33 {
 34     
 35     setlocale(LC_ALL, "");//注意控制臺輸出要先加上這句哈要不然無法輸出中文
 36     wchar_t wstr2[] = L"中a";
 37     wprintf(L"%ls\r\n", wstr2);
 38 
 39     char str1[] = "中ab";
 40     printf("%s\r\n", str1);
 41     return 0;
 42     //關于c++里的編碼問題
 43     //    并非 不在在項目屬性里設置編碼字符集 為Unicode 就不能顯示中文
 44     //char str11[] = "中a";         printf("%s", str11);
 45     //這段代碼照樣顯示中文,中a被編譯器編成3個元素存在str11 里+\0結尾
 46     //當選擇“使用Unicode字符集”時，編譯器會增加宏定義——UNICODE；而選擇“使用多字節字符集”時，編譯器則不會增加宏定義——UNICODE。
 47     //https://blog.csdn.net/huashuolin001/article/details/95620424
 48     //當選用“使用Unicode字符集”時，調用函數MessageBox，實際使用的是MessageBoxW，MessageBoxW關于字符串的入參類型是LPCWSTR，
 49     //使用MessageBox時，字符串前需加L
 50     //::MessageBox(NULL, L"這是一個測試程序!", L"Title", MB_OK);
 51 
 52     //關于這個L ，等同于_T("")  Tchar 這些玩意兒他們都有同等意義
 53     //可以傻瓜的理解 L 本身就是搞一個寬字符型 字符串 ，每個字符占2字節
 54     //wchar_t ws[] = L"國家";
 55     //設置為Unicode 就意味著寬字符 就意味著字符串 要加L
 56     //就像前面的 好多函數接口有兩種版本 MessageBoxA MessageBoxW ，
 57     //MessageBoxW就意味著你要傳一個寬字符數組進去 也就是 wchar_t 或者L"dd"
 58 
 59     //注意多字節字符集是一個很容易讓人費解的玩意兒，
 60     //我們說  utf-8是 一種Unicode的落地編碼
 61     //編程里都是用 Unicode 不管項目設沒設置Unicode字符集 wchar_t ws[] = L"國家"; 得到的都是寬字符串
 62     //但是編程代碼里 沒有utf-8 這一說法 utf-8是變長的 也就是多字節   他是一種編碼落地
 63     //你想想你整個變長 別人接口怎么寫 ，怎么達到在讓你用變長省內存的同時 識別你的有效字符
 64     //如果數組里存utf-8 你想想 別人要以字節數讀字符 半個的時候怎么搞
 65     //這跟gdi圖像處理是同一個道理 jpg png 各種是落地格式都可以讀進來 但是到內存都是bmp
 66 
 67     //還有不論哪種printf 或者其他接口 都不支持所謂的utf-8的參數 也沒這種接口可言
 68     //https://zhuanlan.zhihu.com/p/23190549
 69     //前幾天在微博上受到了@Belleve給我的啟發，于是簡單地實現了幾個在 Windows 
 70     //下接受 UTF - 8 參數的 printf 系列函數。大致思路是判斷當前 stdout / stderr
 71     //是否為控制臺，如果是控制臺則將參數轉為 UTF - 16 后調用 wprintf 輸出，否則不轉換直接調用 printf。
 72 
 73     //L 是一個很微妙的 ，稱之為轉換為寬字符的字面量  什么叫字面量 根據你當前編程環境 以及源代碼編碼 轉換成對應的字節 
 74     //L"發" 字面量 你細品
 75     setlocale(LC_ALL, "");
 76 
 77 
 78 
 79 
 80     printf("--------------------");
 81     //wchar_t wc = L'破';
 82     std::wstring wstr = L"破a的";
 83     std::cout << wstr.size() << std::endl;
 84     //utf-8 只是流行 ，事實上utf-8 一個漢字要占3字節  而utf-16一個漢字一字節
 85     /*wchar_t wstr2[] = L"破曉S";
 86     wprintf(L"%ls", wstr2);*/
 87     printf("--------------------//");
 88 
 89     char utf82[50] = { 0 };
 90     int len = 0;
 91     UnicodeToUtf8(wstr2, utf82, &len);
 92     //char* str222 = UnicodeToUtf8(wstr2);
 93     //printf("%S", str222);
 94     //printf("aaa");
 95     return 0;
 96     //
 97     //c++ 中指針的變種  引用的使用方式
 98     printf("aaa\r\n");
 99 
100     int a = 123;
101     int& b = a;
102     a = 456;
103     printf("%d \r\n", b);
104 
105     test1(b);
106     printf("%d \r\n", b);
107 
108     int c = 345;
109     test1(c);
110     printf("%d \r\n", c);
111     return 0;
112 }

posted @ 2023-05-15 00:32 assassinx 閱讀(506) 評論(0) 收藏舉報

刷新頁面返回頂部

assassinx's blog

一個大齡碼農所作的一些研究小成果展示

C++中的字符串編碼處理

字符串字面量怎么被編碼成字節的

窄字符和寬字符，怎么個寬法

關于VC++項目屬性里的設置字符集

公告

assassinx's blog

一個大齡碼農所作的一些研究小成果展示

C++中的字符串編碼處理

字符串字面量怎么被編碼成字節的

窄字符和寬字符 ，怎么個寬法

關于VC++項目屬性里的設置字符集

公告

窄字符和寬字符，怎么個寬法