代码之家 › 专栏 › 技术社区 › Björn Larsson

将斯堪的纳维亚字母从wstring转换为string

wstring c++17 character-encoding string

Björn Larsson · 技术社区 · 7 年前

球门

在C++中将包含·的wstring转换为字符串。

环境

C++17、Visual Studio Community 2017、Windows 10 Pro 64位

描述

我正在尝试将wstring转换为string,并已实现了中建议的解决方案 https://stackoverflow.com/a/3999597/1997617

// This is the code I use:
// Convert a wide Unicode string to an UTF8 string
std::string toString(const std::wstring &wstr)
{
    if (wstr.empty()) return std::string();
    int size_needed = WideCharToMultiByte(CP_UTF8, 0, &wstr[0], (int)wstr.size(), NULL, 0, NULL, NULL);
    std::string strTo(size_needed, 0);
    WideCharToMultiByte(CP_UTF8, 0, &wstr[0], (int)wstr.size(), &strTo[0], size_needed, NULL, NULL);
    return strTo;
}

到目前为止还不错。

我的问题是,除了英文字母外,我还必须处理斯堪的纳维亚字母(ÃÃ¥ÃÃ·ÃÃÃ阿尔法ÃÃ¸)。考虑下面的输入wstring。

L"C:\\Users\\BjornLa\\Ã-Ã¥-Ã-Ã¤-Ã-Ã¶ Ã-Ã¦-Ã-Ã¸\\AEther Adept.jpg"

归还时,它已成为。。。

"C:\\Users\\BjornLa\\Ãâ¦-ÃÂ¥-Ãâ-ÃÂ¤-Ãâ-ÃÂ¶ Ãâ -ÃÂ¦-ÃË-ÃÂ¸\\AEther Adept.jpg"

。。。这给我带来了一些麻烦。

问题

因此,我想问一个经常被问到的问题,但要补充一点:

当wstring包含斯堪的纳维亚字符时,如何将其转换为字符串?

1 回复 | 直到 7 年前

Björn Larsson 7 年前

所以,我根据我得到的评论做了一些额外的阅读和实验。

解决方案非常简单。只要换一下 CP_UTF8 到 CP_ACP 哦!

然而微软建议人们实际上应该使用 CP\U UTF8 ,如果您在 the MSDN method documentation 。的注释 CP\U ACP 内容如下:

此值在不同的计算机上可能不同,即使在同一台计算机上网络它可以在同一台计算机上更改,从而存储数据变得无法恢复地损坏。此值仅用于临时使用和永久存储应使用UTF-16或UTF-8,如果可能的

此外,整个方法的注释如下:

ANSI代码页可以在不同的计算机上不同,也可以更改为单台计算机,导致数据损坏。对于为了获得最一致的结果,应用程序应该使用Unicode,例如 UTF-8或UTF-16,而不是特定的代码页,除非是遗留的标准或数据格式阻止使用Unicode。如果使用Unicode 不可能,应用程序应使用协议允许时使用适当的编码名称。HTML和XML文件允许标记,但文本文件不允许。

所以即使这样 CP\U ACP -这个解决方案对于我的测试用例来说效果很好,但它是否是一个总体上好的解决方案还有待观察。

推荐文章

notamaster · 匿名命名空间中的变量声明和其他位置的定义

2 年前

Roman · 级联可变模板参数

2 年前

sovesti · 参数较少的模板函数中的演绎

2 年前

Saleh · 如何实现析构函数

2 年前

Lingxi · 使用内联静态数据成员有任何潜在的陷阱吗?

6 年前

Guillaume Racicot · 所有constexpr变量是否都隐式内联?

6 年前

user5560811 · c++17如何编写is\u pointer\u pointer generic lambda?

6 年前

Quuxplusone · 销毁不可销毁的基类?

6 年前

Francis Cugler · 运行python脚本以配置windows、visual studio 2017和c++17的mpir

6 年前

Vincent · 是否可以实例化具有已删除构造函数和析构函数的非聚合类?

6 年前