代码之家 › 专栏 › 技术社区 › Waza_Be

比较单词和特殊字符(_,_,…)时忽略音调符号

diacritics replace string android java

Waza_Be · 技术社区 · 14 年前

我有一份名单,上面列出了一些比利时城市的发音符号:(li_¨ge,qui_)vrain,frani_¨re,等等),我想将这些特殊字符转换为大写字母中包含相同名称但没有发音符号的列表(liege,quievrain,franiere)

我第一次尝试的是使用大写字母:

LIEGE.contentEqual(LiÃ¨ge.toUpperCase()) 但这不合适,因为 LiÃ¨ge 是 LIÃGE 而不是 LIEGE .

我有一些复杂的想法,比如替换每个角色,但这听起来很愚蠢,而且过程很长。

有什么关于如何用聪明的方法做到这一点的想法吗?

8 回复 | 直到 6 年前

Pentium10 14 年前

用Java检查这个方法

private static final String PLAIN_ASCII = "AaEeIiOoUu" // grave
            + "AaEeIiOoUuYy" // acute
            + "AaEeIiOoUuYy" // circumflex
            + "AaOoNn" // tilde
            + "AaEeIiOoUuYy" // umlaut
            + "Aa" // ring
            + "Cc" // cedilla
            + "OoUu" // double acute
    ;

    private static final String UNICODE = "\u00C0\u00E0\u00C8\u00E8\u00CC\u00EC\u00D2\u00F2\u00D9\u00F9"
            + "\u00C1\u00E1\u00C9\u00E9\u00CD\u00ED\u00D3\u00F3\u00DA\u00FA\u00DD\u00FD"
            + "\u00C2\u00E2\u00CA\u00EA\u00CE\u00EE\u00D4\u00F4\u00DB\u00FB\u0176\u0177"
            + "\u00C3\u00E3\u00D5\u00F5\u00D1\u00F1"
            + "\u00C4\u00E4\u00CB\u00EB\u00CF\u00EF\u00D6\u00F6\u00DC\u00FC\u0178\u00FF"
            + "\u00C5\u00E5" + "\u00C7\u00E7" + "\u0150\u0151\u0170\u0171";

    /**
     * remove accented from a string and replace with ascii equivalent
     */
    public static String removeAccents(String s) {
        if (s == null)
            return null;
        StringBuilder sb = new StringBuilder(s.length());
        int n = s.length();
        int pos = -1;
        char c;
        boolean found = false;
        for (int i = 0; i < n; i++) {
            pos = -1;
            c = s.charAt(i);
            pos = (c <= 126) ? -1 : UNICODE.indexOf(c);
            if (pos > -1) {
                found = true;
                sb.append(PLAIN_ASCII.charAt(pos));
            } else {
                sb.append(c);
            }
        }
        if (!found) {
            return s;
        } else {
            return sb.toString();
        }
    }

Eric Darchis 10 年前

对于Java 6,可以使用java. Tr.CurrimeStase:

public String unaccent(String s) {
    String normalized = Normalizer.normalize(s, Normalizer.Form.NFD);
    return normalized.replaceAll("[^\\p{ASCII}]", "");
}

注意,在Java 5中还有一个 sun.text.Normalizer 但由于它是Sun专有的API的一部分,并且在Java 6中被删除,所以它的使用受到极大的阻碍。

janb 14 年前

这是迄今为止我发现的最简单的解决方案,它在我们的应用程序中工作得很好。

Normalizer.normalize(string, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", "");

但我不知道Normalizer是否在Android平台上可用。

tutejszy 13 年前

如果你仍然需要Android API 8或更低(Android 2.2,Java 1.5),在那里你没有正规化类,这里是我的代码,我认为比PtUMU10答案更好的修改:

public class StringAccentRemover {

    @SuppressWarnings("serial")
    private static final HashMap<Character, Character> accents  = new HashMap<Character, Character>(){
        {
            put('Ä', 'A');
            put('Ä', 'E');
            put('Ä', 'C');
            put('Å', 'L');
            put('Å', 'N');
            put('Ã', 'O');
            put('Å', 'S');
            put('Å»', 'Z');
            put('Å¹', 'Z');

            put('Ä', 'a');
            put('Ä', 'e');
            put('Ä', 'c');
            put('Å', 'l');
            put('Å', 'n');
            put('Ã³', 'o');
            put('Å', 's');
            put('Å¼', 'z');
            put('Åº', 'z');
        }
    };
    /**
     * remove accented from a string and replace with ascii equivalent
     */
    public static String removeAccents(String s) {
        char[] result = s.toCharArray();
        for(int i=0; i<result.length; i++) {
            Character replacement = accents.get(result[i]);
            if (replacement!=null) result[i] = replacement;
        }
        return new String(result);
    }

}

Jean-Philippe Caruana 14 年前

collator类是一种很好的方法(参见相应的 javadoc )下面是一个单元测试,演示如何使用它:

import static org.junit.Assert.assertEquals;

import java.text.Collator;
import java.util.Locale;

import org.junit.Test;

public class CollatorTest {
    @Test public void liege() throws Exception {
        Collator compareOperator = Collator.getInstance(Locale.FRENCH);
        compareOperator.setStrength(Collator.PRIMARY);

        assertEquals(0, compareOperator.compare("Liege", "Liege")); // no accent
        assertEquals(0, compareOperator.compare("LiÃ¨ge", "Liege")); // with accent
        assertEquals(0, compareOperator.compare("LIEGE", "Liege")); // case insensitive
        assertEquals(0, compareOperator.compare("LIEGE", "LiÃ¨ge")); // case insensitive with accent

        assertEquals(1, compareOperator.compare("Liege", "Bruxelles"));
        assertEquals(-1, compareOperator.compare("Bruxelles", "Liege"));
    }
}

编辑 : 很抱歉,我的答案不符合您的需要;也许是因为我已经把它作为单元测试提交了?你可以吗?我个人觉得它更好,因为它短的它使用了sdk(不需要替换字符串)

Collator compareOperator = Collator.getInstance(Locale.FRENCH);
compareOperator.setStrength(Collator.PRIMARY);
if (compareOperator.compare("LiÃ¨ge", "Liege") == 0) {
    // if we are here, then it's the "same" String
}

希望这有帮助

Community noseratio 7 年前

自课以来 Normalizer 在Froyo或以前的Android版本中不受支持,我结合了 this 和 this (我都投了赞成票),并对其进行了优化,获得了一些辅助方法。方法 未鉴定 只需将音调符号字符转换为普通字符,而方法 使贫瘠化 为输入字符串生成一个段塞。希望它对某人有用。以下是源代码:

import java.util.Arrays;
import java.util.Locale;  
import java.util.regex.Pattern;  

public class SlugFroyo {
    private static final Pattern STRANGE = Pattern.compile("[^a-zA-Z0-9-]");
    private static final Pattern WHITESPACE = Pattern.compile("[\\s]");

    private static final String DIACRITIC_CHARS = "\u00C0\u00E0\u00C8\u00E8\u00CC\u00EC\u00D2\u00F2\u00D9\u00F9"
            + "\u00C1\u00E1\u00C9\u00E9\u00CD\u00ED\u00D3\u00F3\u00DA\u00FA\u00DD\u00FD"
            + "\u00C2\u00E2\u00CA\u00EA\u00CE\u00EE\u00D4\u00F4\u00DB\u00FB\u0176\u0177"
            + "\u00C3\u00E3\u00D5\u00F5\u00D1\u00F1"
            + "\u00C4\u00E4\u00CB\u00EB\u00CF\u00EF\u00D6\u00F6\u00DC\u00FC\u0178\u00FF"
            + "\u00C5\u00E5" + "\u00C7\u00E7" + "\u0150\u0151\u0170\u0171";

    private static final String PLAIN_CHARS = "AaEeIiOoUu" // grave
            + "AaEeIiOoUuYy" // acute
            + "AaEeIiOoUuYy" // circumflex
            + "AaOoNn" // tilde
            + "AaEeIiOoUuYy" // umlaut
            + "Aa" // ring
            + "Cc" // cedilla
            + "OoUu"; // double acute

    private static char[] lookup = new char[0x180];

    static {
        Arrays.fill(lookup, (char) 0);
        for (int i = 0; i < DIACRITIC_CHARS.length(); i++)
            lookup[DIACRITIC_CHARS.charAt(i)] = PLAIN_CHARS.charAt(i);
    }

    public static String slugify(String s) {
        String nowhitespace = WHITESPACE.matcher(s).replaceAll("-");
        String unaccented = unaccentify(nowhitespace);
        String slug = STRANGE.matcher(unaccented).replaceAll("");
        return slug.toLowerCase(Locale.ENGLISH);
    }

    public static String unaccentify(String s) {
        StringBuilder sb = new StringBuilder(s);
        for (int i = 0; i < sb.length(); i++) {
            char c = sb.charAt(i);
            if (c > 126 && c < lookup.length) {
                char replacement = lookup[c];
                if (replacement > 0)
                    sb.setCharAt(i, replacement);
            }
        }
        return sb.toString();
    }
}

numéro6 9 年前

我不知道它是否在Android上可用,但在JVM上,你应该不在项目中重新实现它并重用现有的代码:只需使用 org.apache.commons.lang3.StringUtils#stripAccents

DGK 6 年前

对于那些寻找干净Java解决方案的人来说,使用Apache CAMONS:

StringUtils.stripAccents("LiÃ¨ge").toUpperCase();

这个会回来的

LIEGE