StringTokenizer
?将转换String
为char[]
并对其进行迭代?还有吗
StringTokenizer
?将转换String
为char[]
并对其进行迭代?还有吗
Answers:
我使用for循环来迭代字符串,并使用它charAt()
来获取每个字符以进行检查。由于String是通过数组实现的,因此该charAt()
方法是恒定时间操作。
String s = "...stuff...";
for (int i = 0; i < s.length(); i++){
char c = s.charAt(i);
//Process char
}
那就是我会做的。在我看来,这是最简单的。
就正确性而言,我不认为这是存在的。这完全取决于您的个人风格。
String.charAt(int)
只是在做value[index]
。我认为您会混淆chatAt()
其他一些可以给您代码点的东西。
两种选择
for(int i = 0, n = s.length() ; i < n ; i++) {
char c = s.charAt(i);
}
要么
for(char c : s.toCharArray()) {
// process c
}
第一个可能更快,然后第二个可能更具可读性。
请注意,如果您要处理BMP(Unicode 基本多语言平面)之外的字符(即,代码点超出u0000-uFFFF范围),则此处介绍的大多数其他技术都会崩溃。这种情况很少发生,因为在此之外的代码点大部分都分配给死语言。但是除此之外,还有一些有用的字符,例如一些用于数学记号的代码点,以及一些用于用中文编码专有名称的代码点。
在这种情况下,您的代码将是:
String str = "....";
int offset = 0, strLen = str.length();
while (offset < strLen) {
int curChar = str.codePointAt(offset);
offset += Character.charCount(curChar);
// do something with curChar
}
该Character.charCount(int)
方法需要Java 5+。
我同意StringTokenizer在这里过大。实际上,我尝试了上述建议并花了一些时间。
我的测试非常简单:创建一个约有100万个字符的StringBuilder,将其转换为String,然后在转换为char数组后,使用CharacterIterator遍历charAt()/一千次(当然要确保对字符串执行某些操作,以使编译器无法优化整个循环:-))。
在我的2.6 GHz Powerbook(这是mac :-))和JDK 1.5上的结果:
由于结果明显不同,因此最直接的方法似乎也是最快的方法。有趣的是,StringBuilder的charAt()似乎比String慢一点。
顺便说一句,我建议不要使用CharacterIterator,因为我认为它滥用'\ uFFFF'字符作为“迭代结束”是一个非常糟糕的黑客。在大型项目中,总是有两个人出于两种不同目的使用相同类型的hack,并且代码确实神秘地崩溃。
这是测试之一:
int count = 1000;
...
System.out.println("Test 1: charAt + String");
long t = System.currentTimeMillis();
int sum=0;
for (int i=0; i<count; i++) {
int len = str.length();
for (int j=0; j<len; j++) {
if (str.charAt(j) == 'b')
sum = sum + 1;
}
}
t = System.currentTimeMillis()-t;
System.out.println("result: "+ sum + " after " + t + "msec");
在Java 8中,我们可以将其解决为:
String str = "xyz";
str.chars().forEachOrdered(i -> System.out.print((char)i));
str.codePoints().forEachOrdered(i -> System.out.print((char)i));
chars()方法返回doc中IntStream
提到的:
返回此序列的char值进行int零扩展的int流。映射到代理代码点的任何字符都将通过未解释传递。如果在读取流时序列发生突变,则结果不确定。
该方法codePoints()
还IntStream
按文档返回一个:
返回此序列中的代码点值流。序列中遇到的所有代理对都像通过Character.toCodePoint进行组合,然后将结果传递到流中。任何其他代码单元(包括普通BMP字符,不成对的代理和未定义的代码单元)都将零扩展为int值,然后将其传递到流中。
字符和代码点有何不同?正如提到的这个文章:
Unicode 3.1添加了补充字符,使字符总数超过了可以用单个16位识别的216个字符
char
。因此,char
值不再具有与Unicode中基本语义单元的一对一映射。JDK 5已更新,以支持更大的字符值集。代替更改char
类型的定义,某些新的补充字符由两个char
值的替代对表示。为了减少命名混乱,将使用代码点来表示代表特定Unicode字符的数字,包括补码。
最后为什么forEachOrdered
而不是forEach
?
的行为forEach
是明确地不确定性,其中作为forEachOrdered
执行用于该流的每个元件的操作,在该流的遭遇顺序如果流具有规定的遭遇顺序。因此forEach
,不能保证将保留订单。另请查看此问题以获取更多信息。
对于字符,代码点,字形和字形之间的区别,请检查此问题。
为此有一些专用的类:
import java.text.*;
final CharacterIterator it = new StringCharacterIterator(s);
for(char c = it.first(); c != CharacterIterator.DONE; c = it.next()) {
// process c
...
}
char
提供的空间更多。Java char
包含16位,并且可以将Unicode字符保留为U + FFFF,但是Unicode指定的字符可以保留为U + 10FFFF。使用16位编码Unicode会导致长度可变的字符编码。此页面上的大多数答案都假定Java编码是恒定长度编码,这是错误的。
如果您的类路径中包含番石榴,则以下是一种易于阅读的替代方法。对于这种情况,Guava甚至有一个相当明智的自定义List实现,因此这应该没有效率。
for(char c : Lists.charactersOf(yourString)) {
// Do whatever you want
}
更新:正如@Alex指出的那样,在Java 8中也CharSequence#chars
可以使用。即使类型是IntStream,也可以将其映射为以下字符:
yourString.chars()
.mapToObj(c -> Character.valueOf((char) c))
.forEach(c -> System.out.println(c)); // Or whatever you want
如果您需要遍历a的代码点String
(请参见此答案),则一种更简短/更易读的方法是使用CharSequence#codePoints
Java 8中添加的方法:
for(int c : string.codePoints().toArray()){
...
}
或直接使用流而不是for循环:
string.codePoints().forEach(c -> ...);
还有CharSequence#chars
,如果你想要的字符流(虽然它是IntStream
,因为没有CharStream
)。
我不会使用,StringTokenizer
因为它是JDK中遗留的类之一。
Javadoc说:
StringTokenizer
是旧类,出于兼容性原因保留,尽管在新代码中不鼓励使用它。建议任何寻求此功能的人改用split方法String
或java.util.regex
package。
如果需要性能,则必须在环境上进行测试。没有其他办法了。
下面是示例代码:
int tmp = 0;
String s = new String(new byte[64*1024]);
{
long st = System.nanoTime();
for(int i = 0, n = s.length(); i < n; i++) {
tmp += s.charAt(i);
}
st = System.nanoTime() - st;
System.out.println("1 " + st);
}
{
long st = System.nanoTime();
char[] ch = s.toCharArray();
for(int i = 0, n = ch.length; i < n; i++) {
tmp += ch[i];
}
st = System.nanoTime() - st;
System.out.println("2 " + st);
}
{
long st = System.nanoTime();
for(char c : s.toCharArray()) {
tmp += c;
}
st = System.nanoTime() - st;
System.out.println("3 " + st);
}
System.out.println("" + tmp);
在Java在线上,我得到:
1 10349420
2 526130
3 484200
0
在Android x86 API 17上,我得到:
1 9122107
2 13486911
3 12700778
0
请参阅Java教程:字符串。
public class StringDemo {
public static void main(String[] args) {
String palindrome = "Dot saw I was Tod";
int len = palindrome.length();
char[] tempCharArray = new char[len];
char[] charArray = new char[len];
// put original string in an array of chars
for (int i = 0; i < len; i++) {
tempCharArray[i] = palindrome.charAt(i);
}
// reverse array of chars
for (int j = 0; j < len; j++) {
charArray[j] = tempCharArray[len - 1 - j];
}
String reversePalindrome = new String(charArray);
System.out.println(reversePalindrome);
}
}
放入长度int len
并使用for
循环。
StringTokenizer完全不适合将字符串分成单个字符的任务。随着String#split()
您可以通过使用符合什么,例如正则表达式做到这一点很容易:
String[] theChars = str.split("|");
但是StringTokenizer不使用正则表达式,并且您没有可以指定的分隔符字符串来匹配字符之间的所有字符。这里是一个可爱的小砍你可以用它来完成同样的事情:使用字符串本身作为分隔符字符串(使得在它的每一个字符分隔符),并使其返回分隔符:
StringTokenizer st = new StringTokenizer(str, str, true);
但是,我仅提及这些选项是为了消除它们。两种技术都将原始字符串分解为一个字符的字符串,而不是char基元,并且都涉及大量的对象创建和字符串操作形式的开销。相比之下,在for循环中调用charAt()几乎不会产生任何开销。
上面的答案指出了这里的许多解决方案的问题,这些解决方案不会通过代码点的值进行迭代-它们会遇到任何替代字符的问题。Java文档还在此处概述了该问题(请参阅“ Unicode字符表示形式”)。无论如何,这是一些代码,它使用补充Unicode集中的一些实际替代字符,并将其转换回字符串。请注意,.toChars()返回一个字符数组:如果要处理代理,则必须有两个字符。此代码应适用于任何 Unicode字符。
String supplementary = "Some Supplementary: 𠜎𠜱𠝹𠱓";
supplementary.codePoints().forEach(cp ->
System.out.print(new String(Character.toChars(cp))));
此示例代码将帮助您!
import java.util.Comparator;
import java.util.HashMap;
import java.util.Map;
import java.util.TreeMap;
public class Solution {
public static void main(String[] args) {
HashMap<String, Integer> map = new HashMap<String, Integer>();
map.put("a", 10);
map.put("b", 30);
map.put("c", 50);
map.put("d", 40);
map.put("e", 20);
System.out.println(map);
Map sortedMap = sortByValue(map);
System.out.println(sortedMap);
}
public static Map sortByValue(Map unsortedMap) {
Map sortedMap = new TreeMap(new ValueComparator(unsortedMap));
sortedMap.putAll(unsortedMap);
return sortedMap;
}
}
class ValueComparator implements Comparator {
Map map;
public ValueComparator(Map map) {
this.map = map;
}
public int compare(Object keyA, Object keyB) {
Comparable valueA = (Comparable) map.get(keyA);
Comparable valueB = (Comparable) map.get(keyB);
return valueB.compareTo(valueA);
}
}
因此,通常有两种方法可以遍历java中的字符串,而该字符串已经在此线程中被多个人回答,只需添加我的版本即可。
String s = sc.next() // assuming scanner class is defined above
for(int i=0; i<s.length; i++){
s.charAt(i) // This being the first way and is a constant time operation will hardly add any overhead
}
char[] str = new char[10];
str = s.toCharArray() // this is another way of doing so and it takes O(n) amount of time for copying contents from your string class to character array
如果性能受到威胁,那么我建议您恒定时间使用第一个,如果不这样做,那么考虑到Java中字符串类的不可变性,第二个就可以简化工作。