查看: 488|回复: 1

关于正则表达式---ZT [复制链接]

Longe

管理员

论坛测试[砖]家

Rank: 12

威望: 9084
在线时间: 1242 小时
金币: 6988
贡献: 300
存款: 1660001
最后登录: 2026-5-10
注册时间: 2006-5-10
帖子: 1841
精华: 6
积分: 15416
阅读权限: 200
UID: 10

电梯直达

1楼

发表于 2009-11-9 13:04:38 |只看该作者 |倒序浏览

第一部分：
-----------------
正则表达式(REs)通常被错误地认为是只有少数人理解的一种神秘语言。在表面上它们确实看起来杂乱无章，如果你不知道它的语法，那么它的代码在你眼里只是一堆文字垃圾而已。实际上，正则表达式是非常简单并且可以被理解。读完这篇文章后，你将会通晓正则表达式的通用语法。

支持多种平台

正则表达式最早是由数学家Stephen Kleene于1956年提出，他是在对自然语言的递增研究成果的基础上提出来的。具有完整语法的正则表达式使用在字符的格式匹配方面上，后来被应用到熔融信息技术领域。自从那时起，正则表达式经过几个时期的发展，现在的标准已经被ISO(国际标准组织)批准和被Open Group组织认定。

正则表达式并非一门专用语言，但它可用于在一个文件或字符里查找和替代文本的一种标准。它具有两种标准：基本的正则表达式(BRE)，扩展的正则表达式(ERE)。ERE包括BRE功能和另外其它的概念。

许多程序中都使用了正则表达式，包括xsh,egrep,sed,vi以及在UNIX平台下的程序。它们可以被很多语言采纳，如HTML 和XML，这些采纳通常只是整个标准的一个子集。

比你想象的还要普通
随着正则表达式移植到交叉平台的程序语言的发展，这的功能也日益完整，使用也逐渐广泛。网络上的搜索引擎使用它，e-mail程序也使用它，即使你不是一个UNIX程序员，你也可以使用规则语言来简化你的程序而缩短你的开发时间。

正则表达式101
很多正则表达式的语法看起来很相似，这是因为你以前你没有研究过它们。通配符是RE的一个结构类型，即重复操作。让我们先看一看ERE标准的最通用的基本语法类型。为了能够提供具有特定用途的范例，我将使用几个不同的程序。

第二部分：
----------------------
字符匹配

正则表达式的关键之处在于确定你要搜索匹配的东西，如果没有这一概念，Res将毫无用处。

每一个表达式都包含需要查找的指令，如表A所示。

Table A: Character-matching regular expressions
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
.
Match any one character
grep .ord sample.txt
Will match “ford”, “lord”, “2ord”, etc. in the file sample.txt.
-----------------
[ ]
Match any one character listed between the brackets
grep [cng]ord sample.txt
Will match only “cord”, “nord”, and “gord”
---------------------
[^ ]
Match any one character not listed between the brackets

grep [^cn]ord sample.txt
Will match “lord”, “2ord”, etc. but not “cord” or “nord”

grep [a-zA-Z]ord sample.txt
Will match “aord”, “bord”, “Aord”, “Bord”, etc.

grep [^0-9]ord sample.txt
Will match “Aord”, “aord”, etc. but not “2ord”, etc.

重复操作符
重复操作符，或数量词，都描述了查找一个特定字符的次数。它们常被用于字符匹配语法以查找多行的字符，可参见表B。

Table B: Regular expression repetition operators
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
?
Match any character one time, if it exists
egrep “?erd” sample.txt
Will match “berd”, “herd”, etc. and “erd”
------------------
*
Match declared element multiple times, if it exists
egrep “n.*rd” sample.txt
Will match “nerd”, “nrd”, “neard”, etc.
-------------------
+
Match declared element one or more times
egrep “[n]+erd” sample.txt
Will match “nerd”, “nnerd”, etc., but not “erd”
--------------------
{n}
Match declared element exactly n times
egrep “[a-z]{2}erd” sample.txt
Will match “cherd”, “blerd”, etc. but not “nerd”, “erd”, “buzzerd”, etc.
------------------------
{n,}
Match declared element at least n times
egrep “.{2,}erd” sample.txt
Will match “cherd” and “buzzerd”, but not “nerd”
------------------------
{n,N}
Match declared element at least n times, but not more than N times
egrep “n[e]{1,2}rd” sample.txt
Will match “nerd” and “neerd”

第三部分：
----------------
锚
锚是指它所要匹配的格式，如图C所示。使用它能方便你查找通用字符的合并。例如，我用vi行编辑器命令:s来代表substitute，这一命令的基本语法是：

s/pattern_to_match/pattern_to_substitute/

Table C: Regular expression anchors
-------------
操作
解释
例子
结果
---------------
^
Match at the beginning of a line
s/^/blah /
Inserts “blah “ at the beginning of the line
---------------
$
Match at the end of a line
s/$/ blah/
Inserts “ blah” at the end of the line
---------------
\<
Match at the beginning of a word
s/\Inserts “blah” at the beginning of the word

egrep “\Matches “blahfield”, etc.
------------------
\>
Match at the end of a word
s/\>/blah/
Inserts “blah” at the end of the word

egrep “\>blah” sample.txt
Matches “soupblah”, etc.
---------------
\b
Match at the beginning or end of a word
egrep “\bblah” sample.txt
Matches “blahcake” and “countblah”
-----------------
\B
Match in the middle of a word
egrep “\Bblah” sample.txt
Matches “sublahper”, etc.

间隔

Res中的另一可便之处是间隔(或插入)符号。实际上，这一符号相当于一个OR语句并代表|符号。下面的语句返回文件sample.txt中的“nerd” 和 “merd”的句柄：

egrep “(n|m)erd” sample.txt

间隔功能非常强大，特别是当你寻找文件不同拼写的时候，但你可以在下面的例子得到相同的结果：

egrep “[nm]erd” sample.txt

当你使用间隔功能与Res的高级特性连接在一起时，它的真正用处更能体现出来。

第四部分：
----------------
一些保留字符
Res的最后一个最重要特性是保留字符(也称特定字符)。例如，如果你想要查找“ne*rd”和“ni*rd”的字符，格式匹配语句“n[ei]*rd”与“neeeeerd” 和 “nieieierd”相符合，但并不是你要查找的字符。因为‘*’(星号)是个保留字符，你必须用一个反斜线符号来替代它，即：“n[ei]\*rd”。其它的保留字符包括：

^ (carat)
. (period)
[ (left bracket}
$ (dollar sign)
( (left parenthesis)
) (right parenthesis)
| (pipe)
* (asterisk)
+ (plus symbol)
? (question mark)
{ (left curly bracket, or left brace)
\ backslash
一旦你把以上这些字符包括在你的字符搜索中，毫无疑问Res变得非常的难读。比如说以下的PHP中的eregi搜索引擎代码就很难读了。

eregi("^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$",$sendto)

你可以看到，程序的意图很难把握。但如果你抛开保留字符，你常常会错误地理解代码的意思。

总结
在本文中，我们揭开了正则表达式的神秘面纱，并列出了ERE标准的通用语法。如果你想阅览Open Group组织的规则的完整描述，你可以参见：Regular Expressions，欢迎你在其中的讨论区发表你的问题或观点。

另外一篇文章
----------------------------------------
正则表达式和Java编程语言
-----------------------------------------
类和方法

下面的类根据正则表达式指定的模式，与字符序列进行匹配。

Pattern类

Pattern类的实例表示以字符串形式指定的正则表达式，其语法类似于Perl所用的语法。

用字符串形式指定的正则表达式，必须先编译成Pattern类的实例。生成的模式用于创建Matcher对象，它根据正则表达式与任意字符序列进行匹配。多个匹配器可以共享一个模式，因为它是非专属的。

用compile方法把给定的正则表达式编译成模式，然后用 matcher方法创建一个匹配器，这个匹配器将根据此模式对给定输入进行匹配。pattern 方法可返回编译这个模式所用的正则表达式。

split方法是一种方便的方法，它在与此模式匹配的位置将给定输入序列切分开。下面的例子演示了：

/*
* 用split对以逗号和/或空格分隔的输入字符串进行切分。
*/
import java.util.regex.*;

public class Splitter {
public static void main(String[] args) throws Exception {
// Create a pattern to match breaks
Pattern p = Pattern.compile("[,\\s]+");
// Split input with the pattern
String[] result =
p.split("one,two, three four , five");
for (int i=0; iSystem.out.println(result);( R* I3 v' ?- J2 d6 K0 L6 K
}* N9 N/ F8 U+ D1 Y. c# O+ P
}  \7 l- O! J0 z+ K$ E
- C9 d/ p1 N1 X. A
Matcher类 * F! Y0 ]3 s& B6 G& H3 ^& k- P

% s) g5 X% z3 J2 O3 WMatcher类的实例用于根据给定的字符串序列模式，对字符序列进行匹配。使用CharSequence接口把输入提供给匹配器，以便支持来自多种多样输入源的字符的匹配。
# x9 G. q; D& B: n
' D* k# V1 \) y% m通过调用某个模式的matcher方法，从这个模式生成匹配器。匹配器创建之后，就可以用它来执行三类不同的匹配操作：8 P0 d( v5 [" O
* C+ F( `6 u0 A6 ^
matches方法试图根据此模式，对整个输入序列进行匹配。
/ j) Q9 y0 |; g! ?  ZlookingAt方法试图根据此模式，从开始处对输入序列进行匹配。 8 q8 O4 B" v3 N) P/ h( H$ a9 C# T
find方法将扫描输入序列，寻找下一个与模式匹配的地方。 , w/ r1 d- a5 Y8 r6 Z: A  i
  C* D  Z9 l0 H7 h8 h4 a9 `
这些方法都会返回一个表示成功或失败的布尔值。如果匹配成功，通过查询匹配器的状态，可以获得更多的信息
0 F. u4 |6 u) Y$ L* P! C
# U" m- M0 m# f这个类还定义了用新字符串替换匹配序列的方法，这些字符串的内容如果需要的话，可以从匹配结果推算得出。
7 i/ o/ D/ L6 r# Z4 j# _2 T) L0 C% z
appendReplacement方法先添加字符串中从当前位置到下一个匹配位置之间的所有字符，然后添加替换值。appendTail添加的是字符串中从最后一次匹配的位置之后开始，直到结尾的部分。  Y! p. J1 U0 C! j, P

/ n' ]' r: m% s( p; f3 f例如，在字符串blahcatblahcatblah中，第一个 appendReplacement添加blahdog。第二个 appendReplacement添加blahdog，然后 appendTail添加blah，就生成了： blahdogblahdogblah。请参见示例简单的单词替换。
9 o  E" L' y* ^1 B# z! |0 @# E* W6 A; o7 {# P% e; o" O
CharSequence接口
9 T" R# L! b8 U, M1 }0 e% n( U
2 q( k1 `6 c- @CharSequence接口为许多不同类型的字符序列提供了统一的只读访问。你提供要从不同来源搜索的数据。用String, StringBuffer 和CharBuffer实现CharSequence,，这样就可以很容易地从它们那里获得要搜索的数据。如果这些可用数据源没一个合适的，你可以通过实现CharSequence接口，编写你自己的输入源。
, b0 I  e3 Z2 V5 N0 N" U
1 p7 r  t6 G! V3 O$ [Regex情景范例/ o7 T3 G9 y, J' k- P. I
: A2 S5 }2 W9 \% T( Y0 M
以下代码范例演示了java.util.regex软件包在各种常见情形下的用法：$ q& c7 C( B/ ?9 u& n; [$ E

/ _' r5 \- `( |! @- K+ v简单的单词替换6 `. z. \1 \; w1 S
8 y+ l* N$ U4 \9 u
/*
7 K9 S# L; ]- n( D* This code writes "One dog, two dogs in the yard."+ @2 G7 }9 r9 q" e" z8 G# w
* to the standard-output stream:
7 q2 j5 Z( u7 B1 ~) S. t*/$ G9 p" {9 g/ X! @$ r7 K
import java.util.regex.*;2 @3 N, b) z1 A1 w5 z

9 c; L' L+ M# j) I; ]0 ]public class Replacement {5 Y1 Y& v4 J$ O
public static void main(String[] args)
  Z, }: M" W/ q8 f% e' K    throws Exception {1 x) j: |! [& K0 P# h
// Create a pattern to match cat
; B1 g( ?& @$ ]. m) JPattern p = Pattern.compile("cat");
( U7 J6 y: o& r// Create a matcher with an input string
- v8 q7 a1 f" U! M! f9 OMatcher m = p.matcher("one cat," +
4 |9 _$ B. `6 h, ?' A    " two cats in the yard");
+ J7 a2 ]0 ~/ {& EStringBuffer sb = new StringBuffer();9 p  n6 G7 y3 V. s" n, m4 x
boolean result = m.find();
! ?! F% K# [9 \9 k6 y// Loop through and create a new String
! q$ S4 f3 N) M9 H$ e// with the replacements
; K7 b# S2 Q8 k* f% x* @( u' vwhile(result) {
6 f, `9 x, e9 u/ @4 l- C& A4 ym.appendReplacement(sb, "dog");
/ i8 k$ e7 D% Y' B' Y0 qresult = m.find();! {9 s, _1 }! i, G! d1 I6 K4 v
}
1 T- P4 N& q1 B$ N4 C// Add the last segment of input to $ Q5 g# z& O+ D
// the new String
. m" w* O- Y* Y- ?4 dm.appendTail(sb);
8 L. r! J9 S( Z6 X! iSystem.out.println(sb.toString());
+ e; |2 G$ K( j, B}. W, ?. `% M* m1 g3 d
}
- H8 M+ y: c# y0 J8 W" A7 R6 [0 O* q$ w5 Z9 I7 D
电子邮件确认
+ k& Y( D8 ^/ j" b$ c* Y! g7 i6 M5 u
以下代码是这样一个例子：你可以检查一些字符是不是一个电子邮件地址。它并不是一个完整的、适用于所有可能情形的电子邮件确认程序，但是可以在需要时加上它。/ [4 y* X5 E. J9 D
1 B: p  u  I+ ]  i; c
/*
& Z1 F2 p+ L' ~7 r; k: N* Checks for invalid characters5 W: e' y9 W) z& v
* in email addresses
% n& f5 Q+ [- y) K1 X9 T*/7 |6 C  O: d1 K8 g
public class EmailValidation {( [% f( h; u7 p: N. @  {4 o( x
public static void main(String[] args) 6 z# k4 e: P2 M# i( ?8 q
         throws Exception {4 ~+ T6 l9 N/ s6 o) E

( j' I& @* r( t1 ?String input = "@sun.com";- L7 C0 T) n+ @5 E" _
//Checks for email addresses starting with5 T; A. ?( v: n8 e( }( P
//inappropriate symbols like dots or @ signs.7 z& h- ]  [. J
Pattern p = Pattern.compile("^\\.|^\\@");4 H3 X" Z% d9 I6 ~
Matcher m = p.matcher(input);& c0 g' _9 S! w+ s7 i& \
if (m.find()), c1 q5 q! q0 B/ d
System.err.println("Email addresses don't start" +
3 g# r6 [- ~- T1 m       " with dots or @ signs.");
$ s! H" q7 L# m0 u3 J4 b//Checks for email addresses that start with* p  i; i4 j# }& ^6 f) Q  N1 E
//www. and prints a message if it does.
6 n* Z, h. M9 \* S( Mp = Pattern.compile("^www\\.");1 a  v" \) P  s$ o9 Y. d
m = p.matcher(input);! n8 p: G, k6 d% C8 f
if (m.find()) {. \: w& E: d% f; ~; ^# H
System.out.println("Email addresses don't start" +
, G$ R/ s$ o* e " with \"www.\", only web pages do.");
1 {7 H2 e/ F8 P}
5 P3 d& i* X4 N, Y" zp = Pattern.compile("[^A-Za-z0-9\\.\\@_\\-~#]+");/ {& g- n) V- W. D5 \2 F
m = p.matcher(input);* O; b8 z6 r( D$ W
StringBuffer sb = new StringBuffer();
% k; m( C1 N* n. ^$ I* ~boolean result = m.find();+ L* {8 I) v( H
boolean deletedIllegalChars = false;" M4 K; y( X3 M* _6 L4 V
* `$ k% _% m7 B( j2 @8 b- F
while(result) {' l& @' t8 l5 k$ C0 W
deletedIllegalChars = true;
" E4 n- w7 r- S. Q6 gm.appendReplacement(sb, "");
9 Q& B4 l- U; m+ N# j7 t0 nresult = m.find();, {; K" w: V4 r) M9 {
}
7 @# {! a% b( E8 @" }, @: o
  H0 Y& E3 x1 v+ E// Add the last segment of input to the new String# `- G2 {& c- X: V: l% `' c
m.appendTail(sb);
1 [' b5 s7 X. ~7 o# z# A! ]& ?% {
: @" \# [- }3 s: R6 X4 q( ~( o- G7 ginput = sb.toString();
$ H; t! k) [! h+ j$ o2 H
3 h: A( F: y/ I( |5 Q2 R( ^0 X4 O( Qif (deletedIllegalChars) {
( S+ P& T5 r/ U, I% kSystem.out.println("It contained incorrect characters" +* `" h/ H6 {" s; O4 _" v2 e
   " , such as spaces or commas.");
, i( Y7 u% r$ b! G8 M: j3 R: u3 `}
- r- b$ s, ~# `5 d}
) [4 k' }: Q) I! `* H5 N1 p( D& l, J}, i2 i* J+ \3 V* l. z% y; z+ s9 n

1 a4 M; w# d( q; i3 g从文件中删除控制字符% e7 n; n9 w: u4 M4 |) n
( J7 Q+ F1 d# Z% S+ ]0 y: I
/* This class removes control characters from a named0 ^+ b  }4 u# ?
* file.
) L0 D$ X- n3 l! Y*/: J7 u9 Y+ R0 x1 x
import java.util.regex.*;' N( Z4 x: N& ~/ ]7 L% k( `* W+ w! o
import java.io.*;% O$ x( B. A# t! e  ?7 r

( c/ d+ w$ N6 [4 Ipublic class Control {
6 Y+ a) [7 k& e* u  p% z) Y2 B) C) hpublic static void main(String[] args)
! G4 `% F. g6 b$ ]          throws Exception {
3 x5 B2 L. P; c          $ E. \& v( a; U! x  [
//Create a file object with the file name' Q- Q9 w4 X6 h; p, n4 l; @
//in the argument:
File fin = new File("fileName1");: M  _) d7 a, Z& @; h8 ?9 E6 o
File fout = new File("fileName2");
/ ?4 s9 V  X$ U3 _9 t3 T1 W  N//Open and input and output stream
0 _' B' I0 b2 ]3 s: G; GFileInputStream fis =
7 Y, \! u$ H1 u0 u) Q: U$ i    new FileInputStream(fin);) t6 \, u2 |# D
FileOutputStream fos =
8 k+ U1 k7 [- K: R  O2 r    new FileOutputStream(fout);
/ |( y$ `9 b: D1 h
5 Z$ R- L5 g  n: GBufferedReader in = new BufferedReader(
! L# N; p8 x7 x5 I    new InputStreamReader(fis));
* Z# s$ S& ^6 q% o, h0 e. yBufferedWriter out = new BufferedWriter(
( H4 N7 H* x9 T- b    new OutputStreamWriter(fos));# q, @3 f% f2 d7 q8 |) m9 {

, K4 T; B  J8 y) w// The pattern matches control characters
; f9 u* U4 O) W& RPattern p = Pattern.compile("{cntrl}");3 c% [) \2 c! R2 p' J. C! a  Z
Matcher m = p.matcher("");, t$ \0 W  K% D( C) b6 F
String aLine = null;) ?" @- H- A) u. f8 e4 K' {
while((aLine = in.readLine()) != null) {2 Z. B0 p! I; B4 t& P, S
m.reset(aLine);
1 Q+ F) U( F0 h* k0 L8 |* @//Replaces control characters with an empty$ H$ o3 S# b8 Q: S2 l1 a8 B; M$ l/ }
//string.
9 s* j3 [9 i; K; F* S6 s9 T, I) s0 lString result = m.replaceAll("");3 h; f6 w" `/ O& _6 y3 O' X
out.write(result);, D6 T5 C$ G& a+ V2 ?
out.newLine();
+ f; k, A6 e8 C}
# D. L6 g, d: Y2 j9 _3 }* G; Fin.close();
; j+ G. Z2 m, ?; Mout.close();
* S7 H, ]) b: f5 j/ r' e" j}4 c3 d6 n% F( g& R/ B1 P! n. w: Y+ ~
}; N# S) Y+ z4 T

4 X5 I6 |+ O; b/ E$ o文件查找 6 o8 u4 F' k( q4 h2 {1 F
) C) \4 M9 r, |
/** W( x6 F; v% J/ H
* Prints out the comments found in a .java file.
1 d, r  p' B+ G+ l/ q# M*/
) E6 ~! Y  L: r+ j: x3 c8 |3 o. @import java.util.regex.*;# Q! _) s7 l8 C" a- d' q
import java.io.*;, G. |( D: Z' q
import java.nio.*;
- z5 R3 x+ f7 q! \2 T% y% S4 ~& kimport java.nio.charset.*;
; B( p6 J& t: {+ m+ nimport java.nio.channels.*;9 y5 @% r( N' p5 t

0 k% i( @' P* v" G$ q0 d8 F) Npublic class CharBufferExample {) Z& r, B1 B3 P( i! @! e$ w
public static void main(String[] args) throws Exception {$ [% I6 [& ]8 k& n7 z9 ?
// Create a pattern to match comments
- V; `- a# J' j7 K2 |0 SPattern p = , e( [! C( J6 \! d* g. L% _+ o
Pattern.compile("//.*$", Pattern.MULTILINE);+ `& ?$ P# ?, g0 y

$ |# p& |$ Q4 [) B// Get a Channel for the source file
7 b& Y3 N$ {9 {1 `File f = new File("Replacement.java");
3 e" S" T0 v! l8 W+ Q% D" LFileInputStream fis = new FileInputStream(f);, f2 _* ~  f( W" E
FileChannel fc = fis.getChannel();* Q  R2 ?6 x9 X  C/ N

3 n( I9 d+ J1 Y8 |$ x; ]# J! U// Get a CharBuffer from the source file. {" J4 `5 r) g6 F2 T1 j) o+ n
ByteBuffer bb = 2 n3 _* _5 Y! h5 L+ c
fc.map(FileChannel.MAP_RO, 0, (int)fc.size());
; A, P$ Y. Y; x# m$ Q5 ^Charset cs = Charset.forName("8859_1");+ Y+ K# M7 i) X* a0 d$ h2 O
CharsetDecoder cd = cs.newDecoder();- N' i+ r3 _5 U$ m$ ~  g! M
CharBuffer cb = cd.decode(bb);
- h! p. R9 w0 s. L( S. P
) |3 c/ X) Y3 g$ M% K7 h5 G// Run some matches
2 z. ~! n5 ~3 q9 B% lMatcher m = p.matcher(cb);
& B8 @: E- p* R# F6 B  T) Bwhile (m.find())/ m9 Y0 ~, U( ?) e! }, ^
System.out.println("Found comment: "+m.group());
5 u2 C; K5 ~* j5 b6 ?}) }% o* I# J8 m, g' Z+ K7 m
}
6 _: x8 l! a' y9 m1 \- Q5 V' ?4 C& p
结论6 y( L: [! ?6 T0 \; n
现在Java编程语言中的模式匹配和许多其他编程语言一样灵活了。可以在应用程序中使用正则表达式，确保数据在输入数据库或发送给应用程序其他部分之前，格式是正确的，正则表达式还可以用于各种各样的管理性工作。简而言之，在Java编程中，可以在任何需要模式匹配的地方使用正则表达式。 ' v/ Z, [3 {& m7 ~" X6 r

! H6 [* Z( p! }* D- {. ?JDK1.4之正規表示式
1 E! T: I0 I/ ]5 X6 S: s) zwritten by william chen(06/19/2002)
8 r: Q& o4 `! |
' s, }+ f$ @% y, g& K1 Y( N* U--------------------------------------------------------------------------------" O, k, O  w1 B
% ^4 K5 \* }1 `2 Q
什麼是正規表示式呢(Reqular Expressions)8 O, J" e+ U6 q: M8 I& C

6 \+ X9 A& b: @9 n7 h- J. v% x1 O+ g4 Q就是針對檔案、字串，透過一種很特別的表示式來作search與replace( H+ o" L6 p8 G" N5 V- I

& M" j  r3 r9 {6 t+ E因為在unix上有很多系統設定都是存放在文字檔中，因此網管或程式設計常常需要作搜尋與取代
7 j/ |/ g( c3 e( h( f
& ]* I+ q: }# T所以發展出一種特殊的命令叫做正規表示式* l9 V7 f8 L7 `! e6 Z0 `

  T8 x/ Q9 O& Q2 _我們可以很簡單的用 "s/
3 f. ^- W  y2 L因此jdk1.4提供了一組正規表示式的package供大家使用0 a) E% m( u5 x' a1 ]
* ^% t7 K8 d& Z& I: [8 E
若是jdk1.4以下的可以到http://jakarta.apache.org/oro取得相關功能的package
% p$ n+ M1 F) G& K- p0 h$ E9 [& Y# @
剛剛列出的一串符號" s/$ ~% K- m; g3 r3 j
適用於j2sdk1.4的正規語法+ M8 M& s/ V6 @1 q
0 V& b& o  @( h( `- C5 ^
"." 代表任何字元1 Z, R5 t% D3 {8 K
+ ?( l* G+ P8 P7 u. Q' h
正規式原字串符合之字串 3 x: [0 \! k5 w
. ab a
2 v! V# z" p* t4 S( j/ y, f.. abc ab ; ]0 P+ F+ ^$ q7 j

0 b  ?) M8 T, x' C' [! E) L"+" 代表一個或以個以上的字元
9 ]' _  B; O. h5 k4 o0 l( p"*" 代表零個或是零個以上的字元( Y. B4 b) Y: C4 L$ x" H& o
* P5 s: ~% z: Q7 K* N. c& q
正規式原字串符合之字串 ! h% X% o7 f0 u: [' e+ a
+ ab ab
7 n* u9 f3 u# @  I* abc abc
$ a2 m! v- q/ }+ B; m
2 m$ j' j: X: `9 |1 I: Q0 d"( )"群組' Z. Z+ f: o4 F7 e0 F9 v6 O* {
; Q& t4 l% _) U% _4 F+ J+ G
正規式原字串符合之字串 ) \- f3 @& r7 ?; S
(ab)* aabab abab 7 Y6 l- [. Z' U8 s
' b- o+ r) R5 H9 ?, w' z; W
字元類
. R' `$ M% w7 h$ s4 B& I1 J
* D0 R7 e: V0 B5 `正規式原字串符合之字串 & f- b! Z8 w6 k6 a% }. N3 L
[a-dA-D0-9]* abczA0 abcA0   m+ y# H( }$ v: y: X
[^a-d]* abe0 e0
1 Y8 G+ L1 |6 M8 ~7 B4 j; x[a-d]* abcdefgh abab * P& s6 i2 W8 k. \

  {3 s) ^* q3 j' r/ l9 Y
/ l' d) @% Y4 ^. _$ z, }6 Z簡式
5 r5 t' _! ?; d) d. q
# U0 v0 t" O" \: l\d 等於 [0-9] 數字 2 t2 d7 ~% ?7 O2 u
\D 等於 [^0-9] 非數字 # g6 z1 H0 e  D/ _4 E; _* e
\s 等於 [ \t\n\x0B\f\r] 空白字元 3 v* u+ W) X2 ?8 b6 E2 v0 b
\S 等於 [^ \t\n\x0B\f\r] 非空白字元 2 q4 e' B4 C$ _8 @0 i/ S# A( l- {
\w 等於 [a-zA-Z_0-9] 數字或是英文字 * i3 R, ?7 u3 ~0 Q7 }9 i+ B
\W 等於 [^a-zA-Z_0-9] 非數字與英文字 $ N7 B1 b5 C7 c) {6 L# L
8 R% w$ h8 J8 i! e( d5 t4 V) q! _
每一行的開頭或結尾
5 {3 p3 q+ U/ x0 c, l; O
7 z: |9 }! e6 w9 x' n- h^ 表示每行的開頭
% R5 }+ ^* s9 I$ D" W$ 表示每行的結尾  D; x6 }9 ~4 @4 O
" I) w+ N, G9 B& Z- ~% G0 H& O2 `
--------------------------------------------------------------------------------
9 _) v+ T7 ~2 G& G$ S9 u# V+ k# L& ]; d
正規表示式 java.util.regex 相關的類別
' `/ V. \( R& l; D% q( f, M7 V+ c" T% O$ [0 W6 L& n% R$ I
Pattern—正規表示式的類別
2 d* {0 k7 _% d3 ~: l: ~! LMatcher—經過正規化的結果3 i: A2 f  m6 |
PatternSyntaxExpression—Exception thrown while attempting to compile a regular expression/ L7 ?4 W; J% o, \* |
% I' ~" I: f' M/ O
範例1: 將字串中所有符合"<"的字元取代成"lt;"1 ?3 r- L0 r' P
0 }+ I# m. ?$ i, @
import java.io.*;
2 m! @; F9 c3 B4 w/ z- [" oimport java.util.regex.*;
9 J/ C& H' z8 H8 b( w3 N4 i; N/**
$ w+ l. y; \2 E1 `  W1 y# d* 將字串中所有符合"<"的字元取代成"lt;"
- s$ H- c1 S- N*/' L1 U: E; m: e6 J# Y
public static void replace01(){
3 @, @# u  {' n" B+ a* S// BufferedReader lets us read line-by-line
6 n3 V8 {7 ^0 y5 yReader r = new InputStreamReader( System.in );
+ @: e2 B" [  T4 W& Z  p0 D  yBufferedReader br = new BufferedReader( r );
6 h. L  k- B: X; h8 [: L- z, @$ dPattern pattern = Pattern.compile( "<" ); // 搜尋某字串所有符合'<'的字元. d$ B5 Y# R; u3 i; `" ]
try{
. j3 S2 E' W% o) e5 L$ ?& Q- uwhile (true) {$ ]; W' b( ^! T& n" f) }3 U
String line = br.readLine();6 j* b0 s: R* T
// Null line means input is exhausted2 B  j: G, {, \
if (line==null)
: G6 j( _. ?' u9 f+ fbreak;1 ?2 |; M1 `, O" G3 L5 F
Matcher a = pattern.matcher(line);, m7 S1 i6 s2 ]& k) p8 {4 F& h5 k
while(a.find()){
* G* @3 L- v6 L4 SSystem.out.println("搜尋到的字元是" + a.group());
/ X5 b" g" J# Y; U}
  e* S' h: B+ q- W2 jSystem.out.println(a.replaceAll("lt;"));// 將所有符合字元取代成lt;
7 f# a9 @! T* Q& P7 n$ P}
% A" T4 \. }, d( Q; O}catch(Exception ex){ex.printStackTrace();};
  E3 L0 u/ d7 x6 J1 h! [}
* E9 Y2 W+ d: S1 @! J
; E, [" Y% |* q0 g範例2:
- t8 `. h* L' h, ^4 y9 h. f- C. b1 n8 b, a2 f3 r
import java.io.*;
4 o7 }$ f6 H* Iimport java.util.regex.*;
7 ?' {4 N  n. l. O8 M/**
9 }5 L+ R, p& T4 }* 類似StringTokenizer的功能
- e8 N' V, x  }% K( X* 將字串以","分隔然後比對哪個token最長
9 p8 \; a- Q  D3 t0 f. L*/
' ~8 @/ i0 x9 h* @1 i% \5 E$ vpublic static void search01(){
% N, j' j6 n* z2 v$ z// BufferedReader lets us read line-by-line
9 A* a, C3 r6 lReader r = new InputStreamReader( System.in );6 G- B$ K' R3 R
BufferedReader br = new BufferedReader( r );
) D( w9 y. q) \# u& {8 _0 Q& PPattern pattern = Pattern.compile( ",\\s*" );// 搜尋某字串所有","的字元2 r' _* `6 I7 ?& J7 [( h
try{6 r5 k, X3 a- w% o0 F- G( c
while (true) {
3 l; ~; h. F9 KString line = br.readLine();
4 a* s5 k9 z( u9 V- m3 j% DString words[] = pattern.split(line);* q+ q! P7 x6 i9 B  f$ c
// Null line means input is exhausted- b) y. ~( e: E+ g" h& D
if (line==null)
* u5 c3 Z6 c0 hbreak;
5 \9 f5 Z3 }: I// -1 means we haven't found a word yet
6 ]& \/ a% |2 k3 z4 sint longest=-1;
: A0 B  n0 D( U6 ]* L3 s2 c9 D5 zint longestLength=0;3 ?1 u2 U, d2 Q2 x  m7 Y( n
for (int i=0; iSystem.out.println("分段:" + words );. ?- I# B% K7 b5 |  j. s
if (words.length() > longestLength) {
$ [( B) R7 [3 d( q0 \( blongest = i;3 [9 y( x! B- G2 b$ F
longestLength = words.length();
. }' T9 h$ j% A}3 L' i5 ~9 g5 l, P. M  I
}
- ^. }, M* c4 `6 N9 k" d! iSystem.out.println( "長度最長為:" + words[longest] );" W/ N$ ~* a: ^4 f! i
}) V5 e- V; e6 _0 a
}catch(Exception ex){ex.printStackTrace();};
& Z) [( c% r/ o2 C}
  `' j3 f" |3 I/ b
; Z4 [$ m9 u/ w, a8 ~--------------------------------------------------------------------------------
$ T6 Q$ y$ z0 G( `7 X
  s/ V/ a8 C6 W: z, c其他的正規語法
! k: L2 M7 e) p8 [- S, k$ `8 Q9 W# Y. D0 b3 g$ z4 l* S# C. V
/^\s* # 忽略每行開始的空白字元7 U: S7 i. ~* u
(M(s|r|rs)\.) # 符合 Ms., Mrs., and Mr. (titles)