查看: 492|回复: 1

关于正则表达式---ZT [复制链接]

Longe

管理员

论坛测试[砖]家

Rank: 12

威望: 9084
在线时间: 1242 小时
金币: 6988
贡献: 300
存款: 1660001
最后登录: 2026-5-10
注册时间: 2006-5-10
帖子: 1841
精华: 6
积分: 15416
阅读权限: 200
UID: 10

电梯直达

1楼

发表于 2009-11-9 13:04:38 |只看该作者 |正序浏览

第一部分：
-----------------
正则表达式(REs)通常被错误地认为是只有少数人理解的一种神秘语言。在表面上它们确实看起来杂乱无章，如果你不知道它的语法，那么它的代码在你眼里只是一堆文字垃圾而已。实际上，正则表达式是非常简单并且可以被理解。读完这篇文章后，你将会通晓正则表达式的通用语法。

支持多种平台

正则表达式最早是由数学家Stephen Kleene于1956年提出，他是在对自然语言的递增研究成果的基础上提出来的。具有完整语法的正则表达式使用在字符的格式匹配方面上，后来被应用到熔融信息技术领域。自从那时起，正则表达式经过几个时期的发展，现在的标准已经被ISO(国际标准组织)批准和被Open Group组织认定。

正则表达式并非一门专用语言，但它可用于在一个文件或字符里查找和替代文本的一种标准。它具有两种标准：基本的正则表达式(BRE)，扩展的正则表达式(ERE)。ERE包括BRE功能和另外其它的概念。

许多程序中都使用了正则表达式，包括xsh,egrep,sed,vi以及在UNIX平台下的程序。它们可以被很多语言采纳，如HTML 和XML，这些采纳通常只是整个标准的一个子集。

比你想象的还要普通
随着正则表达式移植到交叉平台的程序语言的发展，这的功能也日益完整，使用也逐渐广泛。网络上的搜索引擎使用它，e-mail程序也使用它，即使你不是一个UNIX程序员，你也可以使用规则语言来简化你的程序而缩短你的开发时间。

正则表达式101
很多正则表达式的语法看起来很相似，这是因为你以前你没有研究过它们。通配符是RE的一个结构类型，即重复操作。让我们先看一看ERE标准的最通用的基本语法类型。为了能够提供具有特定用途的范例，我将使用几个不同的程序。

第二部分：
----------------------
字符匹配

正则表达式的关键之处在于确定你要搜索匹配的东西，如果没有这一概念，Res将毫无用处。

每一个表达式都包含需要查找的指令，如表A所示。

Table A: Character-matching regular expressions
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
.
Match any one character
grep .ord sample.txt
Will match “ford”, “lord”, “2ord”, etc. in the file sample.txt.
-----------------
[ ]
Match any one character listed between the brackets
grep [cng]ord sample.txt
Will match only “cord”, “nord”, and “gord”
---------------------
[^ ]
Match any one character not listed between the brackets

grep [^cn]ord sample.txt
Will match “lord”, “2ord”, etc. but not “cord” or “nord”

grep [a-zA-Z]ord sample.txt
Will match “aord”, “bord”, “Aord”, “Bord”, etc.

grep [^0-9]ord sample.txt
Will match “Aord”, “aord”, etc. but not “2ord”, etc.

重复操作符
重复操作符，或数量词，都描述了查找一个特定字符的次数。它们常被用于字符匹配语法以查找多行的字符，可参见表B。

Table B: Regular expression repetition operators
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
?
Match any character one time, if it exists
egrep “?erd” sample.txt
Will match “berd”, “herd”, etc. and “erd”
------------------
*
Match declared element multiple times, if it exists
egrep “n.*rd” sample.txt
Will match “nerd”, “nrd”, “neard”, etc.
-------------------
+
Match declared element one or more times
egrep “[n]+erd” sample.txt
Will match “nerd”, “nnerd”, etc., but not “erd”
--------------------
{n}
Match declared element exactly n times
egrep “[a-z]{2}erd” sample.txt
Will match “cherd”, “blerd”, etc. but not “nerd”, “erd”, “buzzerd”, etc.
------------------------
{n,}
Match declared element at least n times
egrep “.{2,}erd” sample.txt
Will match “cherd” and “buzzerd”, but not “nerd”
------------------------
{n,N}
Match declared element at least n times, but not more than N times
egrep “n[e]{1,2}rd” sample.txt
Will match “nerd” and “neerd”

第三部分：
----------------
锚
锚是指它所要匹配的格式，如图C所示。使用它能方便你查找通用字符的合并。例如，我用vi行编辑器命令:s来代表substitute，这一命令的基本语法是：

s/pattern_to_match/pattern_to_substitute/

Table C: Regular expression anchors
-------------
操作
解释
例子
结果
---------------
^
Match at the beginning of a line
s/^/blah /
Inserts “blah “ at the beginning of the line
---------------
$
Match at the end of a line
s/$/ blah/
Inserts “ blah” at the end of the line
---------------
\<
Match at the beginning of a word
s/\Inserts “blah” at the beginning of the word

egrep “\Matches “blahfield”, etc.
------------------
\>
Match at the end of a word
s/\>/blah/
Inserts “blah” at the end of the word

egrep “\>blah” sample.txt
Matches “soupblah”, etc.
---------------
\b
Match at the beginning or end of a word
egrep “\bblah” sample.txt
Matches “blahcake” and “countblah”
-----------------
\B
Match in the middle of a word
egrep “\Bblah” sample.txt
Matches “sublahper”, etc.

间隔

Res中的另一可便之处是间隔(或插入)符号。实际上，这一符号相当于一个OR语句并代表|符号。下面的语句返回文件sample.txt中的“nerd” 和 “merd”的句柄：

egrep “(n|m)erd” sample.txt

间隔功能非常强大，特别是当你寻找文件不同拼写的时候，但你可以在下面的例子得到相同的结果：

egrep “[nm]erd” sample.txt

当你使用间隔功能与Res的高级特性连接在一起时，它的真正用处更能体现出来。

第四部分：
----------------
一些保留字符
Res的最后一个最重要特性是保留字符(也称特定字符)。例如，如果你想要查找“ne*rd”和“ni*rd”的字符，格式匹配语句“n[ei]*rd”与“neeeeerd” 和 “nieieierd”相符合，但并不是你要查找的字符。因为‘*’(星号)是个保留字符，你必须用一个反斜线符号来替代它，即：“n[ei]\*rd”。其它的保留字符包括：

^ (carat)
. (period)
[ (left bracket}
$ (dollar sign)
( (left parenthesis)
) (right parenthesis)
| (pipe)
* (asterisk)
+ (plus symbol)
? (question mark)
{ (left curly bracket, or left brace)
\ backslash
一旦你把以上这些字符包括在你的字符搜索中，毫无疑问Res变得非常的难读。比如说以下的PHP中的eregi搜索引擎代码就很难读了。

eregi("^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$",$sendto)

你可以看到，程序的意图很难把握。但如果你抛开保留字符，你常常会错误地理解代码的意思。

总结
在本文中，我们揭开了正则表达式的神秘面纱，并列出了ERE标准的通用语法。如果你想阅览Open Group组织的规则的完整描述，你可以参见：Regular Expressions，欢迎你在其中的讨论区发表你的问题或观点。

另外一篇文章
----------------------------------------
正则表达式和Java编程语言
-----------------------------------------
类和方法

下面的类根据正则表达式指定的模式，与字符序列进行匹配。

Pattern类

Pattern类的实例表示以字符串形式指定的正则表达式，其语法类似于Perl所用的语法。

用字符串形式指定的正则表达式，必须先编译成Pattern类的实例。生成的模式用于创建Matcher对象，它根据正则表达式与任意字符序列进行匹配。多个匹配器可以共享一个模式，因为它是非专属的。

用compile方法把给定的正则表达式编译成模式，然后用 matcher方法创建一个匹配器，这个匹配器将根据此模式对给定输入进行匹配。pattern 方法可返回编译这个模式所用的正则表达式。

split方法是一种方便的方法，它在与此模式匹配的位置将给定输入序列切分开。下面的例子演示了：

/*
* 用split对以逗号和/或空格分隔的输入字符串进行切分。
*/
import java.util.regex.*;

public class Splitter {
public static void main(String[] args) throws Exception {
// Create a pattern to match breaks
Pattern p = Pattern.compile("[,\\s]+");
// Split input with the pattern
String[] result =
p.split("one,two, three four , five");
for (int i=0; iSystem.out.println(result);
9 m5 g4 V0 \: j}5 ~8 W& a3 N) t
}
. _( I; H2 ?! d/ J; y
  c$ c) D0 ~! ~. ~Matcher类 * V  Z3 M" k# Z4 y1 l( v
8 M% a4 ^7 V8 E8 ~0 }
Matcher类的实例用于根据给定的字符串序列模式，对字符序列进行匹配。使用CharSequence接口把输入提供给匹配器，以便支持来自多种多样输入源的字符的匹配。
. g0 p% {+ v! d7 A- i. }1 m* J/ y* T# Z0 H3 \
通过调用某个模式的matcher方法，从这个模式生成匹配器。匹配器创建之后，就可以用它来执行三类不同的匹配操作：+ t+ {" N. t, o5 v. }

9 h5 P+ Z% l/ I5 p% mmatches方法试图根据此模式，对整个输入序列进行匹配。 : O- ^* C( l6 A0 |# c. i# g5 y
lookingAt方法试图根据此模式，从开始处对输入序列进行匹配。
: ~3 H: E  B4 ~& Q( \+ }8 W1 Lfind方法将扫描输入序列，寻找下一个与模式匹配的地方。 8 o- U- k  [( K  T  S: }

' ]1 r3 V( O( ?这些方法都会返回一个表示成功或失败的布尔值。如果匹配成功，通过查询匹配器的状态，可以获得更多的信息( k+ J+ f* m2 q7 Z" k3 p8 _3 p* d

. `1 ^! X/ u( T! Z' c. j这个类还定义了用新字符串替换匹配序列的方法，这些字符串的内容如果需要的话，可以从匹配结果推算得出。
' m  K; V" F- h: m5 P" n% n, I1 |
" f- w% [0 j( j: c/ x7 zappendReplacement方法先添加字符串中从当前位置到下一个匹配位置之间的所有字符，然后添加替换值。appendTail添加的是字符串中从最后一次匹配的位置之后开始，直到结尾的部分。
% i) v3 c7 s( R8 Q9 Q; K
) ^- ~/ [2 q" ^- t4 y3 q9 T- |* ^例如，在字符串blahcatblahcatblah中，第一个 appendReplacement添加blahdog。第二个 appendReplacement添加blahdog，然后 appendTail添加blah，就生成了： blahdogblahdogblah。请参见示例简单的单词替换。! U0 ]8 J& F4 D1 E2 z( r
1 O5 Y3 P# L# K' _; b" }$ A6 j
CharSequence接口$ z2 L: X- E3 i' }4 J! R( }
5 `9 \$ j8 F" I: V- ?6 c
CharSequence接口为许多不同类型的字符序列提供了统一的只读访问。你提供要从不同来源搜索的数据。用String, StringBuffer 和CharBuffer实现CharSequence,，这样就可以很容易地从它们那里获得要搜索的数据。如果这些可用数据源没一个合适的，你可以通过实现CharSequence接口，编写你自己的输入源。
& G6 Q% j0 l/ Y4 D6 V# L! ]3 K1 g" X, Y6 B" |' q5 X- d
Regex情景范例1 l/ r0 R. r3 E0 I; ~

+ v+ C4 }1 O/ n0 r以下代码范例演示了java.util.regex软件包在各种常见情形下的用法：6 |/ m8 s) `2 X' W6 l' O4 h/ x
; C2 t6 L- `3 q6 B
简单的单词替换
3 Z# B8 y0 F  r! g: x, W
6 n* P  o) W0 w6 o4 ~$ `- U/*, `3 f$ ~0 `" U
* This code writes "One dog, two dogs in the yard."
4 l( ~/ ^  y. j8 U* to the standard-output stream:# g0 ]" P2 N4 p5 h. x0 b- U5 w
*/2 G) c2 \& i( f( Q/ k
import java.util.regex.*;+ m9 S' o: G' x( v- j' r0 M; r

7 C5 p/ S% `1 ~; i( [public class Replacement {. K  q) \6 m& ?; U9 M, M2 s
public static void main(String[] args)
8 n5 V3 r; T' {" u* ~    throws Exception {$ T9 l+ [! i) [2 ?/ Z, Q
// Create a pattern to match cat
' `+ N4 z4 I, f. L3 [" ePattern p = Pattern.compile("cat");
2 \. d* L8 k8 U% \/ b/ _// Create a matcher with an input string
1 n; H% ?2 E+ gMatcher m = p.matcher("one cat," +
6 {: K' _5 Y: M. M+ ^$ K    " two cats in the yard");8 o, p1 w  _$ L* i. l2 O7 M
StringBuffer sb = new StringBuffer();* A0 g+ P0 N' L- [& }
boolean result = m.find();# a- a- P4 {- ]. e4 n$ p2 ~+ p3 T
// Loop through and create a new String
, y; u( u$ C3 v// with the replacements
! Y2 V% Q* ^' q5 G5 @: awhile(result) {/ u' r. g8 F! `9 \% ]! U! Y! h$ J
m.appendReplacement(sb, "dog");( \. W9 V6 N& G& ~: |
result = m.find();
" Z2 l& ~( M4 @. O}1 W2 z/ F. j2 V/ J5 [
// Add the last segment of input to + R7 O/ }5 f! A2 D& ]! b' [
// the new String7 C& E7 F/ V: F0 f2 ~
m.appendTail(sb);
) V6 j2 X9 L( G. NSystem.out.println(sb.toString());
4 v, t) ~* J, ?$ t5 p$ @0 P. l}& @% S8 w2 N2 t: t( L  s
}
1 _+ Q4 B+ b' P5 E$ M: z5 {4 g* N% w7 W# t8 v; a2 v( \+ u- Y5 j
电子邮件确认) Q( D' t5 L' J
9 y% d  M* ^( r
以下代码是这样一个例子：你可以检查一些字符是不是一个电子邮件地址。它并不是一个完整的、适用于所有可能情形的电子邮件确认程序，但是可以在需要时加上它。7 n- W, d+ E8 C# q
" {3 r9 C2 p, r1 V: d
/*
2 ^( }7 ^. M& e* J3 }6 G1 C7 G* Checks for invalid characters& C5 D8 u3 Z9 y! B0 C" ?! V
* in email addresses- D+ t' Y* E% }$ d& U! Z3 C4 w6 V
*/( q' h! ]; V" \! I  E  ^
public class EmailValidation {2 W9 Y+ v4 L" A& l2 h  c2 g
public static void main(String[] args)
4 o# y- O4 ~2 A5 b          throws Exception {
* u& o# K- v$ ]0 |2 Y0 t
: \# C$ O& v# S1 M7 o; X( y3 gString input = "@sun.com";' a" b# q  J% d; W
//Checks for email addresses starting with
/ `& q& ]" {! f; r1 ?+ `//inappropriate symbols like dots or @ signs.+ t3 m% @" C+ O7 r. ?0 H
Pattern p = Pattern.compile("^\\.|^\\@");
' k  k* S& X7 l0 sMatcher m = p.matcher(input);) ]0 f4 N( x: g/ p* e5 T7 X' z
if (m.find()), D8 [  S) p' K7 n# @: J& [
System.err.println("Email addresses don't start" +! H. k4 k! }4 e) G( I, b
      " with dots or @ signs.");
% i5 p7 F$ C8 V) ?& A+ G8 {//Checks for email addresses that start with0 x$ p4 a" z; l2 ?2 w* u0 c2 N
//www. and prints a message if it does." C" V' F  {- R5 c8 u% L
p = Pattern.compile("^www\\.");
7 Y' \5 G/ g& g8 h# M0 zm = p.matcher(input);% a; a  w6 {" z4 L: M
if (m.find()) {6 m( _$ n$ k# [  q( f
System.out.println("Email addresses don't start" +3 e- X8 Q) j4 T5 |' X
" with \"www.\", only web pages do.");
9 k  k+ ^! g' T: k4 A5 C}
- _5 y+ j# w0 v* w; Y" X+ e  jp = Pattern.compile("[^A-Za-z0-9\\.\\@_\\-~#]+");
4 a6 _2 F8 _$ o% @& `9 km = p.matcher(input);3 @& p6 ]. j# P
StringBuffer sb = new StringBuffer();
& d& p$ E7 D4 W: s3 v$ yboolean result = m.find();/ r2 j/ W# ]6 T2 x' a) d
boolean deletedIllegalChars = false;2 U% p* {2 ]5 `6 d$ n' [9 e0 Y
7 L; f% M5 e' x& [9 _+ Y3 z1 p: T* @
while(result) {% t1 e( z1 h, T+ F6 \0 e) j5 w+ [0 J
deletedIllegalChars = true;
8 I/ J& X, L' qm.appendReplacement(sb, "");2 o) k9 f% U5 I2 n2 L& f+ G. s9 q
result = m.find();( L% }+ T# i, i5 F
}
: m1 v, G  o2 n, a$ P4 q% k4 c6 X* Q; H
// Add the last segment of input to the new String8 O7 [: S* [0 l# U: {0 x
m.appendTail(sb);$ N& I- p5 J1 C; J

# b2 s1 ]) ]7 ~% [7 J; Dinput = sb.toString();
- ]! o( s- D6 w( K9 \
, {$ @- i6 j1 I! ^+ }9 ^9 D" u+ Oif (deletedIllegalChars) {3 M' n* i( U* F0 h
System.out.println("It contained incorrect characters" +. Z3 m/ s! D% X/ `0 E: `0 _% C  Z- d
   " , such as spaces or commas.");* E1 v# M& `6 K4 S& d
}
5 a5 n, C5 o. P3 X% n}
$ |3 ?! k( Z; }# W8 z6 ]}
$ Z3 ?: m/ w% Y" m
8 v6 E' J5 I9 \' S4 U6 u, b从文件中删除控制字符
( ^4 R1 ]# i3 G1 ?- {7 O$ t1 B0 b+ n, E$ b6 C+ V7 U
/* This class removes control characters from a named
! Y3 M# I5 O' a* file.8 q% K8 R. R2 _. Z. Y1 d/ U9 ~
*/
8 K8 r9 d8 i; f- V/ T' y. Qimport java.util.regex.*;
! D( ~; {% X" b. L7 ]. ]5 `import java.io.*;
, E' l, C$ i  s! D: ?6 i
' j: }- S: {, ~( L6 \6 g! R1 tpublic class Control {
) m2 e" d/ R/ m/ h) v+ s: N/ R; ?public static void main(String[] args) ' U4 G, a4 ^$ ^1 b7 }
         throws Exception {: G6 G/ \0 W& K0 D* q+ S

. }# n/ M3 H6 R6 c//Create a file object with the file name5 g3 d' c% J- L2 m/ n1 T
//in the argument:  D. ~9 P9 j& @7 }: _
File fin = new File("fileName1");
- L5 H1 l9 ^# TFile fout = new File("fileName2");
2 h' M$ \6 x; j$ S//Open and input and output stream
$ ?+ `) ?$ `& }3 F  sFileInputStream fis = 7 r; J! R  U8 c, U& Y6 e% a; p
   new FileInputStream(fin);- W: Z, S! J* c( O/ i% ?
FileOutputStream fos = 7 M' I1 u& @$ L
   new FileOutputStream(fout);
" N6 J1 u- g0 ?: m# b7 }2 p( m1 l7 s7 v' l4 A% Q
BufferedReader in = new BufferedReader(
( x0 M$ L1 H& Z    new InputStreamReader(fis));  L) k- E* y5 d- X. t
BufferedWriter out = new BufferedWriter(8 D0 }0 X; A: O" ?) k
   new OutputStreamWriter(fos));& R2 {  Z6 y, V  c  W

0 g% E( [* k2 W7 L// The pattern matches control characters/ K) a; M/ p  ?, U& M
Pattern p = Pattern.compile("{cntrl}");
% Z3 k8 s( q: aMatcher m = p.matcher("");7 n' |) \; }# b& |6 A, a2 T
String aLine = null;
0 [1 ~( s1 c0 _* gwhile((aLine = in.readLine()) != null) {- ~# ^( {; _4 L3 a2 R
m.reset(aLine);
0 W- B7 m- t% u5 X9 ~7 o+ W. h//Replaces control characters with an empty9 `  N0 W+ F6 D2 j  S
//string.
8 a! W- T# m6 z! I6 }/ TString result = m.replaceAll("");* O' v! _1 x7 p
out.write(result);
  J+ V  o. E2 |0 X$ Y4 Rout.newLine();
2 V/ |3 o0 K- X8 r- n( F}" r4 X1 h4 g: Z, n( J
in.close();2 P- @6 x" a" }; K
out.close();
- `2 V5 F% L% v! B5 N% f}
8 x. _& r( T$ i# H}
+ k* h1 x5 ~1 p7 \4 |+ f3 I1 z/ u8 j9 j' A' _( p: T; k3 j$ C
文件查找
6 B6 y  t* J) [
9 X4 f1 u6 |- ]5 v4 q/*
  S* ]9 X$ W/ d! l& @* Prints out the comments found in a .java file.
; p" R- ~: M, C*/  {4 Z% D  x/ t7 L% F7 W; C
import java.util.regex.*;
0 o, x4 {5 B" n5 S# k4 C0 w+ uimport java.io.*;7 A8 ~3 t- _# V% O" N
import java.nio.*;
4 D3 K+ V; u: ^1 Y; nimport java.nio.charset.*;
/ B2 _- s0 f1 }% m4 X+ aimport java.nio.channels.*;
8 r* A. Y& b- Q6 u; `* Y8 y+ Y1 @9 t% g* w2 e, Z$ V; C6 q
public class CharBufferExample {9 j7 n/ ?& S, D! J/ |1 Y2 z
public static void main(String[] args) throws Exception {6 w' {1 F& u# k' \( n/ g% `( i
// Create a pattern to match comments
( Z3 K& ^0 x/ z& k8 w% HPattern p = 1 ~% a  R2 h- j+ R
Pattern.compile("//.*$", Pattern.MULTILINE);
; K0 H+ D: y' P' Q& d8 x& r; I( ~  ^- |% }3 m6 Q2 D* z* }
// Get a Channel for the source file
  q% e; P# F4 KFile f = new File("Replacement.java");
2 ?2 Y% n0 v2 J3 I% ]' SFileInputStream fis = new FileInputStream(f);# W1 I1 J/ ~% }" t! K' w8 q* Y
FileChannel fc = fis.getChannel();
) X0 ~) F( W; ]: U  s# Q
2 r; o; ?/ n2 z7 \// Get a CharBuffer from the source file
$ o1 X+ ^4 U" \( B( ^9 H# [ByteBuffer bb = " P8 z" O* ~& V  f4 m; `
fc.map(FileChannel.MAP_RO, 0, (int)fc.size());( i7 ~2 U, T, Z9 ?$ E5 T
Charset cs = Charset.forName("8859_1");
" `6 T* N* v3 d0 xCharsetDecoder cd = cs.newDecoder();
+ X5 O2 p1 e6 a+ z; [: CCharBuffer cb = cd.decode(bb);
; L, a3 f- k, g  B
. m4 K$ ]. f" X( Q( H/ i// Run some matches% B8 D7 [& e1 O- m& a7 Q
Matcher m = p.matcher(cb);7 H% s# j$ c: @$ e, c7 g, l1 S2 T
while (m.find())1 B; B' y5 V* ]4 E% L
System.out.println("Found comment: "+m.group());/ p" F) q3 y1 A/ q# y: @- C& h. G$ k
}
* Z4 ~! s6 J1 W9 f2 ^% }}, s0 e: Y% J& k2 e% @+ s; c
  y( G; e3 }; @8 ~1 M- l) ~. H
结论5 Y3 M5 H* G( f) B- e# |" ^
现在Java编程语言中的模式匹配和许多其他编程语言一样灵活了。可以在应用程序中使用正则表达式，确保数据在输入数据库或发送给应用程序其他部分之前，格式是正确的，正则表达式还可以用于各种各样的管理性工作。简而言之，在Java编程中，可以在任何需要模式匹配的地方使用正则表达式。
2 b; N  T9 X; Z, M
1 m2 ]9 z$ l! s6 }# T$ pJDK1.4之正規表示式0 f" r) ^& g8 `
written by william chen(06/19/2002)
6 |" \  L/ i/ ^3 c- x7 @" L; y% H! y1 R4 k4 M. k
--------------------------------------------------------------------------------! O* L4 f: W* G/ d8 H1 C

4 o* `7 t# e' G9 E0 c什麼是正規表示式呢(Reqular Expressions)* S" A. ?* Z2 w/ G
% l& ^! ~8 u6 o6 {
就是針對檔案、字串，透過一種很特別的表示式來作search與replace+ m! d5 g! B- J* L

% \2 a4 b7 x4 Z& L% g因為在unix上有很多系統設定都是存放在文字檔中，因此網管或程式設計常常需要作搜尋與取代
, m" o: P$ ~( E
3 V4 s: m) ^0 `7 V2 {所以發展出一種特殊的命令叫做正規表示式  p! v+ Y9 D) d4 {. v
6 Q& b  O' z# F# Z$ g% z/ z3 [
我們可以很簡單的用 "s/2 \* H  e, W) X) }7 m' z
因此jdk1.4提供了一組正規表示式的package供大家使用
& ?9 X9 o- ~: M6 e* l$ J; l; ~- t" A! L. u) q$ S( ^
若是jdk1.4以下的可以到http://jakarta.apache.org/oro取得相關功能的package' H$ ]" O, b+ b; O) G8 P- C

* ?# F6 x6 e3 |, r+ c! M1 x剛剛列出的一串符號" s/
, f& w' h* ^" R* i" ~適用於j2sdk1.4的正規語法* h/ M# h9 H- q' \; ~: N  C

9 e# i( e. C3 K7 z4 k+ y"." 代表任何字元* r8 b" \9 `* Y2 l$ s  P

5 l# @5 M9 }. l& {! C3 c% C正規式原字串符合之字串 0 M- n6 U  Q* d
. ab a ; y$ k! z. `+ C' i0 a9 f
.. abc ab 5 m" [" T5 Y- Q1 z

. Y5 Y2 z( A) ~2 d"+" 代表一個或以個以上的字元
"*" 代表零個或是零個以上的字元" _* H7 h3 [2 z+ P

: b0 a! u  D; p! |2 y) ~正規式原字串符合之字串
! ~% \0 \/ p! b/ H. [+ ab ab % U4 z3 m! u! e+ j- I1 Q( m0 }
* abc abc 5 k" {  T! x: e# ]1 ~

% k/ X" k1 W0 Q"( )"群組
5 B% `" [6 i$ _, l1 T- J- B6 N. }" r9 \, ~& o2 l
正規式原字串符合之字串
  f# E! f$ I$ w- N6 U3 Y/ e(ab)* aabab abab
# |0 M: e2 ?: C( i8 ?' s- y( j
" c. C9 ^* M1 a4 @8 ^4 @. ?字元類
1 r3 P; U6 l! `$ B) c% Q$ v2 ~" r# V, R, X# Y
正規式原字串符合之字串
: L1 F. h" X& t. a[a-dA-D0-9]* abczA0 abcA0 0 d( l5 L5 {. q7 q+ G$ M$ |
[^a-d]* abe0 e0 0 y* _8 ]  ^2 X" W+ D. }' l
[a-d]* abcdefgh abab 1 i6 x  Q$ {: G1 Q" K" f" Y
7 b( y, {1 Q& o( t- E# J8 h
6 R0 g  @4 v7 D7 ?+ {
簡式
: ~+ T( A+ ~9 M! w; R  Q
* p4 b) @1 F3 J  |\d 等於 [0-9] 數字 ) D6 z/ u' M, T
\D 等於 [^0-9] 非數字 0 @# A* r- o0 Y
\s 等於 [ \t\n\x0B\f\r] 空白字元 , N8 f: Q; @% X  `3 |& H/ z0 f
\S 等於 [^ \t\n\x0B\f\r] 非空白字元
9 A1 m. s9 T1 m\w 等於 [a-zA-Z_0-9] 數字或是英文字
( e2 w9 k  T! r0 c4 \7 Z\W 等於 [^a-zA-Z_0-9] 非數字與英文字 ; |! S# d, c" j3 o* {1 a' ~8 u) D
! o6 P) i; {8 r+ I3 ~7 v
每一行的開頭或結尾2 u( A, N7 {- E% F. k6 m6 N

' {5 y( Z- P. ~/ F/ v% M^ 表示每行的開頭
; e) B; {. F3 ~4 I+ i! k1 V# l2 O$ 表示每行的結尾
+ P3 V: N, O7 ]3 e! J
: A" l- D0 D1 l& ?7 |--------------------------------------------------------------------------------
* R- Y# {2 ]+ C9 ~! k8 x$ j6 g, m: K5 q6 o2 }
正規表示式 java.util.regex 相關的類別
( P. [8 {: y1 H) s6 M5 r
8 l3 ?2 c5 t4 M5 sPattern—正規表示式的類別
+ E- n3 ]* N6 s. FMatcher—經過正規化的結果
( `0 k( T- Q3 oPatternSyntaxExpression—Exception thrown while attempting to compile a regular expression
8 C! `" j$ O1 j# z) p
  u4 y* D% T4 L範例1: 將字串中所有符合"<"的字元取代成"lt;"# `% F5 {) N; M, S7 ^1 }8 {% X
8 o0 ~- P0 ?  H4 U0 `
import java.io.*;) y* D. ~9 d8 ~: g3 ?
import java.util.regex.*;' A* g4 f# X# e! `
/**" O# }4 D( r: b/ ^( D
* 將字串中所有符合"<"的字元取代成"lt;"
: ]' M# s$ x1 s8 c! N! M+ E*/
  v! l# z: A) a) E- A" k$ [/ ]  upublic static void replace01(){
6 q: `) ~/ g# _, t) ?// BufferedReader lets us read line-by-line
; F  c& T, R3 O" F1 ?Reader r = new InputStreamReader( System.in );
# U7 G, ~+ }' g. A! ]' oBufferedReader br = new BufferedReader( r );
2 u& F1 w* k& P' J, ^  Z( l* QPattern pattern = Pattern.compile( "<" ); // 搜尋某字串所有符合'<'的字元
' G7 m$ n4 R+ q; Y, x) Jtry{
4 r" a$ D5 h, J: \, M9 mwhile (true) {
  Z% v& K* |$ x8 q# ~, pString line = br.readLine();
& l* {! ^0 v3 W& G! X: ^// Null line means input is exhausted
& [; D5 v0 u! f. X1 J0 O8 a6 p3 o5 eif (line==null)( t4 [+ A$ Z* ]+ T2 X# y
break;' `& _3 v7 q6 l# a. P$ _
Matcher a = pattern.matcher(line);% R- I5 ]; H, t
while(a.find()){
& J4 h+ f( A( b8 x+ DSystem.out.println("搜尋到的字元是" + a.group());
- e; r) }. J7 f0 ~}- ~) E+ b5 \/ w6 d: t
System.out.println(a.replaceAll("lt;"));// 將所有符合字元取代成lt;
5 M/ N' n0 f7 X- _! G8 B, ?}
, u7 e( P8 P2 j3 l  O}catch(Exception ex){ex.printStackTrace();};! `2 n( K% ^: V4 T/ U0 a- ]
}- E. `1 _, G% V/ v
( `- k9 E6 C. a1 T0 c' D; {
範例2:
" {# `( v( n2 ?2 [" f
. Q/ t" d# ?5 }. Limport java.io.*;0 X6 t5 s% O* G+ s; C. H% d4 P
import java.util.regex.*;
2 @7 M5 L) j1 V5 }" G/**; F, X0 p/ D' ~) I- z- f4 [
* 類似StringTokenizer的功能
; f+ @- }, ?  H9 u# }, G. p8 w* 將字串以","分隔然後比對哪個token最長; Q3 R4 H- \# G9 L
*/
# Z1 ]3 M; X9 d6 upublic static void search01(){6 W  {# l* b( ^: |, `7 g
// BufferedReader lets us read line-by-line
0 a$ d1 K2 e# }  K6 IReader r = new InputStreamReader( System.in );
9 K$ ?8 e) d3 v8 j1 S1 oBufferedReader br = new BufferedReader( r );
  }' F7 [2 c, v# k+ F; P  mPattern pattern = Pattern.compile( ",\\s*" );// 搜尋某字串所有","的字元
) T4 E; O9 r, e- S8 ltry{
7 d- ?4 E' h1 ?5 m+ `while (true) {
) s" V' L" F1 W2 }3 JString line = br.readLine();
3 }* I) O- h% Q, h- n% a5 }String words[] = pattern.split(line);/ h* p& _% s. p) z
// Null line means input is exhausted8 C! J, A; y6 x6 K) w! P! L
if (line==null)0 h2 a6 T8 `3 F. A; _
break;
7 ~3 }( L( q, t  W8 ^, J6 b9 a9 A+ z// -1 means we haven't found a word yet4 A& _( N- H! v) o: A5 J
int longest=-1;
- ?( s: J- w% n$ q, M; N6 x3 Iint longestLength=0;
; B% M3 H# ^+ N" ffor (int i=0; iSystem.out.println("分段:" + words );& x+ H& [* g+ S: P2 z1 A* d' i
if (words.length() > longestLength) {# U- T' Q) C# t" e: y' q
longest = i;2 j, z3 ^3 o0 O! t: o2 \
longestLength = words.length();
( r# y4 X& ]$ @  {0 }0 F! _}# m1 x1 V: l$ R7 `" ^; P
}4 S8 |; |- G4 @; |' K$ [
System.out.println( "長度最長為:" + words[longest] );( K! n" \& N# R
}- a% x- a. W  t: l- N
}catch(Exception ex){ex.printStackTrace();};2 }3 b8 d" Q' S0 C/ L; W* U# E3 Z
}
4 J9 k2 _5 h; ~8 o% F% ^
! o* G9 h. ^! K4 `! V) V3 V8 d--------------------------------------------------------------------------------
6 F4 k9 l( A7 z* e, f" \/ l3 T8 h8 Y% p$ K& ]
其他的正規語法
& s: n+ y9 O3 J1 [' D0 n5 C
/ }9 `" x9 m  j8 L/^\s* # 忽略每行開始的空白字元5 t1 ~# C+ y3 L( s7 z8 N
(M(s|r|rs)\.) # 符合 Ms., Mrs., and Mr. (titles)