查看: 486|回复: 1

关于正则表达式---ZT [复制链接]

Longe

管理员

论坛测试[砖]家

Rank: 12

威望: 9084
在线时间: 1242 小时
金币: 6988
贡献: 300
存款: 1660001
最后登录: 2026-5-10
注册时间: 2006-5-10
帖子: 1841
精华: 6
积分: 15416
阅读权限: 200
UID: 10

电梯直达

1楼

发表于 2009-11-9 13:04:38 |只看该作者 |倒序浏览

第一部分：
-----------------
正则表达式(REs)通常被错误地认为是只有少数人理解的一种神秘语言。在表面上它们确实看起来杂乱无章，如果你不知道它的语法，那么它的代码在你眼里只是一堆文字垃圾而已。实际上，正则表达式是非常简单并且可以被理解。读完这篇文章后，你将会通晓正则表达式的通用语法。

支持多种平台

正则表达式最早是由数学家Stephen Kleene于1956年提出，他是在对自然语言的递增研究成果的基础上提出来的。具有完整语法的正则表达式使用在字符的格式匹配方面上，后来被应用到熔融信息技术领域。自从那时起，正则表达式经过几个时期的发展，现在的标准已经被ISO(国际标准组织)批准和被Open Group组织认定。

正则表达式并非一门专用语言，但它可用于在一个文件或字符里查找和替代文本的一种标准。它具有两种标准：基本的正则表达式(BRE)，扩展的正则表达式(ERE)。ERE包括BRE功能和另外其它的概念。

许多程序中都使用了正则表达式，包括xsh,egrep,sed,vi以及在UNIX平台下的程序。它们可以被很多语言采纳，如HTML 和XML，这些采纳通常只是整个标准的一个子集。

比你想象的还要普通
随着正则表达式移植到交叉平台的程序语言的发展，这的功能也日益完整，使用也逐渐广泛。网络上的搜索引擎使用它，e-mail程序也使用它，即使你不是一个UNIX程序员，你也可以使用规则语言来简化你的程序而缩短你的开发时间。

正则表达式101
很多正则表达式的语法看起来很相似，这是因为你以前你没有研究过它们。通配符是RE的一个结构类型，即重复操作。让我们先看一看ERE标准的最通用的基本语法类型。为了能够提供具有特定用途的范例，我将使用几个不同的程序。

第二部分：
----------------------
字符匹配

正则表达式的关键之处在于确定你要搜索匹配的东西，如果没有这一概念，Res将毫无用处。

每一个表达式都包含需要查找的指令，如表A所示。

Table A: Character-matching regular expressions
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
.
Match any one character
grep .ord sample.txt
Will match “ford”, “lord”, “2ord”, etc. in the file sample.txt.
-----------------
[ ]
Match any one character listed between the brackets
grep [cng]ord sample.txt
Will match only “cord”, “nord”, and “gord”
---------------------
[^ ]
Match any one character not listed between the brackets

grep [^cn]ord sample.txt
Will match “lord”, “2ord”, etc. but not “cord” or “nord”

grep [a-zA-Z]ord sample.txt
Will match “aord”, “bord”, “Aord”, “Bord”, etc.

grep [^0-9]ord sample.txt
Will match “Aord”, “aord”, etc. but not “2ord”, etc.

重复操作符
重复操作符，或数量词，都描述了查找一个特定字符的次数。它们常被用于字符匹配语法以查找多行的字符，可参见表B。

Table B: Regular expression repetition operators
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
?
Match any character one time, if it exists
egrep “?erd” sample.txt
Will match “berd”, “herd”, etc. and “erd”
------------------
*
Match declared element multiple times, if it exists
egrep “n.*rd” sample.txt
Will match “nerd”, “nrd”, “neard”, etc.
-------------------
+
Match declared element one or more times
egrep “[n]+erd” sample.txt
Will match “nerd”, “nnerd”, etc., but not “erd”
--------------------
{n}
Match declared element exactly n times
egrep “[a-z]{2}erd” sample.txt
Will match “cherd”, “blerd”, etc. but not “nerd”, “erd”, “buzzerd”, etc.
------------------------
{n,}
Match declared element at least n times
egrep “.{2,}erd” sample.txt
Will match “cherd” and “buzzerd”, but not “nerd”
------------------------
{n,N}
Match declared element at least n times, but not more than N times
egrep “n[e]{1,2}rd” sample.txt
Will match “nerd” and “neerd”

第三部分：
----------------
锚
锚是指它所要匹配的格式，如图C所示。使用它能方便你查找通用字符的合并。例如，我用vi行编辑器命令:s来代表substitute，这一命令的基本语法是：

s/pattern_to_match/pattern_to_substitute/

Table C: Regular expression anchors
-------------
操作
解释
例子
结果
---------------
^
Match at the beginning of a line
s/^/blah /
Inserts “blah “ at the beginning of the line
---------------
$
Match at the end of a line
s/$/ blah/
Inserts “ blah” at the end of the line
---------------
\<
Match at the beginning of a word
s/\Inserts “blah” at the beginning of the word

egrep “\Matches “blahfield”, etc.
------------------
\>
Match at the end of a word
s/\>/blah/
Inserts “blah” at the end of the word

egrep “\>blah” sample.txt
Matches “soupblah”, etc.
---------------
\b
Match at the beginning or end of a word
egrep “\bblah” sample.txt
Matches “blahcake” and “countblah”
-----------------
\B
Match in the middle of a word
egrep “\Bblah” sample.txt
Matches “sublahper”, etc.

间隔

Res中的另一可便之处是间隔(或插入)符号。实际上，这一符号相当于一个OR语句并代表|符号。下面的语句返回文件sample.txt中的“nerd” 和 “merd”的句柄：

egrep “(n|m)erd” sample.txt

间隔功能非常强大，特别是当你寻找文件不同拼写的时候，但你可以在下面的例子得到相同的结果：

egrep “[nm]erd” sample.txt

当你使用间隔功能与Res的高级特性连接在一起时，它的真正用处更能体现出来。

第四部分：
----------------
一些保留字符
Res的最后一个最重要特性是保留字符(也称特定字符)。例如，如果你想要查找“ne*rd”和“ni*rd”的字符，格式匹配语句“n[ei]*rd”与“neeeeerd” 和 “nieieierd”相符合，但并不是你要查找的字符。因为‘*’(星号)是个保留字符，你必须用一个反斜线符号来替代它，即：“n[ei]\*rd”。其它的保留字符包括：

^ (carat)
. (period)
[ (left bracket}
$ (dollar sign)
( (left parenthesis)
) (right parenthesis)
| (pipe)
* (asterisk)
+ (plus symbol)
? (question mark)
{ (left curly bracket, or left brace)
\ backslash
一旦你把以上这些字符包括在你的字符搜索中，毫无疑问Res变得非常的难读。比如说以下的PHP中的eregi搜索引擎代码就很难读了。

eregi("^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$",$sendto)

你可以看到，程序的意图很难把握。但如果你抛开保留字符，你常常会错误地理解代码的意思。

总结
在本文中，我们揭开了正则表达式的神秘面纱，并列出了ERE标准的通用语法。如果你想阅览Open Group组织的规则的完整描述，你可以参见：Regular Expressions，欢迎你在其中的讨论区发表你的问题或观点。

另外一篇文章
----------------------------------------
正则表达式和Java编程语言
-----------------------------------------
类和方法

下面的类根据正则表达式指定的模式，与字符序列进行匹配。

Pattern类

Pattern类的实例表示以字符串形式指定的正则表达式，其语法类似于Perl所用的语法。

用字符串形式指定的正则表达式，必须先编译成Pattern类的实例。生成的模式用于创建Matcher对象，它根据正则表达式与任意字符序列进行匹配。多个匹配器可以共享一个模式，因为它是非专属的。

用compile方法把给定的正则表达式编译成模式，然后用 matcher方法创建一个匹配器，这个匹配器将根据此模式对给定输入进行匹配。pattern 方法可返回编译这个模式所用的正则表达式。

split方法是一种方便的方法，它在与此模式匹配的位置将给定输入序列切分开。下面的例子演示了：

/*
* 用split对以逗号和/或空格分隔的输入字符串进行切分。
*/
import java.util.regex.*;

public class Splitter {
public static void main(String[] args) throws Exception {
// Create a pattern to match breaks
Pattern p = Pattern.compile("[,\\s]+");
// Split input with the pattern
String[] result =
p.split("one,two, three four , five");
for (int i=0; iSystem.out.println(result);; L2 w2 ?* |( K
}
9 A. l, u; g, s0 m4 A4 P" _7 ]0 }% k}
" U# O" U9 f+ R$ t+ Y
# O" S& j. @0 j, l# Z0 LMatcher类
- j% e$ T' S1 E4 p( Y5 G( h1 O: i: G+ A; h" N1 \! ~# l% [
Matcher类的实例用于根据给定的字符串序列模式，对字符序列进行匹配。使用CharSequence接口把输入提供给匹配器，以便支持来自多种多样输入源的字符的匹配。- R4 \5 T( W( A  {! V

" b0 Z* G' V7 P5 X通过调用某个模式的matcher方法，从这个模式生成匹配器。匹配器创建之后，就可以用它来执行三类不同的匹配操作：+ B9 j- ~3 F4 E! ]" {
2 x  u) {: n( L
matches方法试图根据此模式，对整个输入序列进行匹配。 0 `6 I/ X9 l% q6 q1 F, E
lookingAt方法试图根据此模式，从开始处对输入序列进行匹配。 & f# c9 @6 y# C- S
find方法将扫描输入序列，寻找下一个与模式匹配的地方。
) F+ e+ B" O; Z) G4 V+ l% q
! |) H1 k$ Q/ f4 j: m这些方法都会返回一个表示成功或失败的布尔值。如果匹配成功，通过查询匹配器的状态，可以获得更多的信息1 H( h0 l: x" }! }: b* p9 k
, G( b  }, f' _* }" m
这个类还定义了用新字符串替换匹配序列的方法，这些字符串的内容如果需要的话，可以从匹配结果推算得出。
" Z  m6 N5 X* s3 N7 \8 E5 g: R( Z4 M) ?* m+ U& ?
appendReplacement方法先添加字符串中从当前位置到下一个匹配位置之间的所有字符，然后添加替换值。appendTail添加的是字符串中从最后一次匹配的位置之后开始，直到结尾的部分。# Y  a% W* O8 I/ C! I. J5 f( J+ L$ {

- H6 T4 n. I7 b1 l7 ^' a! `例如，在字符串blahcatblahcatblah中，第一个 appendReplacement添加blahdog。第二个 appendReplacement添加blahdog，然后 appendTail添加blah，就生成了： blahdogblahdogblah。请参见示例简单的单词替换。& ?  B& F% j$ Y& K- y5 H

9 g' r0 L0 x! `* sCharSequence接口
/ j3 z6 {% K1 }8 N7 R/ E
5 u: _; G. V2 W+ l& O/ wCharSequence接口为许多不同类型的字符序列提供了统一的只读访问。你提供要从不同来源搜索的数据。用String, StringBuffer 和CharBuffer实现CharSequence,，这样就可以很容易地从它们那里获得要搜索的数据。如果这些可用数据源没一个合适的，你可以通过实现CharSequence接口，编写你自己的输入源。
0 c9 a$ s% U' X- Y2 W3 _; M7 Y& K& w8 E! W5 H
Regex情景范例; K& v3 s8 K- T* [4 i$ t. i! m

. q3 |2 M2 z! @以下代码范例演示了java.util.regex软件包在各种常见情形下的用法：
( W' |, w! G! u4 F& @% s
5 F- m! @* B" v4 L$ x$ }简单的单词替换0 y3 W; u% H: r1 x( Z( u
% Q( i1 y! E1 d+ C6 C
/*
" N# `8 i$ ]3 _5 q+ G; E* This code writes "One dog, two dogs in the yard."
5 ?  B2 j4 y# k: s8 N* to the standard-output stream:# x' d4 I, N) t  N
*/8 S7 a" P; C9 {" r& b# U+ q, O* s' _- e
import java.util.regex.*;$ b# S1 A2 x- j+ _3 K, l

* t  E4 Q+ l+ n2 [; Upublic class Replacement {
- P9 u9 }* [0 i1 [8 k8 Q, w- xpublic static void main(String[] args) ; A. ], b6 m, y7 z- U
   throws Exception {
/ M: D% ~* ^& r5 j# T8 _// Create a pattern to match cat0 D: U4 D) o, L" c' u* b- W
Pattern p = Pattern.compile("cat");
* A" p  s# `* n; C+ M( Q" [& S// Create a matcher with an input string
* r* R+ }1 l2 v# N- t0 gMatcher m = p.matcher("one cat," +7 ]* e* N6 {9 u! P2 E
   " two cats in the yard");, _$ M6 t% `0 y8 O
StringBuffer sb = new StringBuffer();1 C7 f# v; d1 \; }0 w! G. D8 F5 d
boolean result = m.find();- }3 g% j) l6 T- F1 S# c8 f
// Loop through and create a new String
0 m/ B# x8 G$ V. }/ {; ~// with the replacements
  x( B) O$ v/ j) A4 f* u6 H5 pwhile(result) {
4 K$ u. B# j0 S0 \' u1 Im.appendReplacement(sb, "dog");7 f7 b9 F0 V/ R# U0 C7 Z
result = m.find();
6 ?9 h- _1 C9 a4 E" V; t}
9 s! z2 \: T% F9 H: Y// Add the last segment of input to + g0 N7 A; i4 T5 }3 E7 _% H  K9 Q
// the new String. o4 M2 {( Z4 @1 F  R. w0 y
m.appendTail(sb);
4 c; T" r6 n2 _: qSystem.out.println(sb.toString());5 j7 F7 M' s/ u5 k/ h8 l
}( Z8 ~* s4 P- r* @+ h6 c
}. J& ^( y/ q! Z: k2 l0 \: R3 o
; M/ H( Q: R) w0 S: q9 O* u  S
电子邮件确认
* p: T. C7 y* B% Y' }  T5 v; o0 }# c0 @3 U2 k
以下代码是这样一个例子：你可以检查一些字符是不是一个电子邮件地址。它并不是一个完整的、适用于所有可能情形的电子邮件确认程序，但是可以在需要时加上它。4 q5 s8 q+ F* k' X- d; Z, M* b
/ K- S! ]! C5 U! ~# A
/*
6 w0 S. _6 E4 u& T2 t! v$ g+ @* Checks for invalid characters
; h, H' S$ g" Z* in email addresses
' i( [  i3 m+ x# f: \*/
$ U/ E3 a+ J5 }7 f& jpublic class EmailValidation {1 e+ c6 E: Y% k$ S; o1 O
public static void main(String[] args) . H, A* }' z$ w% L) O
         throws Exception {
. A( G3 j+ Q4 S0 Y  F: J
7 G" p# p8 L9 y! H/ }1 pString input = "@sun.com";+ f7 S  c+ v- f! O* _
//Checks for email addresses starting with/ D+ H8 u' m+ d" U* @
//inappropriate symbols like dots or @ signs.! j/ _) H% J/ ]
Pattern p = Pattern.compile("^\\.|^\\@");0 D* _2 T3 b" W. ?+ _* o& _
Matcher m = p.matcher(input);1 Z8 n- [, u+ k( {3 g0 L# |. \
if (m.find())
8 C! G+ u; Y- G% t! o8 x1 [  G# JSystem.err.println("Email addresses don't start" +
* A' |  P* l* t" W       " with dots or @ signs.");
4 w  H* Q3 P9 i# d//Checks for email addresses that start with1 `) j0 U9 k/ v: c* R# j
//www. and prints a message if it does.( j' ?. Y7 b" G' P" J4 Y2 Q
p = Pattern.compile("^www\\.");9 `8 z: z8 a/ F  ]" G* ^$ C! l
m = p.matcher(input);! Q& [* v3 m. D9 ]7 ]- M
if (m.find()) {
% k1 r2 U& W: ~4 q3 J. OSystem.out.println("Email addresses don't start" +8 Y+ {$ g+ A9 z
" with \"www.\", only web pages do.");
2 j4 ~9 [- j3 A2 }; |}
2 b2 ]+ H8 o) S0 E( ~5 i% k+ Op = Pattern.compile("[^A-Za-z0-9\\.\\@_\\-~#]+");
" Z: @5 o2 V: N) {6 r% d+ Im = p.matcher(input);
- k7 D* ]2 ^- q* q" Z, D9 V  hStringBuffer sb = new StringBuffer();
, |7 j' q8 Z! G8 K: K9 b% Sboolean result = m.find();, s6 W' L6 n8 f8 G4 E
boolean deletedIllegalChars = false;
0 _4 c9 d; w& {8 f" ?, R* d* j. X- j! G3 n0 j
while(result) {7 c1 i9 H7 c) E( s
deletedIllegalChars = true;) ~! ?' p* `: {
m.appendReplacement(sb, "");& Z2 v  h1 A* k
result = m.find();
. j# E% K. w% f3 ^}2 B3 o; Y! T, j, g

; P5 H% j" a. M5 w. e// Add the last segment of input to the new String1 Y1 n$ Q9 V+ I
m.appendTail(sb);* {* y4 Z* a* F2 F8 ~

! U( J( d$ |% v+ V3 \$ T% @input = sb.toString();0 g8 b: d  b" V! l1 ?% M) }- N& T

* s' L+ ^- L4 M+ Z: rif (deletedIllegalChars) {
! H- f& U6 g6 o4 @  J) kSystem.out.println("It contained incorrect characters" +* o. S% U* k# z; v. j! D1 I, S
   " , such as spaces or commas.");
8 t7 C$ H2 t2 z; H5 T3 H}& W! {( ~& e: u1 S( X
}
6 S3 u$ G- z- E5 S6 a}' t- O/ m: K) E" Y) m' K
$ \8 B, S4 X$ f& N% s
从文件中删除控制字符
- a1 P# F/ i7 T4 n" f5 w( v2 z, [' e" w' D  L9 G& z( P
/* This class removes control characters from a named7 }1 A3 L8 s2 h/ m0 [  K
* file.
% v+ w/ H& M  X*/& Y$ Y3 e' ^6 h+ F" D$ e
import java.util.regex.*;
& Y0 Z; z4 t; j  d% Limport java.io.*;
6 b: b5 M9 u" ~! a6 @
, C' L: \; D6 e  mpublic class Control {
+ U$ w0 P- a! |public static void main(String[] args) * j" E1 _" Z9 p0 i- [# F6 e& T
         throws Exception {; F6 d3 [, V% w: B
         3 @& M  y) p( G8 `9 Z
//Create a file object with the file name! [, K9 e% b/ Z+ L( z6 t/ |$ `
//in the argument:7 c7 k' g9 v6 K; g. `& e) |0 L
File fin = new File("fileName1");
; ~( }! b+ S3 g# N& z$ D% P* Q, `File fout = new File("fileName2");, W; o0 |+ o" b% W8 {/ B
//Open and input and output stream
: O1 B9 [- x  s: ~) G# }FileInputStream fis = ! [' t1 k# Y7 ]5 a+ ~
   new FileInputStream(fin);1 K4 U1 a6 d  i1 Z$ |
FileOutputStream fos = 2 d( p, c% ?3 J" b! o6 D' K4 j0 z
   new FileOutputStream(fout);
3 l% M3 k6 N  Q4 R. \4 @5 u, |% k5 C$ W" J, s" j$ A
BufferedReader in = new BufferedReader(
; C' L  P: u; Y    new InputStreamReader(fis));  @7 N8 g; a2 S/ Y" c% x
BufferedWriter out = new BufferedWriter(7 Q1 J- Z% j, P2 Z2 x8 E
   new OutputStreamWriter(fos));) a0 b2 Y* i  _4 l5 v$ z

1 L( l3 z: p7 I9 K// The pattern matches control characters. K2 s+ O& H8 Q! m8 v( `7 v* @; v
Pattern p = Pattern.compile("{cntrl}");
. c  L* ]7 e2 f* {7 C! r8 r& c/ T# aMatcher m = p.matcher("");! M2 A9 Y6 \! j. l' [( C
String aLine = null;
% M9 e7 g' V: i5 Owhile((aLine = in.readLine()) != null) {3 w. D. {6 U7 ~3 x2 l; X$ c1 @0 [
m.reset(aLine);
2 g, [7 T5 |6 `4 t9 i! A8 @% I, Y//Replaces control characters with an empty
% h( t* x. w% f//string.* Y' H' L$ O5 Q! h6 @3 g$ L- l, b
String result = m.replaceAll("");
; C, w; Y8 R- c4 i8 mout.write(result);
1 u7 Z( l, G: _" M1 @- T! p3 Bout.newLine();
' x& M5 K0 R9 ?* Z}
9 |4 s: n1 U+ a& Q+ N9 Nin.close();
9 \$ ~2 S3 N) d/ I  i" r% u/ Vout.close();
3 J+ Y/ R2 b0 T7 J7 ~1 I/ {}
& P' G0 k1 E1 M' U3 K2 w; a( f}2 k! O* z* U0 b6 U" |

2 u, r- ^" x3 i% f8 r& r$ H文件查找
& C# F& ~: E+ P+ [4 n  ?, M. U9 Y3 b  C2 C. U  ~0 r8 @! p
/*: t5 Z2 b+ R, q( T' |* ^: M1 s& [
* Prints out the comments found in a .java file.0 u& B% l! z# s+ |! R3 [4 @
*/: R. J$ l) R% f1 i, w* T2 R
import java.util.regex.*;
$ q' h# x" Y0 d" B- a9 Wimport java.io.*;0 v( T$ I+ Y5 h, N9 T" W  `7 q
import java.nio.*;6 J7 O1 J: ^3 ^$ l
import java.nio.charset.*;# f, t  B. {' e+ x
import java.nio.channels.*;0 ]8 i8 h( o3 ?; s8 K! _, n
% `/ v% C" y2 e2 b5 k2 v" R
public class CharBufferExample {
( j+ K" Q8 t# z5 F0 Lpublic static void main(String[] args) throws Exception {
9 G9 \8 h7 I. M3 |( o# I( h// Create a pattern to match comments
+ U# J! F$ j' U$ R" qPattern p =
9 T4 o0 A: y5 B$ S+ l" NPattern.compile("//.*$", Pattern.MULTILINE);
  q' _9 q/ {& A6 N: }& _+ t
/ G8 i6 n# ], Y- d) s// Get a Channel for the source file% k" @9 M2 D5 v# e  f+ A7 E( F$ w/ x
File f = new File("Replacement.java");
2 J3 Z' n+ `- A0 B2 J/ mFileInputStream fis = new FileInputStream(f);7 X. Y9 z2 r4 k7 I" X
FileChannel fc = fis.getChannel();2 Q' d8 q. }. m2 s
5 D; _+ {% P' L4 U# {  G$ {% h
// Get a CharBuffer from the source file
" B/ z6 S/ d8 u9 e5 u+ eByteBuffer bb = : ~; s* `9 z% F# W& N" j& }
fc.map(FileChannel.MAP_RO, 0, (int)fc.size());
" m% H9 A  M) wCharset cs = Charset.forName("8859_1");' c  a) p6 n2 N" L
CharsetDecoder cd = cs.newDecoder();& C7 J# X9 a/ C2 C- |0 t
CharBuffer cb = cd.decode(bb);
2 [" W* W1 l0 h( O! \( z* V
9 I/ E4 Q9 E4 G' k  f( L0 h// Run some matches7 f& x& q" v/ Z* o8 T) C
Matcher m = p.matcher(cb);3 e# C( K( L: E0 w# |
while (m.find())
1 @3 B' v8 ^! PSystem.out.println("Found comment: "+m.group());
+ G: L/ y  s4 A# }* X7 R9 k}
+ f# r1 N& Z% }; o}2 k  s) I3 R- L( M; e4 d0 P& C

+ n8 W7 X+ B, s结论
3 g7 Y, X4 K  ]8 u3 O! G现在Java编程语言中的模式匹配和许多其他编程语言一样灵活了。可以在应用程序中使用正则表达式，确保数据在输入数据库或发送给应用程序其他部分之前，格式是正确的，正则表达式还可以用于各种各样的管理性工作。简而言之，在Java编程中，可以在任何需要模式匹配的地方使用正则表达式。 6 W. k( v) C' ~0 {, O+ ]

. [3 j0 T7 w5 S, Y4 ?JDK1.4之正規表示式
; k5 ^+ _4 a" }2 H$ {0 m$ Pwritten by william chen(06/19/2002)
& ^/ Z  P0 r/ J4 v8 _' V: z* V( e# f+ z" k9 h/ ^; r/ X4 Q) O
--------------------------------------------------------------------------------
% m. Q4 C. E1 j% k9 A8 r3 l+ f! ?; H$ z8 J4 S; P' R
什麼是正規表示式呢(Reqular Expressions)# w  C* B( i! O4 N% R' Y
7 z% }6 J. l! b% n6 Y$ E6 K
就是針對檔案、字串，透過一種很特別的表示式來作search與replace% z/ G2 A- Z% Z# d( P9 W/ a  I

7 L2 S) u8 t* B2 |2 G因為在unix上有很多系統設定都是存放在文字檔中，因此網管或程式設計常常需要作搜尋與取代
$ \5 L+ L- x0 n5 n, ?( D
: v7 I# t& [- p: L$ \/ B* p所以發展出一種特殊的命令叫做正規表示式
* q6 W; x: e" |# l# c* |  m; S
) \% J, e# r, k1 N我們可以很簡單的用 "s// ~6 G  s3 v2 R, |  Q3 Q; U$ \2 I2 l
因此jdk1.4提供了一組正規表示式的package供大家使用5 Y( U" C& S7 `7 W

5 f9 q1 G) D5 F3 `. Y0 C8 d若是jdk1.4以下的可以到http://jakarta.apache.org/oro取得相關功能的package% o3 M, M* N; S
3 F/ k; S0 o5 E/ }
剛剛列出的一串符號" s/
' Q. `& V" S0 @) U8 t3 [: n適用於j2sdk1.4的正規語法+ m/ \4 l$ ~, m2 z

1 f0 y9 d7 |! Y& f8 [- Q"." 代表任何字元, B% f& E. {9 }+ n% Z6 f! f) }# P
7 r1 i# p  U! D" |( g  I3 c
正規式原字串符合之字串 ! g& X& a7 s3 t- T8 `( V
. ab a 7 r6 \0 u$ b4 ?" ?
.. abc ab 9 w4 l3 y- o9 m0 i: a- R0 [

) q! ?4 f3 j- C: B0 o7 T1 I"+" 代表一個或以個以上的字元
9 U6 v% x: F& @( G  M"*" 代表零個或是零個以上的字元) N5 m! {) Z8 O7 I9 @, r% @

% \4 c) K# W: j% w" X& x正規式原字串符合之字串 - c1 i9 |1 q: E3 U) U
+ ab ab
; \4 {& l; c! @1 x: ]5 `* abc abc - z6 M* V( g! T* x5 \

$ _2 I$ f& Z* S"( )"群組# x) E- |0 W- a: G/ Y/ c

) Z6 k+ t( ^- m) A: n! c正規式原字串符合之字串
. q: p5 N% g) c/ }$ D(ab)* aabab abab " r, v- W2 B% l: [
* s0 B- @* x& n& ^! _7 Y3 I. j0 L8 U3 j
字元類
$ Q& O& z& Y1 Z7 S% M% V& `. a
/ G" i1 Y6 v% z9 \* l6 A正規式原字串符合之字串 . C; b# v% T3 Z$ `
[a-dA-D0-9]* abczA0 abcA0 ' J/ w$ f( `4 e( q
[^a-d]* abe0 e0
# d0 ^7 ~' B2 W6 k* N- t[a-d]* abcdefgh abab
; z; @( p; `3 ?" ]
. G' Y5 Y$ D2 K- V& i( I  }# [4 |- A" z( p
簡式, o; K3 e7 L4 r2 B( G: @

4 l2 @2 @8 K% \* h2 M5 r\d 等於 [0-9] 數字
1 A& [% J. {  G7 p% r! h0 r- u) \\D 等於 [^0-9] 非數字 3 ^" Y! F9 a5 L& Z! w4 K/ ~
\s 等於 [ \t\n\x0B\f\r] 空白字元
- X; E. j. s- ~# ]\S 等於 [^ \t\n\x0B\f\r] 非空白字元 & z% c) ]1 u1 e3 J
\w 等於 [a-zA-Z_0-9] 數字或是英文字 $ l* n# R% Q$ W+ w
\W 等於 [^a-zA-Z_0-9] 非數字與英文字 7 q' D# @$ X* b4 V" n8 T
9 {$ n/ R; K7 g( X2 e& O
每一行的開頭或結尾1 ^2 l/ o6 c1 @8 H3 g( g

5 d* K) |8 O! Z3 G1 c^ 表示每行的開頭
% i" U% N9 }- j2 |( k$ 表示每行的結尾
& C7 T4 N3 P1 x) @' u: O+ e' r2 C. y0 Q0 b" ^5 n/ {' ~6 {
--------------------------------------------------------------------------------2 w2 I3 W2 x  C
0 A5 p3 p' x, x& P+ C$ W
正規表示式 java.util.regex 相關的類別 " I5 x1 `% p* L, T2 L4 k
' l; A: s: B) F" m* [  r4 g
Pattern—正規表示式的類別
) q8 g7 K5 ]# _- b5 a( `* K# `) {Matcher—經過正規化的結果
3 x7 o: G6 \+ I7 hPatternSyntaxExpression—Exception thrown while attempting to compile a regular expression
) b" _* b& p# k5 B' n. f* J6 h5 [3 X# X( X1 b. R
範例1: 將字串中所有符合"<"的字元取代成"lt;"
5 x5 S# D) Y, H
8 G7 I5 m8 B; I( x& \( X/ Himport java.io.*;5 r+ t$ g/ i/ B+ P( O% B
import java.util.regex.*;
0 ?6 q' h' V: z8 s3 w% w/**/ L3 e1 r$ m* x. H9 V
* 將字串中所有符合"<"的字元取代成"lt;"/ E5 j8 w( ^: N3 G0 O% N
*/! }3 ?, o% [: a6 s
public static void replace01(){
( p' I. i4 N- J// BufferedReader lets us read line-by-line
% S; C' d6 B: J9 Y" A) }/ ~6 XReader r = new InputStreamReader( System.in );, u8 y$ K4 w1 \: k0 |' s; X7 Y
BufferedReader br = new BufferedReader( r );
5 m" M2 P$ U9 S6 u6 g9 wPattern pattern = Pattern.compile( "<" ); // 搜尋某字串所有符合'<'的字元
5 s/ @* T  d% H" _+ B4 O) {) Ltry{. \7 p( P) p9 M0 M6 [2 n
while (true) {- S% O1 I; h. Q) D: z7 }8 Q8 z
String line = br.readLine();& {5 L9 w" ^& P, B
// Null line means input is exhausted, G  c4 I* v" a
if (line==null)4 e' P! ^* }: K
break;8 L( S7 ], a2 p7 n5 ^5 C
Matcher a = pattern.matcher(line);; _* `( N# h; d' L" T
while(a.find()){0 y8 {) n# u  ^* s) l
System.out.println("搜尋到的字元是" + a.group());
0 Z- m& h: w; w: F' l}9 a: S: f# g/ u* F- {/ Y6 Z2 @# {7 S( v
System.out.println(a.replaceAll("lt;"));// 將所有符合字元取代成lt;
0 Z5 F$ K, b) G& q2 [: ~6 p  p}' ]( x4 L2 F4 u$ q+ q7 D
}catch(Exception ex){ex.printStackTrace();};% k( v* F$ Q2 E4 Z; S9 D% }" ]
}' A6 G) L8 D, _& t1 x+ |
0 M. d3 q1 F# M3 K. v
範例2: - h% S7 w! z7 X2 q$ Z9 ^/ ^

/ E$ V  Z3 T  b% _import java.io.*;
# {4 g- D) k5 N5 Z2 y) \( A/ zimport java.util.regex.*;
7 z8 L- }7 I( r+ m5 d; A/**
, P% B/ q0 Y. L* I- z* 類似StringTokenizer的功能8 S* V" P/ \2 e2 _
* 將字串以","分隔然後比對哪個token最長
; _# ]" W9 }( }*/
2 T9 ^( l" v# T( Z% tpublic static void search01(){' g% u3 p0 e# u9 y. [
// BufferedReader lets us read line-by-line
% f% k, H+ h' k2 E# A, j7 x; D3 kReader r = new InputStreamReader( System.in );1 w: T+ y2 T* f/ V, n; b4 F( t
BufferedReader br = new BufferedReader( r );$ {% \0 F8 T' L' d6 C8 {9 P6 ]# X
Pattern pattern = Pattern.compile( ",\\s*" );// 搜尋某字串所有","的字元/ U: O4 i6 s) D$ D0 J& @
try{9 _+ }% e; v% b9 K2 ]* X3 a
while (true) {: t5 D8 h5 t7 {8 s0 G5 d* y1 A! B
String line = br.readLine();, `, C- W1 H$ p8 s' _. l. \
String words[] = pattern.split(line);
, i% F2 O- S9 [! C- e4 N// Null line means input is exhausted3 T% A  _( Q" x, D: n1 K
if (line==null)* S% r( x* ]6 Y6 U6 r+ q7 y6 Y
break;% t) }1 \5 p% c+ ~
// -1 means we haven't found a word yet
1 W2 I% K2 i0 j1 G' Z" `int longest=-1;6 @+ H) L* ?2 C# v8 F9 k
int longestLength=0;7 H0 e" w( `: A  ?& T- a" N
for (int i=0; iSystem.out.println("分段:" + words );( m) X6 |7 |, A- T; C+ S0 |
if (words.length() > longestLength) {$ j9 [4 _; s$ ^  [* i3 G
longest = i;! X3 H4 l3 S9 D2 k: E
longestLength = words.length();
' J" a8 [* n. K' N* \}
5 G. O& S2 d3 |8 _% ?2 d) g}: b; `* C# n8 Y' F- d
System.out.println( "長度最長為:" + words[longest] );. u. |; o' i7 M; g' q/ ]* M3 a
}
2 H5 l) ~9 d" X: w, D. \: A}catch(Exception ex){ex.printStackTrace();};, g3 }  ]2 E2 R4 G) N: K" {2 y
}
( w- I% x% `& H7 [$ F. l
. _6 g5 J% b* H! X. ~--------------------------------------------------------------------------------
8 B. \+ q$ F( b% S1 `( {! w$ ^  Y& v0 T
其他的正規語法
. f6 w+ [# m8 q& n. ?5 M7 Q7 I9 Q2 T4 M8 v+ S. E; P, z
/^\s* # 忽略每行開始的空白字元
' p( ^# ~  R/ ]* W3 z(M(s|r|rs)\.) # 符合 Ms., Mrs., and Mr. (titles)