PHP正则表达式之模式修正符

  • i (PCRE_CASELESS) :如果设置了这个修饰符,模式中的字母会进行大小写不敏感匹配。
/**
*result:
Array()
*/
$str = 'AbbbEEs';
$matches = array();
preg_match('/eE/', $str, $matches);
print_r($matches);

/**
*result:
Array([0] => EE)
*/
$str = 'AbbbEEs';
$matches = array();
preg_match('/ee/i', $str, $matches);
print_r($matches);
  • m (PCRE_MULTILINE):默认情况下,PCRE认为目标字符串是由单行字符组成的(然而实际上他可能由多行),“行首”元字符(^)进匹配字符串的开始位置,而“行末”元字符($)仅匹配字符串末尾,或者最后的换行符(除非设置D修饰符)。这个行为和perl相同。当这个修饰符设置以后,“行首”和“行末”就会匹配目标字符串中任意换行符之后或者之前,还分别匹配目标字符串的最开始和最末尾位置。这等同于perl的/m修饰符。如果目标字符串中没有\n字符,或者模式中没有出现^或$,设置这个修饰符不产生任何影响。
/**
*结果输出:
Array
(
[0] => Array
(
[0] => <p>paragraph1</p>
[1] => <p>paragraph2</p>
[2] => <p>paragraph3</p>
)
)
$str = '<p>paragraph1</p>
<p>paragraph2</p>
<p>paragraph3</p>
';
$matches = array();
preg_match_all('/^<p>.*?<\/p>\r$/m', $str, $matches);//在windows系统中要加\r,因为敲回车输入的是\r\n, 在linux下测试去掉\r
print_r($matches);
*/
  • D (PCRE_DOLLAR_ENDONLY):如果设置这个修饰符,模式中的元字符美元符号($)仅仅匹配字符串的末尾。如果没有设置这个修饰符,当字符串以一个换行符结尾时,美元符号($)还会匹配该换行符(但不会匹配之前的任何换行符). 如果设置了修饰符m, D修饰符不起作用。在perl中没有与此修饰符相同效果的修饰符.
/**
*********在windows系统中要加\r,因为敲回车输入的是\r\n, 在linux下测试请去掉\r**********
*/

/**
**未设置修饰符D时, $会匹配字符串末尾的换行符
*retult:
Array
(
[0] => <p>paragraph3</p>
)
*/
$str = '<p>paragraph3</p>
';
$match = array();
preg_match('/<p>.*?<\/p>\r$/', $str, $matches);
print_r($matches);

/**
**设置修饰符D时, $不会匹配字符串末尾的换行符
*retult:
Array()
*/
$str = '<p>paragraph3</p>
';
$match = array();
preg_match('/<p>.*?<\/p>\r$/D', $str, $matches);
print_r($matches);

/**
**设置修饰符D时, $不会匹配字符串末尾的换行符, 需要指明换行符
*retult:
Array([0] => <p>paragraph3</p>)
*/
$str = '<p>paragraph3</p>
';
$match = array();
preg_match('/<p>.*?<\/p>\r\n$/D', $str, $matches);
print_r($matches);
  • s (PCRE_DOTALL):默认情况下元字符(.)是匹配除换行符(\n)的所有字符,当设置了这个修饰符后,元字符(.)匹配包括换行符的所有字符.
/**
*不设置s时,不能匹配换行符
*result:
Array( [0] => sfs)
*/
$str = 'sfsdf
sfdsa';
$matches = array();
preg_match('/sf.*s/', $str, $matches);
print_r($matches);

/**
*设置s后,能匹配换行符
*result:
Array
(
[0] => sfsdf
sfds
)
*/
$str = 'sfsdf
sfdsa';
$matches = array();
preg_match('/sf.*s/s', $str, $matches);
print_r($matches);
  • U (PCRE_UNGREEDY):这个修饰符扭转了量词的贪婪模式,使量词默认为非贪婪的。通过在量词后紧跟?可以使其成为非贪婪的.
/**
*量词*默认为贪婪模式
*result:
Array
(
[0] => <p>paragraph1</p><p>paragraph2</p><p>paragraph3</p>
)
*/
$str = '<p>paragraph1</p><p>paragraph2</p><p>paragraph3</p>';
$matches = array();
preg_match('/<p>.*<\/p>/', $str, $matches);
print_r($matches);

/**
*修饰符U扭转量词的贪婪模式
*result:
Array
(
[0] => <p>paragraph1</p>
)
*/
$str = '<p>paragraph1</p><p>paragraph2</p><p>paragraph3</p>';
$matches = array();
preg_match('/<p>.*<\/p>/U', $str, $matches);
print_r($matches);

/**
*量词后紧跟?变为非贪婪模式
*result:
Array
(
[0] => <p>paragraph1</p>
)
*/
$str = '<p>paragraph1</p><p>paragraph2</p><p>paragraph3</p>';
$matches = array();
preg_match('/<p>.*?<\/p>/', $str, $matches);
print_r($matches);
  • e (PCRE_REPLACE_EVAL):如果设置了这个修饰符,preg_replace在进行了对替换字符串的 后向引用替换之后, 将替换后的字符串作为php代码评估之行(eval函数方式), 并使用之行结果 作为实际参与替换的字符串. 单引号, 双引号, 反斜线()和NULL字符在 后向引用替换时会被用反斜线转义.
/**
*result:
ggggggggggoooo
*/
$str = 'goooo';
echo preg_replace('/(g)/e', 'str_repeat(\\1, 10)', $str);
  • S: 当一个模式需要多次使用的时候, 为了得到匹配速度的提升, 值得花费一些时间 对其进行一些额外的分析. 如果设置了这个修饰符, 这个额外的分析就会执行. 当前, 这种对一个模式的分析仅仅适用于非锚定模式的匹配(即没有单独的固定开始字符).
  • A (PCRE_ANCHORED):如果设置了这个修饰符, 模式被强制为"锚定"模式, 也就是说约束匹配使其仅从 目标字符串的开始位置搜索. 这个效果同样可以使用适当的模式构造出来, 并且 这也是perl种实现这种模式的唯一途径.
/**
*以abc开头的字符串可以被匹配到
Array ( [0] => abc )
*/
$str = "abcdeft";
$matches = array();
preg_match('/abc/A', $str, $matches);
print_r($matches);

/**
*不是以abc开头的字符串不能匹配到
Array ( [0] => )
*/
$str = "dabcdeft";
$matches = array();
preg_match('/abc/A', $str, $matches);
print_r($matches);
  • x (PCRE_EXTENDED):如果设置了这个修饰符, 模式中的没有经过转义的或不在字符类中的空白数据字符总会被忽略, 并且位于一个未转义的字符类外部的#字符和下一个换行符之间的字符也被忽略. 这个修饰符 等同于perl中的/x修饰符, 使被编译模式中可以包含注释. 注意: 这仅用于数据字符. 空白字符 还是不能在模式的特殊字符序列中出现, 比如序列(?(引入了一个条件子组(译注: 这种语法定义的 特殊字符序列中如果出现空白字符会导致编译错误. 比如( ?(就会导致错误.).
/**
*因为模式中的空格被忽略, 匹配不到结果:
Array ( [0] => )
*/
$str = "ab cdeft";
$matches = array();
preg_match('/ab c/x', $str, $matches);
print_r($matches);

/**
*匹配到结果:
Array ( [0] => ab c )
*/
$str = "ab cdeft";
$matches = array();
preg_match('/ab c/', $str, $matches);
print_r($matches);
  • X (PCRE_EXTRA):这个修饰符打开了PCRE与perl不兼容的附件功能. 模式中的任意反斜线后就ingen一个 没有特殊含义的字符都会导致一个错误, 以此保留这些字符以保证向后兼容性. 默认 情况下, 在perl中, 反斜线紧跟一个没有特殊含义的字符被认为是该字符的原文. 当前没有其他特性由这个修饰符控制.

解决linux下umount显示device is busy的问题

  • 最近服务器磁盘的一个作为数据备份的分区经常出现问题, 写入的数据经常不完整。在该分区执行rm删除操作的时候提示rm:无法删除 文件 只读文件系统; 分析原因估计是磁盘算坏的缘故, 现在正在备份数据, 备份完数据以后准备修复磁盘试试。不过首先需要把磁盘分区umount了

但是在卸载挂载分区的时候出现另一个问题: 执行umount的时候提示: device is busy 错误, 无法umount卸载磁盘分区; 分析原因应该是被其它程序占用了. 经过Google以后发现了一个非常有用的命令:
fuser : 可以显示出当前哪个程序在使用磁盘上的某个文件、挂载点、甚至网络端口,并给出程序进程的详细信息.

  • 使用 fuser -m -v /dev/sda1 命令可以查看当前分区被那个用户那个进程占用了

-m 参数显示所有使用指定文件系统的进程,后面可以跟挂载点,或是dev设备,-v 参数给出详细的输出,可以看出,原来是 proftp 这个程序还在霸占着磁盘分区,fuser 还给出了程序的进程号,知道了进程号,你就可以随便怎么处置这个程序

  • 使用 fuser -m -k /dev/sda1 命令可以把占用着当前磁盘分区的程序杀死

难道没有文明点儿的办法卸载磁盘分区么, 答案是有的。如果不是很着急卸载umount磁盘分区的时候可以使用以下命令:
umount -l /dev/sda1

选项 –l 并不是马上umount,而是在该目录空闲后再umount

PHP 之 CURL学习(二)

  • curl学习(一)中所做的工作都是针对一个url的单次请求,当要处理1个URL队列时, 为了提高性能, 可以采用CURL提供的curl_multi_*族函数实现简单的并发.
$urls = array(
'http://www.cnblogs.com',
'http://www.google.com.hk',
'http://www.baidu.com',
'http://www.weibo.com',
'http://www.comsenz.com',
'http://www.csdn.net',
);
$opt_arr = array(
CURLOPT_HEADER => FALSE,
CURLOPT_TIMEOUT => 3,
CURLOPT_RETURNTRANSFER => TRUE,
);
$multi = curl_multi_init();//句柄初始化
//参数设置
foreach($urls as $key => $url) {
$ch_arr[$key] = curl_init();//初始化一个curl资源
$opt_arr[CURLOPT_URL] = $url;//设置url
curl_setopt_array($ch_arr[$key], $opt_arr);//参数设置
curl_multi_add_handle($multi, $ch_arr[$key]);//加入句柄队列
}

$isrunning = NULL;//预定义一个状态变量
do {//执行批处理句柄
$mrc = curl_multi_exec($multi, $isrunning);//$isrunning 一个用来判断操作是否仍在执行的标识的引用。
} while($mrc == CURLM_CALL_MULTI_PERFORM); //常量 CURLM_CALL_MULTI_PERFORM 代表还有一些刻不容缓的工作要做

while($isrunning && $mrc == CURLM_OK) {
if(curl_multi_select($multi) != -1) {//curl_multi_select阻塞直到cURL批处理连接中有活动连接,失败时返回-1
do {
$mrc = curl_multi_exec($multi, $isrunning);
} while($mrc == CURLM_CALL_MULTI_PERFORM);
}
}
//所有请求接收完之后进行数据的解析等后续处理
foreach($ch_arr as $key => $ch) {
//获取内容进行后续处理
$contents = curl_multi_getcontent($ch);
//do something to deal data
curl_multi_remove_handle($multi, $ch_arr[$key]);//关闭句柄
curl_close($ch);
}
curl_multi_close($multi);

注意:CURL在PHP中的多线程处理其实并不是真正的多线程,而是用单线程批处理模拟的多线程效果。

上述代码显然有缺陷:数据处理都是在所有url请求接收完成以后才进行的,如果某些url处理比较慢显然就耽误了整个队列的处理时间,造成了CUP的闲置和浪费,这显然不是我们想要的结果。但是我们可以这样处理:每当一个url请求完成就开始处理,同时等待其它url请求返回。代码如下:

$urls = array(
'http://www.cnblogs.com',
'http://www.google.com.hk',
'http://www.baidu.com',
'http://www.weibo.com',
'http://www.comsenz.com',
'http://www.csdn.net',
'http://www.php.net',
);
$opt_arr = array(
CURLOPT_HEADER => FALSE,
CURLOPT_TIMEOUT => 5,
CURLOPT_RETURNTRANSFER => TRUE,
);
//句柄初始化
$multi = curl_multi_init();
//参数设置
foreach($urls as $key => $url) {
$ch_arr[$key] = curl_init();//初始化一个curl资源
$opt_arr[CURLOPT_URL] = $url;//设置url
curl_setopt_array($ch_arr[$key], $opt_arr);//参数设置
curl_multi_add_handle($multi, $ch_arr[$key]);//加入句柄队列
}
//预定义一个状态变量
$isrunning = NULL;
//执行批处理句柄
do {
while(($mrc = curl_multi_exec($multi, $isrunning)) == CURLM_CALL_MULTI_PERFORM);//$isrunning 一个用来判断操作是否仍在执行的标识的引用。
if($mrc != CURLM_OK)
break;
while($done = curl_multi_info_read($multi)) {//成功时返回相关信息的数组,失败时返回FALSE
$key = array_search($done['handle'], $ch_arr);
if(curl_getinfo($done['handle'], CURLINFO_HTTP_CODE) == '200') {
$content = curl_multi_getcontent($done['handle']);
//deal $content
echo ++$j,": $urls[$key] : ",strlen($content),"\n";
curl_multi_remove_handle($multi, $done['handle']);
curl_close($done['handle']);
} else {
echo ++$j,": ",$urls[$key],": ",curl_error($done['handle']),"\n";
}
}
} while($isrunning);
curl_multi_close($multi);

上述代码仍然是有缺陷的,不知道聪明的读者您发现没有?当URL队列很大时(比如1000),这就是一个大并发显然不合理的,参考这里

function rolling_curl($urls, $callback, $custom_options = null) {

$rolling_window = 5;
$rolling_window = (sizeof($urls) < $rolling_window) ? sizeof($urls) : $rolling_window;

$master = curl_multi_init();
$curl_arr = array();

//设置curl参数
$std_options = array(CURLOPT_RETURNTRANSFER => true,
CURLOPT_FOLLOWLOCATION => true,
CURLOPT_MAXREDIRS => 5);
$options = ($custom_options) ? ($std_options + $custom_options) : $std_options;

//初始化curl资源队列
$arr_chs = array();
for ($i = 0; $i < $rolling_window; $i++) {
$arr_chs[$urls[$i]] = curl_init();
$options[CURLOPT_URL] = $urls[$i];
curl_setopt_array($arr_chs[$urls[$i]],$options);
curl_multi_add_handle($master, $arr_chs[$urls[$i]]);
}

do {
while(($execrun = curl_multi_exec($master, $running)) == CURLM_CALL_MULTI_PERFORM);
if($execrun != CURLM_OK) {
break;
}
while($done = curl_multi_info_read($master)) {
$info = curl_getinfo($done['handle']);
if ($info['http_code'] == 200) {

$content = curl_multi_getcontent($done['handle']);
$callback($content);

//新建一个curl资源并加入并发队列
if($i < sizeof($urls)) {
$arr_chs[$urls[$i]] = curl_init();
$options[CURLOPT_URL] = $urls[$i]; // increment i
curl_setopt_array($arr_chs[$urls[$i]], $options);
curl_multi_add_handle($master, $arr_chs[$urls[$i]]);
}

curl_multi_remove_handle($master, $done['handle']);
curl_close($done['handle']);
} else {

echo curl_errno($done['handle']),":",curl_error($done['handle']),"\n";
}
}
} while($running);

curl_multi_close($master);
return true;
}

Ubuntu下Object-C 的开发环境搭建

  • 1、软件安装:
sudo apt-get install build-essential gnustep gobjc gnustep-make libgnustep-base-dev gnustep-devel
  • 2、测试:
#import <stdio.h>;
int main( int argc, const char * argv[] ) {
printf("hello world\n");
return 0;
}
  • 然后执行编译:
gcc hello.m -o hello
  • 如果调用到了 object-c的库, 以上编译命令会出错, 需要用下面命令:
gcc `gnustep-config --objc-flags` -lgnustep-base hello.m -o hello
  • 然后执行代码看看
./hello
/**
输出结果:
hello world
*/

MySQL Replication(主从同步)基本原理

1、复制进程

Mysql的复制(replication)是一个异步的复制,从一个Mysql instace(称之为Master)复制到另一个Mysql instance(称之Slave)。实现整个复制操作主要由三个进程完成的,其中两个进程在Slave(Sql进程和IO进程),另外一个进程在 Master(IO进程)上。
要实施复制,首先必须打开Master端的binary log(bin-log)功能,否则无法实现。因为整个复制过程实际上就是Slave从Master端获取该日志然后再在自己身上完全顺序的执行日志中所记录的各种操作。

复制的基本过程如下:

1)、Slave上面的IO进程连接上Master,并请求从指定日志文件的指定位置(或者从最开始的日志)之后的日志内容;
2)、Master接收到来自Slave的IO进程的请求后,通过负责复制的IO进程根据请求信息读取指定日志指定位置之后的日志信息,返回给Slave 的IO进程。返回信息中除了日志所包含的信息之外,还包括本次返回的信息已经到Master端的bin-log文件的名称以及bin-log的位置;
3)、Slave的IO进程接收到信息后,将接收到的日志内容依次添加到Slave端的relay-log文件的最末端,并将读取到的Master端的 bin-log的文件名和位置记录到master-info文件中,以便在下一次读取的时候能够清楚的高速Master“我需要从某个bin-log的哪个位置开始往后的日志内容,请发给我”;
4)、Slave的Sql进程检测到relay-log中新增加了内容后,会马上解析relay-log的内容成为在Master端真实执行时候的那些可执行的内容,并在自身执行。

实际上在老版本的Mysql的复制实现在Slave端并不是两个进程完成的,而是由一个进程完成。但是后来发现这样做存在较大的风险和性能问题,主要如下:
首先,一个进程就使复制bin-log日志和解析日志并在自身执行的过程成为一个串行的过程,性能受到了一定的限制,异步复制的延迟也会比较长。
另外,Slave端从Master端获取bin-log过来之后,需要接着解析日志内容,然后在自身执行。在这个过程中,Master端可能又产生了大量变化并声称了大量的日志。如果在这个阶段Master端的存储出现了无法修复的错误,那么在这个阶段所产生的所有变更都将永远无法找回。如果在Slave 端的压力比较大的时候,这个过程的时间可能会比较长。
所以,后面版本的Mysql为了解决这个风险并提高复制的性能,将Slave端的复制改为两个进程来完成。提出这个改进方案的人是Yahoo!的一位工程师“Jeremy Zawodny”。这样既解决了性能问题,又缩短了异步的延时时间,同时也减少了可能存在的数据丢失量。当然,即使是换成了现在这样两个线程处理以后,同样也还是存在slave数据延时以及数据丢失的可能性的,毕竟这个复制是异步的。只要数据的更改不是在一个事物中,这些问题都是会存在的。如果要完全避免这些问题,就只能用mysql的cluster来解决了。不过mysql的cluster是内存数据库的解决方案,需要将所有数据都load到内存中,这样就对内存的要求就非常大了,对于一般的应用来说可实施性不是太大。 2、复制实现级别

Mysql的复制可以是基于一条语句(Statement level),也可以是基于一条记录(Row level),可以在Mysql的配置参数中设定这个复制级别,不同复制级别的设置会影响到Master端的bin-log记录成不同的形式。
Row Level:日志中会记录成每一行数据被修改的形式,然后在slave端再对相同的数据进行修改。
优点:在row level模式下,bin-log中可以不记录执行的sql语句的上下文相关的信息,仅仅只需要记录那一条记录被修改了,修改成什么样了。所以row level的日志内容会非常清楚的记录下每一行数据修改的细节,非常容易理解。而且不会出现某些特定情况下的存储过程,或function,以及 trigger的调用和触发无法被正确复制的问题。
缺点:row level下,所有的执行的语句当记录到日志中的时候,都将以每行记录的修改来记录,这样可能会产生大量的日志内容,比如有这样一条update语句:update product set owner_member_id = ‘b’ where owner_member_id = ‘a’,执行之后,日志中记录的不是这条update语句所对应额事件(mysql以事件的形式来记录bin-log日志),而是这条语句所更新的每一条记录的变化情况,这样就记录成很多条记录被更新的很多个事件。自然,bin-log日志的量就会很大。尤其是当执行alter table之类的语句的时候,产生的日志量是惊人的。因为Mysql对于alter table之类的表结构变更语句的处理方式是整个表的每一条记录都需要变动,实际上就是重建了整个表。那么该表的每一条记录都会被记录到日志中。
Statement Level:每一条会修改数据的sql都会记录到 master的bin-log中。slave在复制的时候sql进程会解析成和原来master端执行过的相同的sql来再次执行。
优点:statement level下的优点首先就是解决了row level下的缺点,不需要记录每一行数据的变化,减少bin-log日志量,节约IO,提高性能。因为他只需要记录在Master上所执行的语句的细节,以及执行语句时候的上下文的信息。
缺点:由于他是记录的执行语句,所以,为了让这些语句在slave端也能正确执行,那么他还必须记录每条语句在执行的时候的一些相关信息,也就是上下文信息,以保证所有语句在slave端杯执行的时候能够得到和在master端执行时候相同的结果。另外就是,由于Mysql现在发展比较快,很多的新功能不断的加入,使mysql得复制遇到了不小的挑战,自然复制的时候涉及到越复杂的内容,bug也就越容易出现。在statement level下,目前已经发现的就有不少情况会造成mysql的复制出现问题,主要是修改数据的时候使用了某些特定的函数或者功能的时候会出现,比如:sleep()函数在有些版本中就不能真确复制,在存储过程中使用了last_insert_id()函数,可能会使slave和master上得到不一致的id等等。由于row level是基于每一行来记录的变化,所以不会出现类似的问题

从官方文档中看到,之前的Mysql一直都只有基于statement的复制模式,直到5.1.5版本的Mysql才开始支持row level的复制。从5.0开始,Mysql的复制已经解决了大量老版本中出现的无法正确复制的问题。但是由于存储过程的出现,给Mysql的复制又带来了更大的新挑战。另外,看到官方文档说,从5.1.8版本开始,Mysql提供了除Statement Level和Row Level之外的第三种复制模式:Mixed,实际上就是前两种模式的结合。在Mixed模式下,Mysql会根据执行的每一条具体的sql语句来区分对待记录的日志形式,也就是在Statement和Row之间选择一种。新版本中的Statment level还是和以前一样,仅仅记录执行的语句。而新版本的Mysql中队row level模式也被做了优化,并不是所有的修改都会以row level来记录,像遇到表结构变更的时候就会以statement模式来记录,如果sql语句确实就是update或者delete等修改数据的语句,那么还是会记录所有行的变更。 3、复制常用架构

Mysql复制环境90%以上都是一个Master带一个或者多个Slave的架构模式,主要用于读压力比较大的应用的数据库端廉价扩展解决方案。因为只要master和slave的压力不是太大(尤其是slave端压力)的话,异步复制的延时一般都很少很少。尤其是自slave端的复制方式改成两个进程处理之后,更是减小了slave端的延时。而带来的效益是,对于数据实时性要求不是特别的敏感度的应用,只需要通过廉价的pc server来扩展slave的数量,将读压力分散到多台slave的机器上面,即可解决数据库端的读压力瓶颈。这在很大程度上解决了目前很多中小型网站的数据库压力瓶颈问题,甚至有些大型网站也在使用类似方案解决数据库瓶颈。一个Master带多个slave的架构实施非常简单,多个slave和单个slave的实施并没有太大区别。在Master端并不care有多少个 slave连上了master端,只要有slave进程通过了连接认证,向他请求binlog信息,他就会按照连接上来的io进程的要求,读取自己的 binlog信息,返回给slave的IO进程。对于slave的配置细节,在Mysql的官方文档上面已经说的很清楚了,甚至介绍了多种实现slave 的配置方法。 Mysql不支持一个Slave instance从属于多个Master的架构。就是说,一个slave instance只能接受一个master的同步源,听说有patch可以改进这样的功能,但没有实践过。Mysql AB之所以不实现这样的功能,主要是考虑到冲突解决的问题。 Mysql也可以搭建成dual master模式,也就是说两个Mysql instance互为对方的Master,也同时为对方的Slave。不过一般这种架构也是只有一端提供服务,避免冲突问题。因为即使在两边执行的修改有先后顺序,由于复制的异步实现机制,同样会导致即使在晚做的修改也可能会被早做的修改所覆盖,就像如下情形: 时间点 Mysql A Mysql B 1 更新x表y记录为10 2 更新x表y记录为20 3 获取到A日志并应用,更新x表的y记录为10(不符合期望) 4 获取B日志更新x表y记录为20(符合期望) 这样,不仅在B库上面的数据不是用户所期望的结果,A和B两边的数据也出现了不一致的情况。除非能将写操作根据某种条件固定分开在A和B两端,保证不会交叉写入,才能够避免上面的问题。