博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[MySQL 5.6] innodb_flush_method新值O_DIRECT_NO_FSYNC 及bug#68555
阅读量:6581 次
发布时间:2019-06-24

本文共 2211 字,大约阅读时间需要 7 分钟。

Facebook的Mark大神最近一直在测试5.6的性能,并且发现了不少问题. 看来Facebook是要跳过5.5,直接上5.6了。同为互联网行业,Facebook的许多需求和我们是类似的,online ddl, 热点数据更新问题等。。。

当然,我最关注的还是5.6存在的bug。

related blog:

related bug:

提到两个问题,一个是从5.6.7开始innodb_flush_method有一个新值:O_DIRECT_NO_FSYNC。他的含义也很简单。当文件被设置为O_DIRECT时,如果将其设置为O_DIRECT_NO_FSYNC时,就无需在写文件后,再做一次flush(实际上是随后的调用逻辑性能太差了,而不仅仅是fsync很慢的缘故)。

从函数fil_flush可以很清晰的看到,fil_buffering_disabled为true时,很快就释放全局锁fil_system->mutex,返回。根据mark的测试,其性能提升也非常理想:

update-only & IO-bound workload

updates/second for update 1 row by PK via sysbench

    8      16      32      64     128     256   concurrent clients

18234   24359   10379    9795    9843   10283   O_DIRECT

17996   26853   30265   28923   29293   29477   O_DIRECT_NO_FSYNC

 

可惜的是,这种设置只对部分文件系统是安全的,一些文件系统,例如XFS,即使设置了O_DIRECT,还需要将Metadata信息fsync到磁盘。另外当free list为空时(脏页太快,Page cleaner跟不上),用户线程可能去从LRU获取一个空闲block,这会导致如下backtrace。

os_thread_sleep,fil_flush,fil_flush_file_spaces,buf_flush_sync_datafiles,

buf_flush_single_page_from_LRU,buf_LRU_get_free_block,

buf_page_init_for_read,buf_read_page_low,..

这种场景发生在IO-BOUND负载下,即使在扫描lru也没有发现非脏block可以转移到free list后,会去尝试从lru尾部刷一个脏block(buf_flush_single_page_from_LRU),然后将其放到free list上,这其中如果包含了sync操作,显然会大大的影响用户线程的性能。

 

第二个问题是,Mark在测试的过程中,发现多个bp instance场景下,产生了性能倒退(bp instance 从1到8,qps性能下降了差不多1倍),详细见), backtrace如下:

buf_flush_list, log_preflush_pool_modified_pages, log_checkpoint_margin, log_check_margins, log_free_check, row_upd, row_upd_step, row_update_for_mysql, ha_innobase::update_row

当更新记录时,由于要写redo log,需要确保buffer有足够的空间(log_free_check),是否需要刷日志由log_sys->check_flush_or_checkpoint来标记,当为true时,表示可能有log需要刷磁盘,或者需要 preflush buffer pool page,或者需要做一次checkpoint。当lsn – last_checkpoint_lsn >max_checkpoint_age时候,这个值必须为TRUE。

注意在log_free_check中检查check_flush_or_checkpoint时未持有log_sys->mutex。

在判断是否需要做checkpoint时(log_checkpoint_margin),如果脏页的LSN范围(从每个bp instance的flush list上查看)大于max_modified_age_sync了,需要去做刷脏页操作(log_preflush_pool_modified_pages)

Mark指出的问题是,如果有线程在做flush,后来的线程进入log_preflush_pool_modified_pages,轮询每个Bp instance,如果每个bp都正在做flush,那么就会返回false,可能会去强制将log_sys->check_flush_or_checkpoint设置为TRUE,后面新来的线程因此可能持续的进入log_preflush_pool_modified_pages->buf_flush_list函数去轮询每个bp instance,有任意一个bp instance正在被刷新,都会导致返回值为false。线程在将log_sys->check_flush_or_checkpoint这样一个全局可见的变量设置为true后会继续loop。

讨论还在继续,持续关注中….

转载地址:http://onsno.baihongyu.com/

你可能感兴趣的文章
监控录像
查看>>
HtmlHelper使用大全
查看>>
SQLServer 之 聚合函数
查看>>
正则输入非0的整数
查看>>
TortoiseGit与GitHub项目关联设置
查看>>
java模式:深入单例模式
查看>>
Struts2的模板和主题theme及自定义theme的使用
查看>>
ImageView显示图像控件
查看>>
Deepin-文件目录介绍
查看>>
MySQL数据库如何去掉数据库中重复记录
查看>>
【原创】如何写一篇“用户友好”的随笔
查看>>
【16】成对使用new和delete时要采取相同形式
查看>>
POJ 2352 Stars
查看>>
SharpRush中的AOP实现
查看>>
[摘自DbC原则与实践]DbC的一些优点和限制
查看>>
WinForm 清空界面控件值的小技巧[转]
查看>>
PhantomJS
查看>>
» 在 Ubuntu 上使用 sshfs 映射远程 ssh 文件系统为本地磁盘 Wow! Ubuntu
查看>>
python super() - 漩涡鸣人 - 博客园
查看>>
URAL 1048 Superlong Sums
查看>>