Tác giả: Nguyễn Việt Cường (a.k.a. mrcuongnv)
Trong bài viết này, tôi giới thiệu cách thức cài đặt Nginx kết hợp với memcached trên Debian "lenny" 5.0 nhằm tăng hiệu năng phục vụ của web server mà ở đây là Apache 2.2. Bài viết này là tổng hợp từ nhiều nguồn khác nhau trên Internet và là bản ghi chép của tôi trong quá trình nâng cấp một web server thực tế có lượng truy cập lớn.
1. Giới thiệu
Gần đây, web server mà tôi quản lí (phi vụ lợi) có lượng truy cập tăng đột biến mà không phải vì bị tấn công. Tải (load) của server những lúc cao điểm thường lên ~40 trong khi chỉ có 8 cores phục vụ với 8GB RAM. Công việc tối ưu bắt đầu.
Chúng tôi chỉ có một server duy nhất nên web server, db server được đặt chung với nhau. Điều này là một bất lợi lớn. Nhưng không sao, chúng ta phải chấp nhận vì có một server tốt như thế để hoạt động phi vụ lợi là rất tốt rồi.
Ban đầu, tôi tưởng rằng vấn đề nằm ở DB server (MySQL) vì theo dõi thấy có rất nhiều lệnh thực hiện rất lâu, đặc biệt là các lệnh thực hiện phép nối bảng lớn. Chúng tôi đã tiến hành tối ưu MySQL rồi đặt cron để tối ưu toàn bộ CSDL 2 ngày một lần. Vấn đề có vẻ như được giải quyết khi server chạy liên tục 2 tháng liền mà không gặp bất cứ trục trặc gì. Tuy nhiên, gần đây thì tình trạng tải tăng cao lại tiếp tục diễn ra, đặc biệt là quãng 20-24h (giờ Việt Nam). Tôi đã xem xét lại chi tiết và phát hiện ra rằng, những lúc tải tăng cao thì DB server không hoạt động mấy, rất ít câu lệnh được thực hiện (lúc tải < 20). Tuy nhiên khi tải ~30-40 thì một số câu lệnh SQL đột nhiên thực hiện rất lâu, điều này có thể giải thích là các tiến trình của web server đã chiếm hết tài nguyên rồi thì làm sao db server chạy nhanh được nữa. Như vậy thì ta phải tối ưu web server thôi.
Sau một hồi hỏi anh Google và chị Bing, tôi quyết định sẽ sử dụng Nginx để làm proxy ngược (reverse proxy) cho Apache và kết hợp sử dụng memcached để lưu những dữ liệu tĩnh (static file) vào trong bộ nhớ.
Theo định nghĩa trên Wikipedia thì:
- Nginx (phát âm giống "engine x") là một máy chủ web (web server), proxy ngược (reserve proxy) và e-mail proxy (IMAP/POP3) nhẹ, hiệu năng cao, sử dụng giấy phép kiểu BSD. Nó có thể chạy trên UNIX, Linux, các dòng BSD, Mac OS X, Solaris và Microsoft Windows.
- memcached (phát âm là mem-cash-dee) là một hệ thống lưu trữ bản sao các đối tượng (objects) và dữ liệu được truy cập nhiều lần để tăng tốc độc truy xuất. Nó thường được sử dụng để tối ưu hóa việc tải dữ liệu từ cơ sở dữ liệu cho các ứng dụng trên nền web. Vào lúc đầu, hệ thống memcached được phát triển bởi Danga Interactive và dùng cho LiveJournal. Sau đó memcached trở nên phổ biến và được dùng trên các trang web khác.
Vì sao tôi không sử dụng thẳng Nginx để làm web server? Lí do ở đây là vì Apache tỏ ra tốt hơn Nginx trong việc phục vụ các trang web động (dynamic page) (điều này tôi tham khảo trên web, sẽ kiểm tra trong một bài khác). Một trong những nguyên nhân là do Nginx sử dụng FastCGI, mà cái này thì chậm. Vậy là mô hình đã hình thành: Apache sẽ chạy ở dưới, phục vụ trên một cổng khác (8080); còn Nginx chạy ở trên, phục vụ trên cổng (80). Các request tới web server sẽ đi qua Nginx trước, rồi sau đó sẽ được chuyển qua Apache để xử lí và trả kết quả ngược lại cho Nginx; tiếp đó Nginx sẽ trả về cho client. Tuy nhiên nếu request đó không phải là một trang web động mà lại là một nội dung tĩnh thì hành động này có vẻ như thừa thãi. Giải pháp đưa ra là (1) Nginx sẽ phục vụ trực tiếp các file tĩnh hoặc (2) Nginx sử dụng memcached để ghi nhớ các file đó trong bộ nhớ và chỉ việc lấy ra khi cần thiết.
Trên server của tôi có chứa nhiều website (shared server) và để chống hack local thì chúng tôi sử dụng ACL kết hợp mpm-itk để tăng cường bảo mật. Khi sử dụng mpm-itk thì mỗi website sẽ được chạy dưới một uid và gid riêng. Điều này không tương thích với Nginx vì nó chỉ chạy được với một uid và gid duy nhất., do vậy không có đủ quyền để truy cập trực tiếp vào thư mục của các website Do vậy chúng tôi phải sử dụng giải pháp memcached để giúp Nginx có thể phục vụ trực tiếp client với các file tĩnh.
Các bạn cũng nên lưu ý là khi cài đặt memcached rồi thì có rất nhiều phần mềm mã nguồn mở sử dụng được cái này để tăng hiệu năng như Drupal, vBulletin, phpBB,... và không kể hết...
2. Cài đặt
Trong bài viết này, tôi chỉ hướng dẫn cài đặt trên Debian "lenny" 5.0. Cài đặt trên Ubuntu "chắc" cũng tương tự, nếu có thì chỉ là thay đổi chút ít. Ở đây tôi không hướng dẫn cài ACL và mpm-itk mà sẽ giới thiệu trong một dịp khác.
Trước hết, chúng ta phải cài đặt Apache, PHP, Nginx và memcached.
# aptitude install apache2 libapache2-mod-php5 libapache2-mod-rpaf nginx memcached
Chúng ta cần cài module rpaf của Apache vì request gửi đến Apache sẽ xuất pháp từ Nginx và do vậy mang IP của máy chạy Nginx. Module rpaf sẽ giúp Apache nhận ra IP thực của client trong request mà Nginx gửi sang.
Bây giờ chúng ta sẽ phải sửa file cấu hình của apache2 để cho nó chạy trên cổng 8080. Mở file /etc/apache2/ports.conf, thay 80 bằng 8080 ở hai dòng sau:
NameVirtualHost *:80 Listen 80
Ta được:
NameVirtualHost *:8080 Listen 8080
Bật module php5 và rpaf:
# a2enmod php5 rpaf
Ta tạo một website làm ví dụ, ở đây tôi sử dụng tên miền blog.cuongnv.com. Ta tạo một file cấu hình cho website này như sau:
# vi /etc/apache2/sites-available/blog.cuongnv.com
Và điền nội dung như sau (thư mục gốc cho web của domain này là /home/www/blog.cuongnv.com/public_html).
<VirtualHost *:8080> ServerName blog.cuongnv.com ServerAdmin blog@cuongnv.com DocumentRoot "/home/www/blog.cuongnv.com/public_html" <Directory "/home/www/blog.cuongnv.com/public_html"> Options -Indexes FollowSymLinks MultiViews AllowOverride All </Directory> ErrorLog /var/log/apache2/blog.cuongnv.com_error_log LogFormat "%h %l %>s %b" common CustomLog /var/log/apache2/blog.cuongnv.com_access_log common </VirtualHost>
Kích hoạt domain này (bản chất là tạo một soft link trong thư mục /etc/apache2/sites-enabled tới file tương ứng trong thư mục /etc/apache2/sites-available):
# a2ensite blog.cuongnv.com
Khởi động lại dịch vụ Apache:
# /etc/init.d/apache2 restart
Khởi động lại dịch vụ memcached nếu chưa tự khởi động khi cài xong:
# /etc/init.d/memcached restart
Như vậy là xong phần cấu hình cho Apache. Bây giờ chúng ta sẽ cấu hình cho Nginx. Cấu trúc thư mục trong /etc của Nginx cũng hoàn toàn tương tự như của Apache.
Trước hết, ta tạo file cấu hình cho module proxy của Nginx. Các thông tin này lấy từ web site của Nginx.
# vi /etc/nginx/proxy.conf
Điền nội dung sau:
proxy_redirect off; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; client_max_body_size 10m; client_body_buffer_size 128k; proxy_connect_timeout 90; proxy_send_timeout 90; proxy_read_timeout 90; proxy_buffer_size 4k; proxy_buffers 32 4k; proxy_busy_buffers_size 64k; proxy_temp_file_write_size 64k;
Bây giờ là công việc cấu hình một virtual host cho domain blog.cuongnv.com để tương ứng với Apache. Tạo file:
# vi /etc/nginx/sites-avaiable/blog.cuongnv.com
Với nội dung như sau:
server { listen 80; server_name blog.cuongnv.com; access_log /var/log/nginx/blog.cuongnv.com.access.log; location / { proxy_pass http://blog.cuongnv.com:8080; include /etc/nginx/proxy.conf; } location ~ \.php$ { proxy_pass http://blog.cuongnv.com:8080; include /etc/nginx/proxy.conf; } # Danh sach file tinh vi dụ location ~* ^.+.(jpg|jpeg|gif|png|ico|css|tar|mid|midi|wav|js)$ { expires max; set $memcached_key "$scheme://$host$request_uri"; memcached_pass 127.0.0.1:11211; error_page 404 = /fallback; } location /fallback { internal; expires max; proxy_pass http://blog.cuongnv.com:8080; include /etc/nginx/proxy.conf; break; } error_page 500 502 503 504 /50x.html; location = /50x.html { root /var/www/nginx-default; } }
Kích hoạt domain trên:
# ln -s /etc/nginx/sites-available/blog.cuongnv.com /etc/nginx/sites-enabled/
Khởi động lại Nginx:
# /etc/init.d/nginx restart
Bây giờ bạn đã có thể truy cập vào website vừa cấu hình một cách bình thường do Nginx phục vụ, ở đây là: http://blog.cuongnv.com. Ngoài ra, bạn có thể truy cập trực tiếp dịch vụ của Apache tại http://blog.cuongnv.com:8080. Tất nhiên đây là các link giả định, thực tế phải là đường link của bạn.
Trong file cấu hình ở trên, chúng ta đã cấu hình để những yêu cầu tới file có đuôi là .php sẽ được chuyển cho Apache phục vụ. Các file tĩnh (với đuôi được liệt kê ở trước đó) thì được tìm kiếm trong memcached, nếu memcached không có thì sẽ chuyển cho Apache phục vụ (lỗi 404 chuyển qua /fallback). Việc tìm kiếm này sử dụng key là URL đầy đủ của file tương ứng, bao gồm scheme (http, https), host (blog.cuongnv.com), uri đầy đủ (uri và query string).
Tuy nhiên, cần phải đặc biệt chú ý, Nginx không hề giúp ta cache các file vào trong memcached một cách tự động mà ta phải tự tay làm việc đó. Trong hệ thống của tôi thì tôi sử dụng một script để cache tất cả các file tĩnh cần thiết vào trong bộ nhớ. Việc này được thực hiện định kì một lần mỗi ngày.
Script này tôi tham khảo từ blog của Levent Serinol viết bằng PHP. Hiện tại tôi đang viết một script khác có thể duyệt qua tất cả các virtual host hiện tại và cache cho toàn bộ các host đó với các file có đuôi và độ lớn nhỏ hơn một ngưỡng cho trước. Tôi sẽ public script này trong một vài ngày tới.
Cài đặt php5-cli để chạy được các file php trên dòng lệnh:
# aptitude install php5-cli
Tạo file tương ứng trong /etc/cron.daily:
# vi /etc/cron.daily/cache_static_file.php
Điền nội dung sau:
#!/usr/bin/php5 <?php function rscandir($base = '', &$data = array()) { $array = array_diff(scandir($base), array('.', '..')); foreach ($array as $value) { if (is_dir($base.$value)) { $data = rscandir($base . $value . '/', $data); } elseif (is_file($base.$value)) { $rest = substr($value, -4); if ((!strcmp($rest,'.jpg')) || (!strcmp($rest,'.png')) || (!strcmp(substr($value, -3),'.js')) || (!strcmp($rest,'.css')) || (!strcmp($rest,'.gif')) ) { $data[] = $base.$value; } } } return $data; } $mylist=rscandir("/home/www/blog.cuongnv.com/public_html"); $srch = array('/home/www/blog.cuongnv.com/public_html'); $newval = array('http://blog.cuongnv.com'); $memcache_obj = memcache_connect('127.0.0.1', 11211); while (list($key, $val) = each($mylist)) { $url = str_replace($srch, $newval, $val); echo "$key => $url -> " . filesize($val) . "\n"; $value = file_get_contents($val); memcache_add($memcache_obj, $url, $value, false, 0); } ?>
Sửa quyền của file để là file chạy và khởi động lại dịch vụ cron:
# chmod a+rx /etc/cron.daily/cache_static_file.php # /etc/init.d/cron restart
Tài liệu tham khảo
Chúc các bạn thành công!
- Nginx wiki
- Top 10 Nginx Tutorial
- Using Nginx As Reverse-Proxy Server On High-Loaded Sites
- Speeding up your nginx server with memcached
Chúc các bạn thành công!