Thứ Tư, 1 tháng 1, 2014
Ứng dụng xử lý văn bản tiếng việt xây dựng hệ thống kiểm tra đề tài tốt nghiệp
7
Bước 3 : Nhập tên ñề tài khóa luận mới vào bảng tính Excel
(không ñánh số thứ tự hoặc tô chữ khác màu với
dòng chữ khóa luận cũ)
Bước 4 : Dùng lệnh Data/Sort trong Excel ñể sắp xếp toàn bộ
dữ liệu, khi ñó các khóa luận cũ và mới sẽ ñan
xen nhau.
Kết thúc việc sắp xếp, người kiểm tra sẽ tự ñánh giá và kết
luận rồi tiến hành kiểm tra nội dung.
Nhận xét : Hao phí ñiện năng, nhân lực, công sức, thời gian,
hiệu quả không cao.
1.4. Phát biểu bài toán
Cần kiểm tra một tệp khóa luận của một sinh viên bất kỳ của
một khoa bất kỳ có trùng với kho dữ liệu sẵn có của trường hay
không. Kho dữ liệu trong trường bao gồm các tập tin Word ñược lưu
lại từ các khóa trước ñã ra trường, có sưu tầm thêm một số các khóa
luận từ Internet hoặc từ các nguồn khác.
Với sự sao chép khá ña dạng, một số bài sao chép một hoặc
hai chương, có những bài sao chép toàn bộ chỉ sửa một số phần hình
thức, các thao tác ñịnh dạng văn bản, một số bài hoàn toàn không
chỉnh sửa… Yêu cầu ñặt ra là làm sao có thể kiểm tra hết toàn bộ
những sự ña dạng ñó, trong khi một bài gốc khi ñược sao chép lại có
thể bỏ bớt một vài ñoạn, một vài dòng. Hệ thống kiểm tra phải phát
hiện ra ñược những trường hợp ñó.
1.4.1. Nghiên cứu thuật toán tách từ khỏi văn bản
- Cho con trỏ chạy từ ñầu văn bản, gặp kí tự trắng thì dừng.
- Cắt từ cho vào mảng từ
- Từ ñược cắt là từ ñơn, không phụ thuộc nghĩa Tiếng Việt
8
- Cơ chế cắt từ dựa vào khoảng trắng, từ ñược cắt có thể là số,
các ký hiệu, công thức…
- Nếu gặp lại từ ñã cắt lần thứ hai, thứ ba… thì không ñưa từ
vào mảng từ mà tăng biến ñếm lên 1 ñơn vị mỗi lần.
- Sau khi kết thúc việc tách từ, sẽ có hai mảng : một mảng từ
ñược tách và một mảng lưu tần suất xuất hiện từ trong văn
bản.
- Mỗi từ không trùng nhau chỉ xuất hiện trong mảng một lần.
1.4.2. Nghiên cứu phương pháp so sánh văn bản
Lấy tỷ lệ % từ trùng
- Đầu vào là văn bản mới cần so sánh và một kho văn bản
cũ.
- Duyệt từ ñầu ñến cuối mảng từ của văn bản mới, lấy từ
ñầu tiên.
- Lấy văn bản cũ thứ nhất trong kho.
- Duyệt từ ñầu ñến cuối mảng từ của văn bản cũ thứ nhất.
- Lấy từ ñầu tiên của văn bản mới so với toàn bộ các từ
trong văn bản cũ, nếu tìm thấy sẽ tăng biến ñếm lên một
ñơn vị.
- Thực hiện tiếp tục cho từ thứ hai trong mảng văn bản
mới so với toàn bộ từ trong mảng văn bản cũ cho ñến khi
hết từ trong mảng văn bản mới.
- Quy về tỉ lệ phần trăm số từ giống với toàn bộ từ trong
mảng.
9
Lấy tỷ lệ % tần suất xuất hiện từ
- Lấy số lần xuất hiện từ của từ thứ nhất trong văn bản
mới.
- Lấy số lần xuất hiện từ của từ giống nó tìm thấy trong
văn bản cũ thứ nhất.
- Lập tỉ lệ phần trăm
- Lặp lại ñến khi hết từ và hết văn bản cũ trong kho.
Kết luận :
Dựa vào tỷ lệ % từ trùng và tỷ lệ % tần suất xuất
hiện từ ñể ñối chiếu với tỉ lệ % ñặt ra ñể kết luận kết quả
so sánh.
10
CHƯƠNG 2 : PHÂN TÍCH VÀ THIẾT KẾ ỨNG DỤNG
2.1 Phân tích nhu cầu
Chỉ cần so sánh giống và khác giữa hai văn bản cầm trên tay ñã
là khó, huống chi phải so sánh một văn bản với rất nhiều văn bản
khác là một việc quá khó khăn. Một khóa luận theo yêu cầu từ 50 ñến
60 trang, trùng phần một chắc gì ñã trùng phần hai, liệu ñã kết luận
sớm rằng chỉ sao chép phần một mà không sao chép phần hai, hay
dựa vào phần một chắc chắn ñoán biết phần hai sẽ hoàn toàn giống.
Với trách nhiệm của người hướng dẫn, họ phải ñọc hết quyển khóa
luận rồi so sánh thật tỉ mỉ mới ñưa ra kết luận có phải là sao chép hay
không. Một công việc hoàn toàn không dễ chút nào.
Với việc kiểm tra thủ công thì :
- Tốn kém thời gian : Rất lớn
- Độ tỉ mỉ : Rất cao
- Độ chính xác : Không cao
- Tốn kém nhân lực : Rất nhiều
Mỗi một năm ñi qua, lượng khóa luận lại tăng thêm. Không ai
có thể ñảm bảo các khóa luận sao chép không ñến từ các trường khác
cùng chuyên ngành, từ tỉnh thành khác trên cả nước, từ các trang web
mua bán ñề tài chuyên nghiệp, hay khó hơn là các ñề tài tiếng nước
ngoài ñược dịch ra tiếng Việt.
Cần thiết có một chương trình kiểm tra thật nhanh chóng, khoa
học và ñộ chính xác cao.
2.2 Đề xuất các bước triển khai
2.2.1 Mô hình giải pháp tổng quát
11
BEGIN
Đưa vào một tài liệu Word (.doc hoặc .docx)
Khai báo nguồn dữ liệu (giới hạn Khoa)
DO
- Kiểm tra với tệp 1
- Kiểm tra với tệp 2
- …
- Kiểm tra với tệp cuối
WHILE <nguồn dữ liệu trong Khoa vẫn còn>
IF <Kết quả trùng> THEN
Thông báo
ELSE
- Thông báo
- Lưu vào kho
END IF
END
2.2.2 Xây dựng kho dữ liệu
Để tạo ñược kho dữ liệu theo yêu cầu bài toán ban ñầu ñặt ra,
thư ký mỗi khoa sẽ phải lấy file từ từng ñĩa CD một copy vào trong
máy tính ñể có ñược nguồn dữ liệu. Ngoài ra, trong quá trình nghiên
cứu tìm tòi thêm, trợ lý hoặc các giáo viên trong khoa có thể cập nhật
thêm các file có ñược từ tất cả các nguồn trên Internet.
12
2.2.3 Cơ sở dữ liệu quan hệ
- Trong một khoa có thể chứa nhiều tệp tài liệu (tệp khóa luận)
- Trong một tệp tài liệu có thể chứa nhiều từ, nhưng từ của tệp nào
xếp riêng tệp ñó dù cho có nhiều từ trùng nhau giữa các tệp với
nhau.
2.3 Đề xuất giải pháp
2.3.1 Mô hình
Bước 1 : Đưa vào 1 file cần kiểm tra trùng lặp.
Bước 2 : Cắt từng từ cho vào mảng từ, gặp từ trùng ñếm tăng
lên 1
Bước 3 : Cắt xong 1 file sẽ có mảng từ kèm số lần xuất hiện từ
Bước 4 : Lấy 1 file trong kho dữ liệu theo khoa ra so sánh từng
từ với các từ trong mảng vừa tạo.
Bước 5 : Từ trong mảng file nhập với từ trong mảng file lấy
trong kho trùng nhau, sẽ có biến ñếm cộng dồn tăng
dần. Số lần xuất hiện từ trong tệp ñưa vào ñược so
với số lần xuất hiện từ trong tệp kho ñang xét theo tỷ
lệ chọn.
FACULTY
Idx
Faculty_Name
Delete_Flg
DOC
Idx
Faculty_Idx
Doc_name
Doc_ path
Delete_Flg
WORD
Idx
Doc_Idx
Word
Cnt
1
n
1
n
Đăng ký:
Đăng Nhận xét (Atom)
Không có nhận xét nào:
Đăng nhận xét