Microsoft, Office Dosyalarını Markdown Formatına Dönüştüren Yeni Python Aracını Yayınladı
Microsoft, açık kaynaklı yeni bir Python kütüphanesi olan MarkItDown’u duyurdu. Bu araç, kullanıcıların çeşitli dosya ve Office belgelerini Markdown formatına dönüştürmelerine olanak tanıyor.
Markdown, metin yapısını basit ve anlaşılır bir şekilde ifade etme amacı güden hafif bir işaretleme dilidir. Bu format, özellikle AI algoritmaları tarafından daha kolay anlaşılabilir olduğu için popülerliğini korumaya devam ediyor. Markdown, aynı zamanda GitHub, Jupyter Notebook gibi popüler araçlarla uyumlu olarak kullanılıyor. Microsoft’un MarkItDown kütüphanesi şu anda aşağıdaki dosya biçimlerini destekliyor;
- PDF (.pdf) dosyaları
- PowerPoint (.pptx) dosyaları
- Word (.docx) belgeleri
- Excel (.xlsx) dosyaları
- Görseller (EXIF meta verisi ve OCR)
- Ses dosyaları (EXIF meta verisi ve konuşma transkripti)
- HTML (özellikle Wikipedia gibi özel işlemler)
- Diğer metin tabanlı formatlar (csv, json, xml vb.)
Bu kütüphane, geliştiricilere ayrıca görselleri tanımlamak için Large Language Models (Büyük Dil Modelleri) kullanma imkanı da sunuyor.
MarkItDown, hızlı ve kolay bir şekilde dönüştürme işlemi yapabiliyor. Geliştiriciler, bu kütüphaneyi pip komutu ile yükleyebilirler. Ayrıca, araç MIT açık kaynak lisansı altında sunulduğu için geliştiriciler, aracı özgürce kullanabilir, değiştirebilir ve dağıtabilir. Ancak, dağıtım sırasında orijinal lisans ve telif hakkı bildirimini dahil etmeleri gerekmektedir.
Microsoft, MarkItDown kütüphanesini GitHub üzerinden indirme seçeneği de sunuyor. Ayrıca, bu kütüphane bir web uygulaması olarak da kullanılabiliyor.
MarkItDown, Microsoft tarafından geliştiriciler için güçlü bir araç olarak sunuluyor. Bu kütüphane, Markdown formatına dönüştürme işlemini hızlandırarak, metin analizi, içerik indeksleme gibi birçok kullanım senaryosunda fayda sağlayacak. Geliştiriciler MarkltDown kütüphanesine buradan erişebilir.