Implement QADD, QSUB, QDADD, QDSUB

2016-12-15 22:33:20 +00:00 · 2016-12-15 22:33:20 +00:00 · 96e46ba6b5
commit 96e46ba6b5
parent b178ab3bec
8 changed files with 210 additions and 43 deletions
--- a/src/CMakeLists.txt
+++ b/src/CMakeLists.txt
@ -21,6 +21,7 @@ set(SRCS
    frontend/translate/translate_arm/packing.cpp
    frontend/translate/translate_arm/parallel.cpp
    frontend/translate/translate_arm/reversal.cpp
    frontend/translate/translate_arm/saturated.cpp
    frontend/translate/translate_arm/status_register_access.cpp
    frontend/translate/translate_arm/synchronization.cpp
    frontend/translate/translate_arm/vfp2.cpp
--- a/src/backend_x64/emit_x64.cpp
+++ b/src/backend_x64/emit_x64.cpp
@ -1256,6 +1256,77 @@ void EmitX64::EmitByteReverseDual(IR::Block&, IR::Inst* inst) {
    code->bswap(result);
 }
 void EmitX64::EmitCountLeadingZeros(IR::Block&, IR::Inst* inst) {
    IR::Value a = inst->GetArg(0);
    if (cpu_info.has(Xbyak::util::Cpu::tLZCNT)) {
        Xbyak::Reg32 source = reg_alloc.UseGpr(a).cvt32();
        Xbyak::Reg32 result = reg_alloc.DefGpr(inst).cvt32();
        code->lzcnt(result, source);
    } else {
        Xbyak::Reg32 source = reg_alloc.UseScratchGpr(a).cvt32();
        Xbyak::Reg32 result = reg_alloc.DefGpr(inst).cvt32();
        // The result of a bsr of zero is undefined, but zf is set after it.
        code->bsr(result, source);
        code->mov(source, 0xFFFFFFFF);
        code->cmovz(result, source);
        code->neg(result);
        code->add(result, 31);
    }
 }
 void EmitX64::EmitSignedSaturatedAdd(IR::Block& block, IR::Inst* inst) {
    auto overflow_inst = inst->GetAssociatedPseudoOperation(IR::Opcode::GetOverflowFromOp);
    IR::Value a = inst->GetArg(0);
    IR::Value b = inst->GetArg(1);
    Xbyak::Reg32 result = reg_alloc.UseDefGpr(a, inst).cvt32();
    Xbyak::Reg32 addend = reg_alloc.UseGpr(b).cvt32();
    Xbyak::Reg32 overflow = overflow_inst ? reg_alloc.DefGpr(overflow_inst).cvt32() : reg_alloc.ScratchGpr().cvt32();
    code->mov(overflow, result);
    code->shr(overflow, 31);
    code->add(overflow, 0x7FFFFFFF);
    // overflow now contains 0x7FFFFFFF if a was positive, or 0x80000000 if a was negative
    code->add(result, addend);
    code->cmovo(result, overflow);
    if (overflow_inst) {
        EraseInstruction(block, overflow_inst);
        inst->DecrementRemainingUses();
        code->seto(overflow.cvt8());
    }
 }
 void EmitX64::EmitSignedSaturatedSub(IR::Block& block, IR::Inst* inst) {
    auto overflow_inst = inst->GetAssociatedPseudoOperation(IR::Opcode::GetOverflowFromOp);
    IR::Value a = inst->GetArg(0);
    IR::Value b = inst->GetArg(1);
    Xbyak::Reg32 result = reg_alloc.UseDefGpr(a, inst).cvt32();
    Xbyak::Reg32 subend = reg_alloc.UseGpr(b).cvt32();
    Xbyak::Reg32 overflow = overflow_inst ? reg_alloc.DefGpr(overflow_inst).cvt32() : reg_alloc.ScratchGpr().cvt32();
    code->mov(overflow, result);
    code->shr(overflow, 31);
    code->add(overflow, 0x7FFFFFFF);
    // overflow now contains 0x7FFFFFFF if a was positive, or 0x80000000 if a was negative
    code->sub(result, subend);
    code->cmovo(result, overflow);
    if (overflow_inst) {
        EraseInstruction(block, overflow_inst);
        inst->DecrementRemainingUses();
        code->seto(overflow.cvt8());
    }
 }
 void EmitX64::EmitPackedAddU8(IR::Block& block, IR::Inst* inst) {
    auto ge_inst = inst->GetAssociatedPseudoOperation(IR::Opcode::GetGEFromOp);
@ -1600,27 +1671,6 @@ void EmitX64::EmitPackedSaturatedSubS16(IR::Block&, IR::Inst* inst) {
    EmitPackedOperation(code, reg_alloc, inst, &Xbyak::CodeGenerator::psubsw);
 }
 void EmitX64::EmitCountLeadingZeros(IR::Block&, IR::Inst* inst) {
    IR::Value a = inst->GetArg(0);
    if (cpu_info.has(Xbyak::util::Cpu::tLZCNT)) {
        Xbyak::Reg32 source = reg_alloc.UseGpr(a).cvt32();
        Xbyak::Reg32 result = reg_alloc.DefGpr(inst).cvt32();
        code->lzcnt(result, source);
    } else {
        Xbyak::Reg32 source = reg_alloc.UseScratchGpr(a).cvt32();
        Xbyak::Reg32 result = reg_alloc.DefGpr(inst).cvt32();
        // The result of a bsr of zero is undefined, but zf is set after it.
        code->bsr(result, source);
        code->mov(source, 0xFFFFFFFF);
        code->cmovz(result, source);
        code->neg(result);
        code->add(result, 31);
    }
 }
 static void DenormalsAreZero32(BlockOfCode* code, Xbyak::Xmm xmm_value, Xbyak::Reg32 gpr_scratch) {
    using namespace Xbyak::util;
    Xbyak::Label end;
--- a/src/frontend/ir/ir_emitter.cpp
+++ b/src/frontend/ir/ir_emitter.cpp
@ -324,6 +324,22 @@ Value IREmitter::ByteReverseDual(const Value& a) {
    return Inst(Opcode::ByteReverseDual, {a});
 }
 Value IREmitter::CountLeadingZeros(const Value& a) {
    return Inst(Opcode::CountLeadingZeros, {a});
 }
 IREmitter::ResultAndOverflow IREmitter::SignedSaturatedAdd(const Value& a, const Value& b) {
    auto result = Inst(Opcode::SignedSaturatedAdd, {a, b});
    auto overflow = Inst(Opcode::GetOverflowFromOp, {result});
    return {result, overflow};
 }
 IREmitter::ResultAndOverflow IREmitter::SignedSaturatedSub(const Value& a, const Value& b) {
    auto result = Inst(Opcode::SignedSaturatedSub, {a, b});
    auto overflow = Inst(Opcode::GetOverflowFromOp, {result});
    return {result, overflow};
 }
 IREmitter::ResultAndGE IREmitter::PackedAddU8(const Value& a, const Value& b) {
    auto result = Inst(Opcode::PackedAddU8, {a, b});
    auto ge = Inst(Opcode::GetGEFromOp, {result});
@ -392,10 +408,6 @@ Value IREmitter::PackedSaturatedSubS16(const Value& a, const Value& b) {
    return Inst(Opcode::PackedSaturatedSubS16, {a, b});
 }
 Value IREmitter::CountLeadingZeros(const Value& a) {
    return Inst(Opcode::CountLeadingZeros, {a});
 }
 Value IREmitter::TransferToFP32(const Value& a) {
    return Inst(Opcode::TransferToFP32, {a});
 }
--- a/src/frontend/ir/ir_emitter.h
+++ b/src/frontend/ir/ir_emitter.h
@ -43,6 +43,11 @@ public:
        Value carry;
    };
    struct ResultAndOverflow {
        Value result;
        Value overflow;
    };
    struct ResultAndCarryAndOverflow {
        Value result;
        Value carry;
@ -127,6 +132,11 @@ public:
    Value ByteReverseWord(const Value& a);
    Value ByteReverseHalf(const Value& a);
    Value ByteReverseDual(const Value& a);
    Value CountLeadingZeros(const Value& a);
    ResultAndOverflow SignedSaturatedAdd(const Value& a, const Value& b);
    ResultAndOverflow SignedSaturatedSub(const Value& a, const Value& b);
    ResultAndGE PackedAddU8(const Value& a, const Value& b);
    ResultAndGE PackedSubU8(const Value& a, const Value& b);
    Value PackedHalvingAddU8(const Value& a, const Value& b);
@ -143,7 +153,6 @@ public:
    Value PackedSaturatedAddS16(const Value& a, const Value& b);
    Value PackedSaturatedSubU16(const Value& a, const Value& b);
    Value PackedSaturatedSubS16(const Value& a, const Value& b);
    Value CountLeadingZeros(const Value& a);
    Value TransferToFP32(const Value& a);
    Value TransferToFP64(const Value& a);
--- a/src/frontend/ir/opcodes.inc
+++ b/src/frontend/ir/opcodes.inc
@ -72,6 +72,13 @@ OPCODE(ZeroExtendByteToWord,    T::U32,         T::U8
 OPCODE(ByteReverseWord,         T::U32,         T::U32                                          )
 OPCODE(ByteReverseHalf,         T::U16,         T::U16                                          )
 OPCODE(ByteReverseDual,         T::U64,         T::U64                                          )
 OPCODE(CountLeadingZeros,       T::U32,         T::U32                                          )
 // Saturated instructions
 OPCODE(SignedSaturatedAdd,      T::U32,         T::U32,         T::U32                          )
 OPCODE(SignedSaturatedSub,      T::U32,         T::U32,         T::U32                          )
 // Packed instructions
 OPCODE(PackedAddU8,             T::U32,         T::U32,         T::U32                          )
 OPCODE(PackedSubU8,             T::U32,         T::U32,         T::U32                          )
 OPCODE(PackedHalvingAddU8,      T::U32,         T::U32,         T::U32                          )
@ -88,7 +95,6 @@ OPCODE(PackedSaturatedAddU16,   T::U32,         T::U32,         T::U32
 OPCODE(PackedSaturatedAddS16,   T::U32,         T::U32,         T::U32                          )
 OPCODE(PackedSaturatedSubU16,   T::U32,         T::U32,         T::U32                          )
 OPCODE(PackedSaturatedSubS16,   T::U32,         T::U32,         T::U32                          )
 OPCODE(CountLeadingZeros,       T::U32,         T::U32                                          )
 // Floating-point operations
 OPCODE(TransferToFP32,          T::F32,         T::U32                                          )
--- a/src/frontend/translate/translate_arm/saturated.cpp
+++ b/src/frontend/translate/translate_arm/saturated.cpp
@ -0,0 +1,78 @@
 /* This file is part of the dynarmic project.
 * Copyright (c) 2016 MerryMage
 * This software may be used and distributed according to the terms of the GNU
 * General Public License version 2 or any later version.
 */
 #include "translate_arm.h"
 namespace Dynarmic {
 namespace Arm {
 bool ArmTranslatorVisitor::arm_QADD(Cond cond, Reg n, Reg d, Reg m) {
    if (d == Reg::PC || n == Reg::PC || m == Reg::PC)
        return UnpredictableInstruction();
    // QADD <Rd>, <Rm>, <Rn>
    if (ConditionPassed(cond)) {
        auto a = ir.GetRegister(m);
        auto b = ir.GetRegister(n);
        auto result = ir.SignedSaturatedAdd(a, b);
        ir.SetRegister(d, result.result);
        ir.OrQFlag(result.overflow);
    }
    return true;
 }
 bool ArmTranslatorVisitor::arm_QSUB(Cond cond, Reg n, Reg d, Reg m) {
    if (d == Reg::PC || n == Reg::PC || m == Reg::PC)
        return UnpredictableInstruction();
    // QSUB <Rd>, <Rm>, <Rn>
    if (ConditionPassed(cond)) {
        auto a = ir.GetRegister(m);
        auto b = ir.GetRegister(n);
        auto result = ir.SignedSaturatedSub(a, b);
        ir.SetRegister(d, result.result);
        ir.OrQFlag(result.overflow);
    }
    return true;
 }
 bool ArmTranslatorVisitor::arm_QDADD(Cond cond, Reg n, Reg d, Reg m) {
    if (d == Reg::PC || n == Reg::PC || m == Reg::PC)
        return UnpredictableInstruction();
    // QDADD <Rd>, <Rm>, <Rn>
    if (ConditionPassed(cond)) {
        auto a = ir.GetRegister(m);
        auto b = ir.GetRegister(n);
        auto doubled = ir.SignedSaturatedAdd(b, b);
        ir.OrQFlag(doubled.overflow);
        auto result = ir.SignedSaturatedAdd(a, doubled.result);
        ir.SetRegister(d, result.result);
        ir.OrQFlag(result.overflow);
    }
    return true;
 }
 bool ArmTranslatorVisitor::arm_QDSUB(Cond cond, Reg n, Reg d, Reg m) {
    if (d == Reg::PC || n == Reg::PC || m == Reg::PC)
        return UnpredictableInstruction();
    // QDSUB <Rd>, <Rm>, <Rn>
    if (ConditionPassed(cond)) {
        auto a = ir.GetRegister(m);
        auto b = ir.GetRegister(n);
        auto doubled = ir.SignedSaturatedAdd(b, b);
        ir.OrQFlag(doubled.overflow);
        auto result = ir.SignedSaturatedSub(a, doubled.result);
        ir.SetRegister(d, result.result);
        ir.OrQFlag(result.overflow);
    }
    return true;
 }
 } // namespace Arm
 } // namespace Dynarmic
--- a/src/frontend/translate/translate_arm/translate_arm.h
+++ b/src/frontend/translate/translate_arm/translate_arm.h
@ -326,22 +326,10 @@ struct ArmTranslatorVisitor final {
    bool arm_UHSUB16(Cond cond, Reg n, Reg d, Reg m);
    // Saturated Add/Subtract instructions
-    bool arm_QADD(Cond cond, Reg n, Reg d, Reg m) {
+    bool arm_QADD(Cond cond, Reg n, Reg d, Reg m);
-        UNUSED(cond, d, m, n);
+    bool arm_QSUB(Cond cond, Reg n, Reg d, Reg m);
-        return InterpretThisInstruction();
+    bool arm_QDADD(Cond cond, Reg n, Reg d, Reg m);
-    }
+    bool arm_QDSUB(Cond cond, Reg n, Reg d, Reg m);
    bool arm_QSUB(Cond cond, Reg n, Reg d, Reg m) {
        UNUSED(cond, d, m, n);
        return InterpretThisInstruction();
    }
    bool arm_QDADD(Cond cond, Reg n, Reg d, Reg m) {
        UNUSED(cond, d, m, n);
        return InterpretThisInstruction();
    }
    bool arm_QDSUB(Cond cond, Reg n, Reg d, Reg m) {
        UNUSED(cond, d, m, n);
        return InterpretThisInstruction();
    }
    // Synchronization Primitive instructions
    bool arm_CLREX();
--- a/tests/arm/fuzz_arm.cpp
+++ b/tests/arm/fuzz_arm.cpp
@ -985,6 +985,29 @@ TEST_CASE("Test ARM misc instructions", "[JitX64]") {
    }
 }
 TEST_CASE("Fuzz ARM saturated instructions", "[JitX64]") {
    auto is_valid = [](u32 inst) -> bool {
        // R15 as Rd, Rn, or Rm is UNPREDICTABLE
        return Bits<16, 19>(inst) != 0b1111 &&
               Bits<12, 15>(inst) != 0b1111 &&
               Bits<0, 3>(inst) != 0b1111;
    };
    const std::array<InstructionGenerator, 4> instructions = {{
        InstructionGenerator("cccc00010000nnnndddd00000101mmmm", is_valid), // QADD
        InstructionGenerator("cccc00010010nnnndddd00000101mmmm", is_valid), // QSUB
        InstructionGenerator("cccc00010100nnnndddd00000101mmmm", is_valid), // QDADD
        InstructionGenerator("cccc00010110nnnndddd00000101mmmm", is_valid), // QDSUB
    }};
    SECTION("Saturated") {
        FuzzJitArm(4, 5, 10000, [&instructions]() -> u32 {
            return instructions[RandInt<size_t>(0, instructions.size() - 1)].Generate();
        });
    }
 }
 TEST_CASE("Fuzz ARM packing instructions", "[JitX64]") {
    auto is_pkh_valid = [](u32 inst) -> bool {
        // R15 as Rd, Rn, or Rm is UNPREDICTABLE